课程总览
本课程主题是“如何为通用大语言模型补充领域知识、教授任务技能、对齐行为偏好,并在部署阶段降低成本、提升效率”。推荐把整个流程理解为一个闭环:
数据治理
清洗、过滤、去重、PII 去除、合成问答对,为后续训练和评估准备高质量数据。
模型评估
使用基准测试、LLM-as-a-judge、zero-shot/few-shot 对比和实验追踪,建立可复现评估体系。
模型定制
用 CPT 注入领域知识,用 SFT 教授具体技能,用 DPO 调整风格、语气和偏好。
部署优化
通过量化、剪枝、知识蒸馏和推理引擎优化,在质量、速度和成本之间取得平衡。
学习目标
- 理解数据质量为什么决定 LLM 定制上限。
- 能够区分 CPT、SFT、DPO 的适用场景、输入数据和风险。
- 能够设计从主观目测到系统量化的 LLM 评估方案。
- 能够解释量化、剪枝、知识蒸馏对推理成本和准确率的影响。
- 能够把数据、训练、评估、部署串成可复现的端到端工程流程。
第 1 章:数据筛选与合成数据
学习目标
掌握从原始语料到可训练数据集的基本流程,理解文本清洗、过滤、去重、隐私处理和合成问答对的作用。
核心知识
LLM 的知识增强不是简单“多喂数据”。低质量数据会引入噪声、偏见、重复记忆和合规风险。高质量数据集应具备相关性、准确性、多样性、可追踪性和许可清晰性。
| 任务 | 目的 | 常见检查点 |
|---|---|---|
| 文本清洗 | 去除乱码、HTML 残留、模板噪声和异常换行 | 编码、语言、长度、重复符号、段落结构 |
| 数据过滤 | 筛掉低质量、无关或有害样本 | 主题相关性、毒性、广告、低信息量文本 |
| PII 去除 | 降低隐私泄露风险 | 邮箱、电话、地址、身份证号、真实姓名 |
| 合成数据 | 补充任务覆盖,构建 SFT 问答对 | 问题多样性、答案准确性、格式一致性、事实核查 |
第 2 章:大语言模型评估
学习目标
从“看起来不错”的主观判断升级为可量化、可复现、可比较的评估体系。
核心知识
模型定制前后都必须评估。没有基线与回归测试,就很难判断模型是否真正变好,也难以发现定制过程带来的副作用。
适合有标准答案的知识和推理任务,如 MMLU 类多学科测试。
适合开放式回答、风格、完整性和偏好评估;需要清晰 rubric。
比较模型在无示例与少量示例提示下的表现,观察上下文学习能力。
记录参数、指标、数据版本和结果,支持多轮实验比较。
第 3 章:LLM 定制:CPT、SFT 与 DPO
学习目标
理解三类定制方法分别解决什么问题,以及它们所需的数据类型和评估重点。
| 方法 | 主要目标 | 典型数据 | 主要风险 |
|---|---|---|---|
| CPT 持续预训练 | 注入领域知识和表达方式 | 领域语料、技术文档、学科文本 | 灾难性遗忘、数据污染、版权与隐私风险 |
| SFT 监督微调 | 教授任务技能和输出格式 | 指令-回答、问答对、代码模板、结构化示例 | 过拟合、格式僵化、样本质量不足 |
| DPO 直接偏好优化 | 对齐人类偏好、风格和安全边界 | chosen/rejected 成对偏好样本 | 偏好定义不清、奖励黑客、风格过度 |
选择建议
需要补充事实和术语时,优先考虑 CPT 或检索增强;需要模型学会固定任务时,优先考虑 SFT;需要改变回答风格、礼貌程度、安全偏好或口吻时,可考虑 DPO。
第 4 章:为部署优化 LLM
学习目标
理解部署阶段不仅看模型效果,也要看延迟、吞吐量、显存占用、稳定性和成本。
将权重或激活转换为低精度表示,例如 FP8/INT8,以降低显存并提高速度。
删除不重要结构。层级剪枝可直接减少 Transformer 层数,但可能损失能力。
让小型学生模型学习大型教师模型的输出,在成本和质量之间折中。
使用推理引擎、批处理、KV cache 管理等技术提升吞吐和响应速度。
第 5 章:实验手册
实验 1:数据治理流水线
- 准备一批领域文档样本。
- 执行清洗、去重、长度过滤、PII 检测。
- 输出训练集、验证集和处理日志。
实验 2:评估基线
- 选择一个基线模型和固定测试集。
- 分别运行 zero-shot 与 few-shot 测试。
- 记录准确率、人工评分、延迟和失败案例。
实验 3:SFT 问答数据构建
- 从文档生成问答对。
- 人工抽样检查事实准确性和覆盖范围。
- 划分训练/验证/测试集并记录数据来源。
实验 4:DPO 偏好对齐
- 构建 chosen/rejected 成对样本。
- 明确偏好标准:正式、简洁、安全或特定风格。
- 比较对齐前后的回答质量与风格一致性。
实验 5:部署优化评估
- 对同一模型比较原始、量化、剪枝/蒸馏后的性能。
- 记录延迟、吞吐量、显存占用和质量指标。
- 写出准确率–效率权衡结论。
第 6 章:课堂练习
- 概念辨析:说明数据清洗、数据过滤、数据去重和 PII 去除的区别。
- 方案设计:为一个“企业客服 LLM”设计评估方案,包括自动指标和人工评估。
- 方法选择:给出 3 个业务需求,并判断应使用 CPT、SFT、DPO 或部署优化。
- 风险审查:列出模型定制过程中最需要检查的版权、隐私和安全问题。
- 部署决策:在准确率下降 1% 但吞吐提升 40% 的情况下,如何决定是否上线?
第 7 章:复习与自测
完成教材学习后,建议按以下顺序复习:
- 用知识卡片复习术语,重点掌握缩写的英文全称、中文含义和适用场景。
- 进入题库系统完成随机刷题,重点查看错题解析。
- 完成一次模拟考试,检验是否理解端到端工作流。