大语言模型知识增强与模型定制｜在线教材学习页（非官方版）

第 1 章：数据筛选与合成数据

学习目标

掌握从原始语料到可训练数据集的基本流程，理解文本清洗、过滤、去重、隐私处理和合成问答对的作用。

核心知识

LLM 的知识增强不是简单“多喂数据”。低质量数据会引入噪声、偏见、重复记忆和合规风险。高质量数据集应具备相关性、准确性、多样性、可追踪性和许可清晰性。

任务	目的	常见检查点
文本清洗	去除乱码、HTML 残留、模板噪声和异常换行	编码、语言、长度、重复符号、段落结构
数据过滤	筛掉低质量、无关或有害样本	主题相关性、毒性、广告、低信息量文本
PII 去除	降低隐私泄露风险	邮箱、电话、地址、身份证号、真实姓名
合成数据	补充任务覆盖，构建 SFT 问答对	问题多样性、答案准确性、格式一致性、事实核查

课堂练习：给定一段企业文档，列出至少 5 类需要清洗或脱敏的内容，并说明是否适合进入 CPT 数据集或 SFT 数据集。

第 2 章：大语言模型评估

学习目标

从“看起来不错”的主观判断升级为可量化、可复现、可比较的评估体系。

核心知识

模型定制前后都必须评估。没有基线与回归测试，就很难判断模型是否真正变好，也难以发现定制过程带来的副作用。

Benchmark

适合有标准答案的知识和推理任务，如 MMLU 类多学科测试。

LLM-as-a-judge

适合开放式回答、风格、完整性和偏好评估；需要清晰 rubric。

Zero-shot / Few-shot

比较模型在无示例与少量示例提示下的表现，观察上下文学习能力。

MLflow

记录参数、指标、数据版本和结果，支持多轮实验比较。

课堂练习：设计一个用于评估“医学文献摘要模型”的 rubric，至少包含准确性、完整性、幻觉、语言清晰度和安全性 5 个维度。

第 3 章：LLM 定制：CPT、SFT 与 DPO

学习目标

理解三类定制方法分别解决什么问题，以及它们所需的数据类型和评估重点。

方法	主要目标	典型数据	主要风险
CPT 持续预训练	注入领域知识和表达方式	领域语料、技术文档、学科文本	灾难性遗忘、数据污染、版权与隐私风险
SFT 监督微调	教授任务技能和输出格式	指令-回答、问答对、代码模板、结构化示例	过拟合、格式僵化、样本质量不足
DPO 直接偏好优化	对齐人类偏好、风格和安全边界	chosen/rejected 成对偏好样本	偏好定义不清、奖励黑客、风格过度

选择建议

需要补充事实和术语时，优先考虑 CPT 或检索增强；需要模型学会固定任务时，优先考虑 SFT；需要改变回答风格、礼貌程度、安全偏好或口吻时，可考虑 DPO。

课堂练习：判断以下需求分别更适合 CPT、SFT 还是 DPO：①让模型熟悉公司内部产品文档；②让模型按 JSON 输出质控报告；③让模型回答更正式、更保守。

第 4 章：为部署优化 LLM

学习目标

理解部署阶段不仅看模型效果，也要看延迟、吞吐量、显存占用、稳定性和成本。

量化 Quantization

将权重或激活转换为低精度表示，例如 FP8/INT8，以降低显存并提高速度。

剪枝 Pruning

删除不重要结构。层级剪枝可直接减少 Transformer 层数，但可能损失能力。

知识蒸馏 Distillation

让小型学生模型学习大型教师模型的输出，在成本和质量之间折中。

推理优化

使用推理引擎、批处理、KV cache 管理等技术提升吞吐和响应速度。

课堂练习：如果一个模型准确率高但显存占用过大、延迟过高，你会如何组合量化、剪枝和蒸馏？请说明每一步的评估指标。

第 5 章：实验手册

实验 1：数据治理流水线

准备一批领域文档样本。
执行清洗、去重、长度过滤、PII 检测。
输出训练集、验证集和处理日志。

实验 2：评估基线

选择一个基线模型和固定测试集。
分别运行 zero-shot 与 few-shot 测试。
记录准确率、人工评分、延迟和失败案例。

实验 3：SFT 问答数据构建

从文档生成问答对。
人工抽样检查事实准确性和覆盖范围。
划分训练/验证/测试集并记录数据来源。

实验 4：DPO 偏好对齐

构建 chosen/rejected 成对样本。
明确偏好标准：正式、简洁、安全或特定风格。
比较对齐前后的回答质量与风格一致性。

实验 5：部署优化评估

对同一模型比较原始、量化、剪枝/蒸馏后的性能。
记录延迟、吞吐量、显存占用和质量指标。
写出准确率–效率权衡结论。

第 6 章：课堂练习

概念辨析：说明数据清洗、数据过滤、数据去重和 PII 去除的区别。
方案设计：为一个“企业客服 LLM”设计评估方案，包括自动指标和人工评估。
方法选择：给出 3 个业务需求，并判断应使用 CPT、SFT、DPO 或部署优化。
风险审查：列出模型定制过程中最需要检查的版权、隐私和安全问题。
部署决策：在准确率下降 1% 但吞吐提升 40% 的情况下，如何决定是否上线？

第 7 章：复习与自测

完成教材学习后，建议按以下顺序复习：

用知识卡片复习术语，重点掌握缩写的英文全称、中文含义和适用场景。
进入题库系统完成随机刷题，重点查看错题解析。
完成一次模拟考试，检验是否理解端到端工作流。

打开知识卡片打开题库系统下载 Word 教材

大语言模型知识增强与模型定制
在线教材学习页（非官方版）

课程总览

数据治理

模型评估

模型定制

部署优化

学习目标

第 1 章：数据筛选与合成数据

学习目标

核心知识

第 2 章：大语言模型评估

学习目标

核心知识

第 3 章：LLM 定制：CPT、SFT 与 DPO

学习目标

选择建议

第 4 章：为部署优化 LLM

学习目标

第 5 章：实验手册

实验 1：数据治理流水线

实验 2：评估基线

实验 3：SFT 问答数据构建

实验 4：DPO 偏好对齐

实验 5：部署优化评估

第 6 章：课堂练习

第 7 章：复习与自测

章节检索

大语言模型知识增强与模型定制在线教材学习页（非官方版）

课程总览

数据治理

模型评估

模型定制

部署优化

学习目标

第 1 章：数据筛选与合成数据

学习目标

核心知识

第 2 章：大语言模型评估

学习目标

核心知识

第 3 章：LLM 定制：CPT、SFT 与 DPO

学习目标

选择建议

第 4 章：为部署优化 LLM

学习目标

第 5 章：实验手册

实验 1：数据治理流水线

实验 2：评估基线

实验 3：SFT 问答数据构建

实验 4：DPO 偏好对齐

实验 5：部署优化评估

第 6 章：课堂练习

第 7 章：复习与自测

章节检索

大语言模型知识增强与模型定制
在线教材学习页（非官方版）