参考公开课程简介的学习资料 · Online Textbook

大语言模型知识增强与模型定制
在线教材学习页(非官方版)

本页把 Word 教材中的核心内容整理为可在线阅读的章节化学习页面,便于在浏览器中学习、复习和跳转到题库或知识卡片系统。

引用与免责声明:本页为参考公开课程简介和用户上传课程大纲整理、改写与扩展的非官方学习资料。它不是 NVIDIA 或其授权方发布的官方教材、题库、考试或证书培训资料。NVIDIA、NeMo、TensorRT-LLM、MLflow 等名称仅用于说明相关技术主题。

课程总览

本课程主题是“如何为通用大语言模型补充领域知识、教授任务技能、对齐行为偏好,并在部署阶段降低成本、提升效率”。推荐把整个流程理解为一个闭环:

Step 1

数据治理

清洗、过滤、去重、PII 去除、合成问答对,为后续训练和评估准备高质量数据。

Step 2

模型评估

使用基准测试、LLM-as-a-judge、zero-shot/few-shot 对比和实验追踪,建立可复现评估体系。

Step 3

模型定制

用 CPT 注入领域知识,用 SFT 教授具体技能,用 DPO 调整风格、语气和偏好。

Step 4

部署优化

通过量化、剪枝、知识蒸馏和推理引擎优化,在质量、速度和成本之间取得平衡。

学习目标

  • 理解数据质量为什么决定 LLM 定制上限。
  • 能够区分 CPT、SFT、DPO 的适用场景、输入数据和风险。
  • 能够设计从主观目测到系统量化的 LLM 评估方案。
  • 能够解释量化、剪枝、知识蒸馏对推理成本和准确率的影响。
  • 能够把数据、训练、评估、部署串成可复现的端到端工程流程。

第 1 章:数据筛选与合成数据

学习目标

掌握从原始语料到可训练数据集的基本流程,理解文本清洗、过滤、去重、隐私处理和合成问答对的作用。

核心知识

LLM 的知识增强不是简单“多喂数据”。低质量数据会引入噪声、偏见、重复记忆和合规风险。高质量数据集应具备相关性、准确性、多样性、可追踪性和许可清晰性。

任务目的常见检查点
文本清洗去除乱码、HTML 残留、模板噪声和异常换行编码、语言、长度、重复符号、段落结构
数据过滤筛掉低质量、无关或有害样本主题相关性、毒性、广告、低信息量文本
PII 去除降低隐私泄露风险邮箱、电话、地址、身份证号、真实姓名
合成数据补充任务覆盖,构建 SFT 问答对问题多样性、答案准确性、格式一致性、事实核查
课堂练习:给定一段企业文档,列出至少 5 类需要清洗或脱敏的内容,并说明是否适合进入 CPT 数据集或 SFT 数据集。

第 2 章:大语言模型评估

学习目标

从“看起来不错”的主观判断升级为可量化、可复现、可比较的评估体系。

核心知识

模型定制前后都必须评估。没有基线与回归测试,就很难判断模型是否真正变好,也难以发现定制过程带来的副作用。

Benchmark

适合有标准答案的知识和推理任务,如 MMLU 类多学科测试。

LLM-as-a-judge

适合开放式回答、风格、完整性和偏好评估;需要清晰 rubric。

Zero-shot / Few-shot

比较模型在无示例与少量示例提示下的表现,观察上下文学习能力。

MLflow

记录参数、指标、数据版本和结果,支持多轮实验比较。

课堂练习:设计一个用于评估“医学文献摘要模型”的 rubric,至少包含准确性、完整性、幻觉、语言清晰度和安全性 5 个维度。

第 3 章:LLM 定制:CPT、SFT 与 DPO

学习目标

理解三类定制方法分别解决什么问题,以及它们所需的数据类型和评估重点。

方法主要目标典型数据主要风险
CPT 持续预训练注入领域知识和表达方式领域语料、技术文档、学科文本灾难性遗忘、数据污染、版权与隐私风险
SFT 监督微调教授任务技能和输出格式指令-回答、问答对、代码模板、结构化示例过拟合、格式僵化、样本质量不足
DPO 直接偏好优化对齐人类偏好、风格和安全边界chosen/rejected 成对偏好样本偏好定义不清、奖励黑客、风格过度

选择建议

需要补充事实和术语时,优先考虑 CPT 或检索增强;需要模型学会固定任务时,优先考虑 SFT;需要改变回答风格、礼貌程度、安全偏好或口吻时,可考虑 DPO。

课堂练习:判断以下需求分别更适合 CPT、SFT 还是 DPO:①让模型熟悉公司内部产品文档;②让模型按 JSON 输出质控报告;③让模型回答更正式、更保守。

第 4 章:为部署优化 LLM

学习目标

理解部署阶段不仅看模型效果,也要看延迟、吞吐量、显存占用、稳定性和成本。

量化 Quantization

将权重或激活转换为低精度表示,例如 FP8/INT8,以降低显存并提高速度。

剪枝 Pruning

删除不重要结构。层级剪枝可直接减少 Transformer 层数,但可能损失能力。

知识蒸馏 Distillation

让小型学生模型学习大型教师模型的输出,在成本和质量之间折中。

推理优化

使用推理引擎、批处理、KV cache 管理等技术提升吞吐和响应速度。

课堂练习:如果一个模型准确率高但显存占用过大、延迟过高,你会如何组合量化、剪枝和蒸馏?请说明每一步的评估指标。

第 5 章:实验手册

实验 1:数据治理流水线

  1. 准备一批领域文档样本。
  2. 执行清洗、去重、长度过滤、PII 检测。
  3. 输出训练集、验证集和处理日志。

实验 2:评估基线

  1. 选择一个基线模型和固定测试集。
  2. 分别运行 zero-shot 与 few-shot 测试。
  3. 记录准确率、人工评分、延迟和失败案例。

实验 3:SFT 问答数据构建

  1. 从文档生成问答对。
  2. 人工抽样检查事实准确性和覆盖范围。
  3. 划分训练/验证/测试集并记录数据来源。

实验 4:DPO 偏好对齐

  1. 构建 chosen/rejected 成对样本。
  2. 明确偏好标准:正式、简洁、安全或特定风格。
  3. 比较对齐前后的回答质量与风格一致性。

实验 5:部署优化评估

  1. 对同一模型比较原始、量化、剪枝/蒸馏后的性能。
  2. 记录延迟、吞吐量、显存占用和质量指标。
  3. 写出准确率–效率权衡结论。

第 6 章:课堂练习

  1. 概念辨析:说明数据清洗、数据过滤、数据去重和 PII 去除的区别。
  2. 方案设计:为一个“企业客服 LLM”设计评估方案,包括自动指标和人工评估。
  3. 方法选择:给出 3 个业务需求,并判断应使用 CPT、SFT、DPO 或部署优化。
  4. 风险审查:列出模型定制过程中最需要检查的版权、隐私和安全问题。
  5. 部署决策:在准确率下降 1% 但吞吐提升 40% 的情况下,如何决定是否上线?

第 7 章:复习与自测

完成教材学习后,建议按以下顺序复习:

  1. 用知识卡片复习术语,重点掌握缩写的英文全称、中文含义和适用场景。
  2. 进入题库系统完成随机刷题,重点查看错题解析。
  3. 完成一次模拟考试,检验是否理解端到端工作流。