Agentic AI Professional
Agentic AI Professional 非官方中文学习教材
参考 NVIDIA 官网公开认证简介与公开学习指南,并结合通用工程实践原创扩展整理
适用对象:AI/ML 工程师、软件开发者、解决方案架构师、数据科学家、技术负责人
内容包括:考试地图、详细讲义、课堂练习、代码模板、课后测试题与答案解析
| 项目 | 说明 |
|---|---|
| 考试主题 | Agentic AI / 代理式 AI |
| 考试形式 | 线下考试;单选/多选题;约 60-70 题;120 分钟 |
| 教材定位 | 非官方复习教材。用于系统复习、课堂授课和模拟训练;最终考试要求以 NVIDIA 官网为准。 |
| 版本 | 2026-04 扩展版 |
引用说明:本教材参考 NVIDIA 官网公开认证简介、公开学习指南和相关公开技术文档,并结合通用 Agentic AI 工程实践原创扩展整理;不是 NVIDIA 出品或授权的教材、课程或题库。
非官方使用说明
本教材为非官方学习资料,基于公开认证简介、公开学习指南、公开技术文档、通用工程实践和原创教学扩展整理;不是 参考 NVIDIA 公开课程/认证简介的学习资料、出品或授权教材、出品或授权题库或公开考试材料,也未获得 NVIDIA 授权、认证、合作或背书;不包含 NVIDIA DLI 等受限课程的内部课件、视频、实验环境、测验题、公开考试真题或受限资料。NVIDIA、NVIDIA NIM、NeMo、Triton、TensorRT-LLM、DLI 等名称可能是 NVIDIA Corporation 的商标或注册商标;本资料仅为学习、教学和技术说明中的合理引用。请以 NVIDIA 官网、官方文档、考试服务商说明和相关许可条款为准。
前言:如何使用本教材
本教材面向学习 Agentic AI Professional 方向知识、准备相关认证/考试或进行企业内训的学习者。教材参考公开考试主题说明组织,并进行原创教学扩展;每章包含学习目标、考点拆解、核心讲义、课堂练习、代码模板、课后测试题和答案解析。
复习时建议采用“先理解架构,再掌握开发,再做评估和部署,最后补齐安全与人机监督”的路径。考试更偏场景判断而不是单纯名词记忆,因此每章的课堂练习和测试题应结合真实系统问题反复演练。
| 权重说明 NVIDIA 官网认证页面与 PDF 学习指南在“部署和扩展”“运行、监测和维护”的权重上存在差异。本教材保留两个来源中的关键考点,实际考试以 NVIDIA 官网和考试中心最新说明为准。 |
|---|
目录
前言:如何使用本教材
考试总体知识地图
第1章 智能体架构和设计
第2章 智能体开发
第3章 评估和调优
第4章 部署和扩展
第5章 认知、规划和记忆
第6章 知识整合和数据处理
第7章 NVIDIA 相关平台工具概览
第8章 运行、监控和维护
第9章 安全、道德与合规
第10章 人类-AI 交互和监督
附录 A:核心术语速查表
附录 B:综合模拟考试与答案解析
参考资料
| Word 使用提示 本文件已使用 Word 标题样式。若需要带页码的动态目录,可在 Word 中使用“引用 - 目录”自动生成或更新。 |
|---|
考试总体知识地图
NVIDIA 官网公开认证简介说明,该方向关注设计、开发、部署和管理先进代理式 AI 解决方案的能力,主题涉及多智能体交互、分布式推理、可扩展性和安全/道德保障等。学习时应把智能体看作一个生产系统,而不是单一模型调用。学习时应把智能体看作一个生产系统,而不是单一模型调用。
| 模块 | 核心问题 | 复习关键词 |
|---|---|---|
| 智能体架构和设计 | 系统如何组织? | ReAct、多智能体、记忆、通信、知识图谱、状态编排 |
| 智能体开发 | 如何构建并集成? | Prompt、工具调用、API、多模态、错误处理、流式反馈 |
| 评估和调优 | 如何判断好坏? | benchmark、任务成功率、反馈、A/B、延迟成本权衡 |
| 部署和扩展 | 如何上线和规模化? | Docker、Kubernetes、CI/CD、MLOps、负载均衡、高可用 |
| 认知、规划和记忆 | 如何计划和保持上下文? | 任务分解、规划、短期/长期记忆、状态机 |
| 知识整合和数据处理 | 如何接入外部知识? | RAG、向量数据库、混合检索、ETL、数据质量 |
| NVIDIA 相关平台工具概览 | 如何使用 NVIDIA 工具链? | NIM、NeMo Guardrails、Triton、TensorRT-LLM |
| 运行、监控和维护 | 上线后如何稳定运行? | trace、日志、RCA、版本控制、自动调优 |
| 安全、道德与合规 | 如何控制风险? | 权限、隐私、偏见、有害内容、许可、审计 |
| 人类-AI 交互和监督 | 人如何监督? | HITL、反馈闭环、透明机制、可追溯 |
推荐学习路径
第一轮:快速通读十章,建立“智能体=模型+工具+记忆+编排+安全+监控”的整体框架。
第二轮:逐章完成课堂练习,尝试把每个概念映射到一个真实业务系统。
第三轮:完成每章课后测试题,重点复盘错题的场景判断逻辑。
第四轮:完成附录综合模拟考试,并根据错题回到对应章节复习。
第1章 智能体架构和设计
| 本章在考试中的位置 官方大纲将本模块列为高权重模块之一,重点考查智能体系统的结构设计、智能体之间的交互、推理和通信,以及多智能体工作流、记忆和知识图谱等能力。 |
|---|
学习目标
区分反应式、推理式与混合式智能体架构,并判断适用场景。
解释 ReAct、工具调用、观察反馈和状态更新之间的关系。
设计多智能体系统中的角色、通信协议、终止条件和冲突处理机制。
说明短期记忆、长期记忆和知识图谱在智能体系统中的作用。
考试考点拆解
| 考点 | 应掌握内容 | 易错点 |
|---|---|---|
| Agentic AI 基础结构 | 理解 UI、LLM、工具、记忆、规划器、执行器、环境、监控和护栏之间的边界。 | 把聊天机器人等同于智能体;忽略工具和状态。 |
| ReAct 与有状态编排 | 掌握 Reasoning-Acting-Observation 循环,知道何时需要状态机或图编排。 | 让模型“自己想办法”而没有最大步数和终止条件。 |
| 多智能体协作 | 会设计 supervisor-worker、planner-executor、critic-reviewer 等模式。 | 多智能体没有角色边界,导致重复调用和死循环。 |
| 记忆与知识图谱 | 能够把上下文记忆、语义记忆、任务日志和实体关系图结合。 | 把上下文窗口误认为长期记忆。 |
核心讲义
1.1 Agentic AI 系统的组成
代理式 AI 系统的目标不是简单回答一句话,而是在给定目标、约束和环境的情况下持续感知、计划、行动并调整。一个可生产运行的智能体通常由用户界面、推理核心、工具层、记忆层、规划器、执行器、外部环境、监控系统和安全护栏组成。考试题经常通过一个故障场景考查你是否能判断缺失的是记忆、编排、工具 schema、错误恢复还是安全控制。
从工程角度看,智能体架构应把“模型推理”和“系统执行”分开。LLM 可以负责意图理解、任务分解和候选行动选择;系统层负责权限、状态、工具调用、幂等性、审计和回滚。这种分层能减少幻觉导致的真实世界副作用。
1.2 反应式、推理式与混合式智能体
反应式智能体适合短路径、低风险、低不确定性的任务,例如根据用户问题选择一个固定工具并返回结果。推理式智能体适合信息不完整、需要多步计划和环境反馈的任务,例如“检索文档、比较方案、生成报告并请求审批”。混合式智能体会先判断任务复杂度,简单任务直接执行,复杂任务进入计划-执行-检查循环。
考试中如果场景强调“实时响应、低延迟、固定动作”,通常不需要复杂规划;如果场景强调“多步骤、工具失败、上下文保持、人工审批”,则应选择有状态编排和规划机制。
1.3 ReAct 与智能体循环
ReAct 是将推理和行动交替进行的典型范式。智能体先分析当前目标和信息缺口,再选择工具或下一步动作,观察工具返回结果,然后更新内部状态并继续。它的价值在于让模型不只生成文本,而能利用外部环境反馈修正方向。
生产系统中不应暴露完整内部推理链,但可以暴露可审计的操作轨迹,例如“已检索哪些数据源、调用过哪些工具、当前完成到哪一步”。这既能提升用户信任,也能支持故障定位。
1.4 多智能体架构设计
多智能体系统的核心不是数量,而是分工。Supervisor-worker 适合流程分派;planner-executor 适合复杂任务;researcher-writer-reviewer 适合报告生成;critic 或 reviewer 智能体适合质量控制。多智能体系统需要明确输入输出协议、状态共享方式、冲突解决机制、最大轮数和终止标准。
常见失败模式包括:多个智能体重复执行相同工具、缺少最终决策者、所有智能体都能写入同一资源、没有任务锁和幂等检查、没有错误升级路径。
1.5 记忆、状态与知识图谱
短期记忆用于当前任务上下文和中间状态;长期记忆用于用户偏好、历史任务和组织知识。语义记忆通常由向量数据库实现,结构化记忆可由关系数据库或键值存储实现,关系推理则可通过知识图谱表达实体和边。
知识图谱适合处理“谁和谁相关”“某团队做过哪些方向”“某流程依赖哪些系统”这类关系型问题。它经常与 RAG 搭配:向量检索提供语义片段,知识图谱提供实体关系和约束,LLM 负责综合解释。
课堂练习
| 课堂练习 1.1 给出一个“论文初审智能体”的架构图:列出 UI、检索、工具、记忆、人工审批和日志模块,并说明每个模块的输入输出。 |
|---|
| 课堂练习 1.2 将“自动生成会议纪要并发送给参会人”拆成至少 6 个智能体步骤,并标出哪些步骤必须人工确认。 |
|---|
| 课堂练习 1.3 比较 planner-executor 与 researcher-writer-reviewer 两种架构,说明它们分别适合什么任务,以及可能的失败模式。 |
|---|
代码模板
模板 1:最小智能体循环
from typing import Any, Dict, List class Tool: name: str description: str def run(self, **kwargs) -> Dict[str, Any]: raise NotImplementedError class AgentState(dict): # 保存目标、历史观察、工具结果和终止标记。 class Agent: def __init__(self, model, tools: List[Tool], max_steps: int = 8): self.model = model self.tools = {t.name: t for t in tools} self.max_steps = max_steps def decide(self, state: AgentState) -> Dict[str, Any]: # 返回格式示例:{"action": "search", "args": {"query": "..."}} return self.model.plan(state, available_tools=list(self.tools)) def run(self, user_goal: str) -> Dict[str, Any]: state = AgentState(goal=user_goal, observations=[], done=False) for step in range(self.max_steps): decision = self.decide(state) if decision.get("action") == "final": state["done"] = True state["answer"] = decision.get("answer") break tool = self.tools[decision["action"]] result = tool.run(**decision.get("args", {})) state["observations"].append({"step": step, "decision": decision, "result": result}) return state
模板 2:多智能体角色定义
AGENTS = { "supervisor": { "goal": "拆分任务、分派子任务、检查终止条件", "can_write": False, "handoff_to": ["researcher", "executor", "reviewer"] }, "researcher": { "goal": "检索证据并返回来源", "can_write": False, "handoff_to": ["supervisor"] }, "executor": { "goal": "调用经过授权的工具执行动作", "can_write": True, "requires_approval": ["send_email", "delete_file", "update_database"] }, "reviewer": { "goal": "检查事实、合规性和输出格式", "can_write": False, "handoff_to": ["supervisor"] } }
课后测试题
1.1 单选:某客服助手能回答 FAQ,但在需要查询订单、修改地址、通知仓库时经常失败。最可能缺失的架构能力是什么?
A. 更大的上下文窗口
B. 工具调用、权限和状态编排
C. 更漂亮的 UI
D. 更高温度参数
1.2 多选:多智能体系统上线前应重点定义哪些内容?
A. 每个智能体的角色边界
B. 共享状态和通信协议
C. 最大轮数和终止条件
D. 让所有智能体都可以无审批写入数据库
1.3 单选:短期记忆最适合保存什么?
A. 当前会话的任务状态和中间工具结果
B. 所有用户多年的历史偏好
C. 公开互联网知识全集
D. 模型参数
1.4 单选:知识图谱相比纯向量检索最明显的优势是什么?
A. 一定能降低 GPU 成本
B. 更适合表达实体关系与关系推理
C. 不需要数据清洗
D. 可以完全替代 LLM
1.5 多选:ReAct 循环中通常包含哪些环节?
A. 推理或决策
B. 行动或工具调用
C. 观察工具返回
D. 忽略环境反馈直接输出
答案与解析
1.1 答案:B
解析:该场景需要和外部系统交互并保持状态,核心是工具层、权限、编排和审计,而不是单纯扩大上下文。
1.2 答案:A/B/C
解析:多智能体最容易出问题的是边界、通信、状态和终止条件。无审批写入数据库会放大风险。
1.3 答案:A
解析:短期记忆关注当前会话或当前任务上下文;长期偏好应进入长期记忆并受权限和过期策略控制。
1.4 答案:B
解析:知识图谱擅长结构化实体和关系,常与 RAG 互补。
1.5 答案:A/B/C
解析:ReAct 的核心是推理、行动、观察和继续更新状态。
第2章 智能体开发
| 本章在考试中的位置 本模块强调真正构建智能体的能力,包括提示词、动态提示链、多模态模型、自定义工具、API、错误处理、流式交互和决策策略优化。 |
|---|
学习目标
设计包含角色、任务、工具、约束和输出 schema 的生产级提示词。
为工具和 API 定义清晰参数、返回格式、错误处理和权限边界。
解释 retry、timeout、fallback、circuit breaker 与 graceful degradation 的区别。
构建支持流式输出和用户反馈的多轮对话流程。
考试考点拆解
| 考点 | 应掌握内容 | 易错点 |
|---|---|---|
| Prompt 与动态提示链 | 提示词应包含目标、输入、输出、工具、约束、示例和失败策略;提示链应根据状态分支。 | 把 Prompt 当成一次性自然语言描述。 |
| 工具/API/函数调用 | 定义 JSON schema、参数校验、错误码、超时、重试、幂等性和审计。 | 让 LLM 自由拼接 API 参数且不校验。 |
| 多模态集成 | 处理文本、图像、音频或结构化数据输入,并进行预处理和结果对齐。 | 忽略 OCR/转写错误和隐私信息。 |
| 故障恢复 | 区分临时错误、权限错误、数据为空和模型格式错误。 | 所有错误都盲目重试。 |
核心讲义
2.1 生产级 Prompt 的结构
生产级 Prompt 不是“请你认真回答”这样一句话,而是一个可维护的接口说明。它应描述智能体角色、业务目标、可用工具、工具选择规则、输入输出格式、边界条件、引用要求、安全限制和错误处理策略。对于下游系统需要解析的输出,应使用 JSON schema 或严格字段规范。
动态提示链会根据任务状态选择不同路径。例如简单事实问答可以直接回答;企业文档问题先检索再生成;高风险写操作先检查权限和请求确认;工具失败时进入重试、降级或人工升级。
2.2 工具调用设计
工具调用的工程质量决定智能体是否能稳定落地。每个工具都应有明确名称、描述、输入 schema、返回 schema、错误码、超时策略和权限要求。写操作工具还应具备幂等键,避免由于重试导致重复发送邮件、重复扣款或重复写入。
工具调用题常考“为什么智能体重复提交”“为什么删除了错误文件”“为什么调用了未授权 API”。正确思路通常是:最小权限、参数校验、人工确认、审计日志、幂等性和事务边界。
2.3 错误处理和故障恢复
临时网络错误可以通过指数退避重试;持续失败应触发熔断;权限错误不应重试,而应返回授权提示或升级;检索为空可以改写 query 或请求补充信息;输出格式错误可用 schema 校验后重生成。
优雅降级意味着在主要能力不可用时提供次优但安全的服务。例如向量库不可用时返回“当前无法访问知识库”,而不是编造答案;邮件系统不可用时保存草稿而不是假称已发送。
2.4 多模态与流式交互
多模态智能体可能处理截图、PDF、音频、视频和传感器数据。开发时要考虑预处理、隐私检测、模型选择、模态对齐、置信度和延迟。多模态输入可能包含隐私信息或识别错误,因此应在进入 LLM 前进行必要的清洗和标注。
流式输出能改善用户体验,但不能牺牲安全。高风险场景中,应先完成工具权限检查和输出安全检查,再向用户展示最终结论或执行动作。
课堂练习
| 课堂练习 2.1 把“根据上传 PDF 生成摘要并发送邮件”的流程设计成动态提示链,标出每个分支的触发条件。 |
|---|
| 课堂练习 2.2 为一个“查询订单状态”工具写出工具名称、输入参数、返回字段、错误码和权限要求。 |
|---|
| 课堂练习 2.3 分析一个工具失败案例:网络超时、权限不足、参数缺失、结果为空分别应如何处理? |
|---|
代码模板
模板 1:工具 schema 与参数校验
from pydantic import BaseModel, Field, ValidationError from typing import Literal class OrderStatusArgs(BaseModel): order_id: str = Field(min_length=6, description="订单号") user_id: str = Field(description="当前登录用户 ID") class ToolResult(BaseModel): ok: bool code: Literal["OK", "NOT_FOUND", "FORBIDDEN", "TIMEOUT", "BAD_ARGS"] data: dict | None = None message: str = "" def query_order_status(raw_args: dict, requester_roles: list[str]) -> ToolResult: try: args = OrderStatusArgs(**raw_args) except ValidationError as e: return ToolResult(ok=False, code="BAD_ARGS", message=str(e)) if "order_reader" not in requester_roles: return ToolResult(ok=False, code="FORBIDDEN", message="无权查询订单") # 调用真实系统前应设置 timeout,并记录审计日志。 return ToolResult(ok=True, code="OK", data={"status": "shipped"})
模板 2:重试与熔断伪代码
import time class CircuitBreaker: def __init__(self, failure_threshold=3, cooldown_seconds=30): self.failures = 0 self.open_until = 0 self.threshold = failure_threshold self.cooldown = cooldown_seconds def allow(self): return time.time() >= self.open_until def record(self, ok: bool): if ok: self.failures = 0 else: self.failures += 1 if self.failures >= self.threshold: self.open_until = time.time() + self.cooldown def call_with_retry(fn, retries=3): for i in range(retries): try: return fn(timeout=10) except TimeoutError: time.sleep(2 ** i) raise RuntimeError("工具持续超时,进入降级或人工升级")
课后测试题
2.1 单选:哪个元素最能提高 LLM 输出被下游系统可靠解析的能力?
A. 更长的寒暄语
B. 结构化输出 schema 和校验
C. 更高 temperature
D. 更少上下文
2.2 多选:写操作工具应具备哪些保护?
A. 权限检查
B. 幂等键
C. 审计日志
D. 绕过确认以提高速度
2.3 单选:遇到权限错误时最合适的策略是?
A. 无限重试
B. 提高模型温度
C. 停止执行并提示授权或升级
D. 让另一个智能体绕过权限
2.4 多选:多模态输入进入模型前常见预处理包括?
A. OCR 或转写质量检查
B. 隐私信息识别
C. 模态结果对齐
D. 删除所有元数据后不做记录
2.5 单选:circuit breaker 主要解决什么问题?
A. 让系统在下游持续失败时停止继续冲击故障服务
B. 提高回答创造性
C. 替代用户认证
D. 自动生成向量索引
答案与解析
2.1 答案:B
解析:机器可解析流程依赖稳定字段、类型和校验机制。
2.2 答案:A/B/C
解析:写操作会产生真实副作用,应有权限、幂等、审计和必要的人工确认。
2.3 答案:C
解析:权限错误不是临时故障,重试不能解决,应按合规流程处理。
2.4 答案:A/B/C
解析:多模态系统需控制识别质量和隐私风险,同时保留必要审计信息。
2.5 答案:A
解析:熔断用于保护故障服务和调用方,避免级联失败。
第3章 评估和调优
| 本章在考试中的位置 本模块考查如何衡量、比较和优化智能体表现。重点是评估工作流、任务基准测试、结构化用户反馈、模型参数权衡和针对性优化。 |
|---|
学习目标
建立覆盖多轮、工具调用、RAG、安全和故障场景的评估集。
区分任务成功率、检索指标、工具调用指标、安全指标、成本与延迟指标。
使用离线回放、A/B 测试和回归测试比较智能体版本。
根据评估结果定位改进对象,而不是盲目换模型。
考试考点拆解
| 考点 | 应掌握内容 | 易错点 |
|---|---|---|
| 评估工作流 | 定义任务、金标准、评分规则、自动评估和人工复核流程。 | 只凭演示样例判断质量。 |
| 任务基准测试 | 覆盖正常、边界、失败、安全和长上下文任务。 | 测试集只包含简单 FAQ。 |
| 反馈闭环 | 收集结构化用户反馈,并映射到 Prompt、检索、工具或编排问题。 | 只有点赞/点踩,没有失败原因标签。 |
| 参数与系统调优 | 权衡精度、延迟、成本、吞吐和安全。 | 把所有问题都归因于模型不够大。 |
核心讲义
3.1 评价智能体不能只看回答流畅度
智能体评价应关注“任务是否完成”和“过程是否可信”。一个答案写得很流畅但调用了错误工具、引用了错误文档或越权访问数据,仍然是失败。常见指标包括任务成功率、工具调用正确率、检索召回与精确度、事实准确性、幻觉率、安全拦截率、延迟、成本和用户满意度。
考试中若问如何比较两个系统版本,应使用相同测试集、相同指标和可复现执行环境。对于生产流量,可使用 A/B 测试或影子流量;对于历史任务,可使用离线回放和回归测试。
3.2 Benchmark 的设计
一个合格的 Agent benchmark 应覆盖简单问答、多轮上下文、工具调用、RAG、模糊输入、工具失败、安全边界、长上下文和多智能体协作等场景。每个样例应包含输入、预期行为、允许工具、禁止行为、评分标准和必要证据。
基准测试不仅用于上线前验收,也用于每次 Prompt、模型、工具 schema、向量库和 guardrail 更新之后的回归测试。
3.3 调优对象
调优对象包括 Prompt、模型、检索参数、chunk size、embedding 模型、reranker、工具 schema、记忆写入策略、编排图、重试规则和安全阈值。系统性调优应从错误分析开始:错误发生在理解、检索、工具、推理、输出格式还是安全拦截?
模型参数也需要权衡。较低 temperature 通常更稳定,适合事实和工具调用;较高 temperature 可用于创意任务但可能增加不确定性。模型精度、延迟和成本之间也常有 trade-off。
3.4 用户反馈与持续改进
结构化反馈比单纯满意度更有价值。反馈标签可以包括:事实错误、引用错误、没按格式、工具调用错误、遗漏约束、语气不合适、安全误拦截、需要人工接管等。反馈应回流到测试集和调优计划中,形成数据飞轮。
生产系统中还应保留评估版本、Prompt 版本、模型版本、检索索引版本和工具版本,确保问题可复现。
课堂练习
| 课堂练习 3.1 为“企业知识问答智能体”设计 12 条 benchmark 样例,要求覆盖普通问题、权限边界、检索为空和引用错误。 |
|---|
| 课堂练习 3.2 给出一个智能体失败日志,判断错误发生在检索、工具调用、Prompt 还是输出格式,并提出一个最小修改方案。 |
|---|
| 课堂练习 3.3 设计一个结构化用户反馈表单,至少包括 8 个失败原因标签。 |
|---|
代码模板
模板 1:离线评估框架
from dataclasses import dataclass from typing import Callable @dataclass class TestCase: id: str user_input: str expected_behavior: str forbidden_behavior: str required_tools: list[str] @dataclass class EvalResult: id: str success: bool score: float reason: str latency_ms: int tool_trace: list[dict] def evaluate_case(agent_run: Callable[[str], dict], case: TestCase) -> EvalResult: output = agent_run(case.user_input) used_tools = [t["name"] for t in output.get("tool_trace", [])] has_required = all(t in used_tools for t in case.required_tools) violates = case.forbidden_behavior.lower() in output.get("answer", "").lower() success = has_required and not violates and output.get("final_ok", False) return EvalResult(case.id, success, 1.0 if success else 0.0, output.get("failure_reason", ""), output.get("latency_ms", 0), output.get("tool_trace", []))
模板 2:结构化反馈记录
FEEDBACK_SCHEMA = { "task_id": "string", "rating": "integer:1-5", "failure_tags": [ "fact_error", "citation_error", "wrong_tool", "bad_format", "missed_constraint", "unsafe", "too_slow", "needs_human" ], "user_comment": "string", "prompt_version": "string", "model_version": "string", "retrieval_index_version": "string" }
课后测试题
3.1 单选:评价智能体最核心的指标之一是?
A. 回答字数
B. 任务成功率
C. 模型名称是否最新
D. 界面颜色
3.2 多选:一个好的 benchmark 应覆盖哪些类型?
A. 多轮任务
B. 工具失败场景
C. 安全边界场景
D. 只有最简单的正例
3.3 单选:比较两个 Prompt 版本时,最合理的方法是?
A. 换不同测试集看哪个更顺眼
B. 相同测试集、相同指标、离线回放或 A/B 测试
C. 只看一次演示
D. 只问模型自评
3.4 多选:RAG 系统调优可能涉及哪些参数?
A. chunk size
B. embedding 模型
C. top-k 和 reranker
D. 显示器分辨率
3.5 单选:用户反馈中最有助于改进系统的是?
A. 只有点赞或点踩
B. 结构化失败原因标签和任务上下文
C. 匿名一句“很好”
D. 删除所有日志
答案与解析
3.1 答案:B
解析:智能体系统的目标是完成任务,任务成功率是核心指标之一。
3.2 答案:A/B/C
解析:真实系统需覆盖正常、边界、失败和安全场景。
3.3 答案:B
解析:可重复、可对比的实验条件是版本评估的前提。
3.4 答案:A/B/C
解析:RAG 质量与切分、嵌入、召回和重排密切相关。
3.5 答案:B
解析:结构化反馈能定位问题来源,并转化为评估集和改进项。
第4章 部署和扩展
| 本章在考试中的位置 部署和扩展考查生产环境落地能力,包括容器化、Kubernetes、CI/CD、MLOps/AgentOps、负载均衡、可靠性分析、高可用和成本优化。官网页面与 PDF 学习指南在本模块权重上有差异,复习时应同时覆盖两者。 |
|---|
学习目标
说明从原型到生产部署需要补齐哪些工程能力。
理解 Docker、Kubernetes、负载均衡和自动扩缩容在智能体系统中的作用。
设计 CI/CD 与 MLOps/AgentOps 流程。
识别高可用、可靠性和成本优化的关键策略。
考试考点拆解
| 考点 | 应掌握内容 | 易错点 |
|---|---|---|
| 生产化差异 | 原型到生产需补身份、权限、日志、监控、回滚、灰度和审计。 | Notebook demo 能跑就认为可上线。 |
| 容器与编排 | Docker 封装环境,Kubernetes 管理副本、滚动更新、服务发现和弹性。 | 把所有组件塞进单进程。 |
| CI/CD 与治理 | Prompt、模型、工具、配置、索引和 guardrail 都要版本化。 | 只管理代码版本,不管理 Prompt 和数据。 |
| 高可用与成本 | 缓存、批处理、模型路由、自动扩缩容、限流和降级。 | 只扩 GPU,不分析瓶颈。 |
核心讲义
4.1 从原型到生产
原型智能体通常只需要一个脚本或 Notebook;生产系统需要支持多用户并发、身份认证、权限隔离、可观测性、错误恢复、灰度发布、回滚和合规审计。部署题经常考“为什么 demo 能跑但上线不稳定”,答案通常不是再写一个 Prompt,而是工程化能力不足。
生产系统应把前端、API 网关、智能体编排服务、推理服务、向量数据库、任务队列、工具服务、监控和日志系统分层部署。这样能独立扩展、隔离故障并支持安全边界。
4.2 Docker 与 Kubernetes
Docker 用于封装应用依赖,确保开发、测试和生产环境一致。Kubernetes 用于容器编排,支持 Deployment、副本管理、Service、Ingress、ConfigMap、Secret、滚动更新、健康检查和水平自动扩缩容。
智能体系统中的推理服务、检索服务和工具服务负载模式不同。推理服务可能受 GPU 和显存限制;检索服务可能受 I/O 和索引性能限制;工具服务可能受外部 API 限流影响。因此扩展策略应针对瓶颈而定。
4.3 MLOps 与 AgentOps
MLOps 关注模型训练、部署和监控;AgentOps 还需要管理 Prompt、工具调用轨迹、检索上下文、记忆写入、编排状态和 guardrail 结果。一次智能体回答可能跨越多个组件,只有完整 trace 才能支持排错。
CI/CD 中应包含单元测试、Prompt 回归测试、工具 schema 校验、索引版本检查、安全测试、性能测试和灰度发布。对于高风险业务,应设置人工审批和变更审计。
4.4 可靠性与成本优化
可靠性设计包括健康检查、超时、重试、熔断、降级、负载均衡、限流和多副本部署。成本优化包括选择合适模型、缓存重复请求、批处理推理、模型路由、减少无效工具调用和优化检索参数。
高可用不是简单增加机器数量。若共享向量数据库、认证服务或队列成为单点故障,系统仍可能不可用。考试中看到“单点故障”“流量峰值”“延迟上升”,应考虑水平扩展、队列、缓存、限流和故障隔离。
课堂练习
| 课堂练习 4.1 为一个 RAG 智能体绘制生产部署组件图,并标注哪些组件需要独立扩缩容。 |
|---|
| 课堂练习 4.2 写出一个智能体系统 CI/CD checklist,覆盖代码、Prompt、索引、工具 schema 和 guardrail。 |
|---|
| 课堂练习 4.3 给定“推理延迟高、GPU 利用率低”的现象,列出至少 5 个可能原因和排查指标。 |
|---|
代码模板
模板 1:Dockerfile
FROM python:3.11-slim WORKDIR /app COPY requirements.txt ./ RUN pip install --no-cache-dir -r requirements.txt COPY . . ENV PYTHONUNBUFFERED=1 EXPOSE 8000 CMD ["uvicorn", "app.main:api", "--host", "0.0.0.0", "--port", "8000"]
模板 2:Kubernetes Deployment 片段
apiVersion: apps/v1 kind: Deployment metadata: name: agent-orchestrator spec: replicas: 3 selector: matchLabels: app: agent-orchestrator template: metadata: labels: app: agent-orchestrator spec: containers: - name: api image: registry.example.com/agent-orchestrator:1.0.0 ports: - containerPort: 8000 envFrom: - secretRef: name: agent-secrets readinessProbe: httpGet: path: /healthz port: 8000 initialDelaySeconds: 10 periodSeconds: 15
课后测试题
4.1 单选:从原型到生产最需要补齐的是?
A. 更多形容词
B. 认证、权限、日志、监控、回滚和审计
C. 只换更大模型
D. 删除测试集
4.2 多选:Kubernetes 可帮助实现哪些能力?
A. 副本管理
B. 滚动更新
C. 服务发现
D. 自动保证答案正确
4.3 单选:AgentOps 相比传统 MLOps 额外关注什么?
A. 工具调用轨迹、Prompt、记忆和编排状态
B. 只关注模型训练损失
C. 只关注硬盘容量
D. 只关注 UI 颜色
4.4 多选:降低推理成本的策略可能包括?
A. 缓存
B. 模型路由
C. 批处理
D. 无限增加 top-k
4.5 单选:灰度发布的主要价值是?
A. 让所有用户同时承担新版本风险
B. 小流量验证新版本并可回滚
C. 取消监控
D. 隐藏日志
答案与解析
4.1 答案:B
解析:生产系统必须具备可用性、安全性和可追踪性。
4.2 答案:A/B/C
解析:Kubernetes 管理容器化应用,但不直接保证模型质量。
4.3 答案:A
解析:智能体系统的行为来自模型、工具、检索、记忆和编排的组合。
4.4 答案:A/B/C
解析:无限增加 top-k 会增加上下文和重排成本,不一定提升效果。
4.5 答案:B
解析:灰度发布能降低变更风险。
第5章 认知、规划和记忆
| 本章在考试中的位置 本模块关注智能体的核心认知过程,包括短期/长期上下文保留、思维链和任务分解、顺序与多步骤决策、有状态编排,以及依据经验反馈调整推理策略。 |
|---|
学习目标
将复杂目标拆解为可执行、可检查、可恢复的子任务。
区分计划、执行、反思、重规划和终止条件。
设计短期、长期、语义、情节和程序性记忆。
说明如何避免记忆污染、过期记忆和权限越界。
考试考点拆解
| 考点 | 应掌握内容 | 易错点 |
|---|---|---|
| 任务分解 | 把大目标拆成子任务、依赖关系、工具和验收标准。 | 一次性让模型完成所有步骤。 |
| 规划策略 | 顺序、条件、层级、反思式、约束和重规划。 | 没有终止条件。 |
| 记忆机制 | 会话、语义、情节、程序性和结构化记忆。 | 把所有用户输入都写入长期记忆。 |
| 状态编排 | 通过状态机或图保存执行进度和失败恢复点。 | 只依赖自然语言上下文。 |
核心讲义
5.1 任务分解与计划
复杂任务需要拆解。一个好的计划应包含子任务、顺序、依赖、需要的工具、预期输出、失败处理和终止条件。例如“准备一份市场分析报告”可拆为需求确认、资料检索、数据清洗、分析、撰写、引用检查和人工审核。
任务分解降低了模型一次性推理负担,也让系统更容易监控和恢复。若第 4 步失败,不必重做所有步骤,可以从最近的状态恢复。
5.2 规划策略和重规划
顺序规划适合 SOP 明确的任务;条件分支适合根据中间结果选择路径;层级规划适合长任务;反思式规划会在执行后自检并修正;约束规划会考虑预算、时间、权限和风险;重规划则在工具失败或环境变化后更新计划。
考试中若出现“智能体陷入循环”“不断重复检索”“永远不输出最终答案”,应想到最大步数、终止条件、状态判断和人工升级。
5.3 记忆分类
会话记忆保存当前对话;语义记忆保存知识性内容;情节记忆保存过去任务和事件;程序性记忆保存工作流、SOP 和工具使用策略;结构化记忆保存在数据库或知识图谱中。不同记忆应有不同写入、检索、过期和权限策略。
长期记忆不是“多存一点”。错误、过时或未经确认的信息会造成记忆污染,影响后续任务。敏感信息还会带来隐私风险。
5.4 根据反馈调整推理策略
智能体可以根据历史失败调整策略,例如当某类检索经常召回错误文档时增加关键词过滤或 reranker;当工具参数经常缺失时先提问澄清;当某类任务经常需要人工确认时把审批节点前置。
反馈调整应通过可控规则和评估验证完成,而不是让系统无审计地自我修改关键策略。
课堂练习
| 课堂练习 5.1 把“NB 每月目录邮件自动生成与发送”拆解为可执行计划,标出检索、生成、审核、发送和监控节点。 |
|---|
| 课堂练习 5.2 设计一个长期记忆写入策略:哪些信息可以保存,哪些必须确认,哪些不应保存。 |
|---|
| 课堂练习 5.3 给一个会陷入循环的 agent 伪流程,添加终止条件和重规划机制。 |
|---|
代码模板
模板 1:任务计划数据结构
from dataclasses import dataclass, field from typing import Literal @dataclass class Step: id: str goal: str tool: str | None = None depends_on: list[str] = field(default_factory=list) status: Literal["pending", "running", "done", "failed"] = "pending" result_ref: str | None = None retry_count: int = 0 @dataclass class Plan: task_id: str objective: str steps: list[Step] max_steps: int = 20 require_human_approval: bool = False
模板 2:记忆写入策略
def should_write_memory(event: dict) -> tuple[bool, str]: if event.get("contains_sensitive_personal_data"): return False, "涉及敏感个人信息,不写入长期记忆" if event.get("user_confirmed") and event.get("long_term_relevance"): return True, "用户确认且具有长期价值" if event.get("source") == "tool_result" and event.get("confidence", 0) >= 0.9: return True, "高置信工具结果,可写入项目记忆" return False, "短期信息或未经确认,仅保留在会话状态中"
课后测试题
5.1 单选:复杂任务分解的主要价值是?
A. 让系统可监控、可恢复、减少遗漏
B. 让答案更长
C. 避免使用工具
D. 取消评估
5.2 多选:长期记忆设计应考虑?
A. 写入条件
B. 过期机制
C. 权限隔离
D. 把所有对话永久保存
5.3 单选:智能体不断重复检索但不结束,最直接的改进是什么?
A. 增加最大步数和终止条件
B. 删除日志
C. 提高 temperature
D. 关闭所有工具
5.4 多选:程序性记忆可保存什么?
A. 固定工作流
B. SOP
C. 工具使用策略
D. 模型权重
5.5 单选:记忆污染指什么?
A. 保存了错误、过时或未经确认的信息并影响后续决策
B. 显存不足
C. 用户界面颜色太深
D. 数据库备份完成
答案与解析
5.1 答案:A
解析:任务分解提升可控性和可恢复性。
5.2 答案:A/B/C
解析:长期记忆要防止污染、过期和隐私风险。
5.3 答案:A
解析:循环问题需要状态判断和终止条件。
5.4 答案:A/B/C
解析:程序性记忆是“如何做事”的知识,不是模型参数。
5.5 答案:A
解析:记忆污染会造成持续性错误。
第6章 知识整合和数据处理
| 本章在考试中的位置 本模块关注外部知识接入和多类型数据管理,包括 RAG、嵌入搜索、混合检索、向量数据库优化、ETL、数据质量检查、结构化与非结构化知识访问。 |
|---|
学习目标
描述 RAG 从数据采集到答案生成的完整流程。
区分向量检索、关键词检索和混合检索的适用场景。
设计向量数据库索引、metadata 过滤和 reranking 策略。
建立 ETL 和数据质量检查流程。
考试考点拆解
| 考点 | 应掌握内容 | 易错点 |
|---|---|---|
| RAG 管道 | 抽取、清洗、切分、嵌入、索引、检索、重排、生成和引用。 | 直接把原始文档塞给模型。 |
| 检索策略 | 向量、关键词、混合检索和 reranker。 | 只用单一检索方式处理所有问题。 |
| 向量数据库 | top-k、metadata、过滤、索引更新和权限控制。 | 忽略文档版本和权限标签。 |
| ETL 与数据质量 | 去重、格式、缺失、版本、敏感信息、可追溯。 | 脏数据直接入库。 |
核心讲义
6.1 RAG 基本流程
RAG 的目标是用外部知识增强生成。典型流程是数据采集、清洗、切分、生成 embedding、写入向量数据库、用户问题向量化、检索、重排、上下文组装、LLM 生成、引用和答案校验。
RAG 的质量不仅由 LLM 决定,还取决于文档质量、chunking、embedding、检索策略、reranker、上下文排序和输出约束。考试中遇到“答案引用错误”“检索不到关键内容”,应从数据和检索管道排查。
6.2 向量检索、关键词检索和混合检索
向量检索擅长语义相似;关键词检索擅长精确匹配编号、术语、缩写和人名;混合检索结合两者,适合企业知识库、法规、医学、科研文献等需要语义和精确性并重的场景。
检索结果还应经过 metadata 过滤,例如用户权限、项目、时间、文档版本和语言。否则智能体可能引用过期或未授权文档。
6.3 向量数据库和索引优化
向量数据库需要考虑 embedding 模型、维度、索引类型、top-k、过滤条件、更新策略和删除策略。对于知识库更新频繁的业务,必须处理增量更新、文档失效和索引版本一致性。
Reranker 常用于提升排序质量。第一阶段召回较多候选,第二阶段重排选出最相关片段,可提高答案质量但会增加延迟和成本。
6.4 ETL 和数据质量
ETL 即抽取、转换、加载。智能体使用企业数据前,应检查重复、缺失、格式不一致、编码错误、版本冲突、权限标签缺失和敏感信息未脱敏等问题。
数据质量决定上限。一个高能力模型接入低质量知识库,仍然会产生错误答案。数据处理和治理是 Agentic AI 生产化的重要部分。
课堂练习
| 课堂练习 6.1 为一个期刊内部知识库设计 RAG 数据流程:包括网页、PDF、Word、Excel 和邮件模板的处理策略。 |
|---|
| 课堂练习 6.2 比较 BM25、向量检索和混合检索在论文题名、作者、机构、研究领域查询中的表现。 |
|---|
| 课堂练习 6.3 设计一个文档入库前的数据质量检查表。 |
|---|
代码模板
模板 1:RAG 检索管道伪代码
def rag_answer(question: str, user_context: dict) -> dict: # 1. query rewrite query = rewrite_query(question) # 2. hybrid retrieval with permission filter candidates = hybrid_search( query=query, top_k=30, filters={"org": user_context["org"], "allowed_roles": user_context["roles"]} ) # 3. rerank passages = rerank(query, candidates, top_n=6) # 4. generate with citations answer = generate_answer(question, passages, require_citations=True) # 5. verify citation coverage return verify_answer(answer, passages)
模板 2:数据质量检查
def quality_check(doc: dict) -> list[str]: errors = [] required = ["doc_id", "title", "text", "source", "version", "access_level"] for field in required: if not doc.get(field): errors.append(f"missing:{field}") if len(doc.get("text", "")) < 200: errors.append("too_short") if doc.get("version_status") == "obsolete": errors.append("obsolete_version") if contains_unredacted_pii(doc.get("text", "")): errors.append("unredacted_pii") return errors
课后测试题
6.1 单选:RAG 中 chunking 的主要作用是?
A. 把文档切成适合检索和上下文使用的片段
B. 压缩 GPU 显存
C. 替代权限控制
D. 自动保证答案正确
6.2 多选:混合检索通常结合哪些能力?
A. 语义向量检索
B. 关键词/稀疏检索
C. 重排
D. 关闭 metadata 过滤
6.3 单选:企业知识库 RAG 最不能忽视的是?
A. 文档权限和版本
B. 让所有人访问所有文档
C. 只保留图片
D. 取消引用
6.4 多选:ETL 中常见数据质量问题包括?
A. 重复数据
B. 缺失字段
C. 编码错误
D. 权限标签缺失
6.5 单选:Reranker 的主要作用是?
A. 对初始召回结果重新排序以提升相关性
B. 删除用户认证
C. 替代所有数据库
D. 生成最终 UI
答案与解析
6.1 答案:A
解析:chunking 影响召回、上下文质量和引用粒度。
6.2 答案:A/B/C
解析:混合检索常结合语义、关键词和重排,但仍需要权限过滤。
6.3 答案:A
解析:权限和版本关系到安全与准确性。
6.4 答案:A/B/C/D
解析:这些都会影响检索和合规。
6.5 答案:A
解析:重排可提升 top 文档质量,但增加延迟。
第7章 NVIDIA 相关平台工具概览
| 本章在考试中的位置 本模块考查 NVIDIA 代理式 AI 平台相关工具,包括 NeMo Guardrails、NIM 推理微服务、NeMo/Agent Intelligence Toolkit、TensorRT-LLM、Triton 推理服务器和 NVIDIA 硬件上的多模态工作流优化。 |
|---|
学习目标
解释 NIM、NeMo Guardrails、Triton 和 TensorRT-LLM 的定位。
说明如何用 Guardrails 控制输入、输出、检索和工具执行风险。
理解推理优化中的吞吐、延迟、批处理和 GPU 利用率。
设计基于 NVIDIA 工具链的生产部署方案。
考试考点拆解
| 考点 | 应掌握内容 | 易错点 |
|---|---|---|
| NIM | 模型推理微服务、标准接口、生产级部署和加速。 | 把 NIM 当成训练框架。 |
| NeMo Guardrails | 输入、输出、对话、检索和执行护栏。 | 只在最终输出后做简单关键词过滤。 |
| Triton/TensorRT-LLM | 推理服务化、批处理、多框架部署、LLM 推理优化。 | 只调 Prompt 不看推理瓶颈。 |
| NVIDIA 硬件工作流 | GPU 加速、多模态预处理、监控和性能优化。 | 忽略 GPU 显存、吞吐和批处理。 |
核心讲义
7.1 NVIDIA NIM
NIM 可理解为面向生成式 AI 模型的推理微服务形态,便于以标准接口部署和调用模型。对于企业智能体,NIM 的价值在于简化模型服务化、提高推理性能,并让应用以稳定 API 集成模型能力。
考试中看到“高性能推理微服务”“标准 API 部署模型”“快速集成 LLM 推理服务”等关键词,应联想到 NIM。
7.2 NeMo Guardrails
Guardrails 用于控制 LLM 应用行为。常见护栏包括输入护栏、输出护栏、对话护栏、检索护栏和执行护栏。输入护栏可以识别越狱或敏感内容;输出护栏可检查有害内容和隐私泄露;执行护栏可限制工具调用。
真正的安全不能只依靠最终输出过滤。若危险工具已经执行,再过滤答案已经太晚。因此写操作、高风险工具和未授权数据访问应在执行前被拦截或要求人工审批。
7.3 Triton 与 TensorRT-LLM
Triton Inference Server 是模型推理服务化平台,可服务多种框架的模型并支持批处理、并发和监控。TensorRT-LLM 面向大语言模型推理优化,常用于降低延迟、提高吞吐和优化 GPU 利用率。
推理优化需要同时看首 token 延迟、总延迟、吞吐、GPU 利用率、显存、batch size 和并发。不同业务目标对应不同优化方向。
7.4 NVIDIA Agent 工具链和多模态工作流
NeMo/Agent Intelligence Toolkit 等工具可帮助构建和优化智能体工作流。多模态工作流在 NVIDIA 硬件上常涉及图像、音频、视频预处理、模型推理、结果融合和安全检查。
考试不一定要求记忆所有命令,但要求知道每类工具解决什么问题,并能在场景中选出合适组件。
课堂练习
| 课堂练习 7.1 给出一个“企业 RAG 助手”的 NVIDIA 部署方案,说明 NIM、Guardrails、Triton、向量库和监控如何组合。 |
|---|
| 课堂练习 7.2 设计一个 execution rail:当用户请求发送邮件或修改数据库时,系统应检查哪些条件? |
|---|
| 课堂练习 7.3 分析推理延迟升高的可能原因:模型、batch、GPU、网络、上下文长度和工具调用分别如何影响? |
|---|
代码模板
模板 1:调用 NIM/OpenAI 兼容接口的示例
from openai import OpenAI client = OpenAI( base_url="https://your-nim-endpoint/v1", api_key="YOUR_API_KEY" ) response = client.chat.completions.create( model="your-model-name", messages=[ {"role": "system", "content": "You are a safe enterprise AI agent."}, {"role": "user", "content": "Summarize the retrieved policy."} ], temperature=0.2, ) print(response.choices[0].message.content)
模板 2:Guardrails 规则思想示例
# 伪配置:高风险工具调用前必须满足权限和确认 rails: input: - detect_jailbreak - detect_sensitive_data execution: - name: require_approval_for_write_tools applies_to: [send_email, update_database, delete_file] condition: user.confirmed == true and user.role in allowed_roles output: - block_private_data_leakage - require_citations_for_policy_answers
课后测试题
7.1 单选:NIM 最贴近哪类能力?
A. 模型推理微服务和标准化部署
B. 用户画像手工录入
C. 只做数据标注
D. Excel 宏
7.2 多选:Guardrails 可作用于哪些环节?
A. 输入
B. 输出
C. 检索
D. 工具执行
7.3 单选:危险工具调用的最佳拦截位置是?
A. 工具执行前
B. 工具执行后只改写答案
C. 下周人工检查
D. 不记录
7.4 多选:推理性能优化可能关注?
A. 首 token 延迟
B. 吞吐
C. GPU 利用率
D. 上下文长度
7.5 单选:Triton 的主要定位是?
A. 推理服务器/模型服务化
B. 电子邮件客户端
C. 文档编辑器
D. 任务管理软件
答案与解析
7.1 答案:A
解析:NIM 关注模型推理服务化和部署。
7.2 答案:A/B/C/D
解析:护栏可以分层作用于多个环节。
7.3 答案:A
解析:执行前拦截能防止真实副作用。
7.4 答案:A/B/C/D
解析:这些都会影响体验和成本。
7.5 答案:A
解析:Triton 用于模型推理服务部署。
第8章 运行、监控和维护
| 本章在考试中的位置 本模块覆盖部署后的持续运营,包括监控仪表板、可靠性指标、日志和异常追踪、根因分析、历史版本基准测试、自动调优、再训练、版本控制和可用性透明性。 |
|---|
学习目标
设计智能体系统的监控指标体系。
理解日志、trace 和根因分析在多步骤智能体中的作用。
建立线上质量监控、回归测试和版本追踪机制。
说明持续可用性、透明性和可信性的维护策略。
考试考点拆解
| 考点 | 应掌握内容 | 易错点 |
|---|---|---|
| 监控指标 | 系统、推理、检索、工具、质量、安全、用户和成本指标。 | 只看 CPU/GPU,不看任务质量。 |
| 日志与 trace | 记录用户请求、Prompt 版本、检索、工具、状态、安全拦截和输出。 | 只保存最终答案。 |
| 根因分析 | 定位错误在输入、检索、工具、模型、格式或护栏。 | 看到错误就换模型。 |
| 维护和版本控制 | Prompt、模型、索引、工具和规则都要版本化和回归测试。 | 上线后不再评估。 |
核心讲义
8.1 智能体监控指标
智能体系统的 dashboard 应包括系统指标、推理指标、成本指标、检索指标、工具指标、质量指标、安全指标和用户指标。仅监控 GPU 是否在线无法判断智能体是否在正确完成任务。
质量指标可以包括任务成功率、人工接管率、幻觉率、引用错误率、格式错误率和用户反馈评分。安全指标包括越权尝试、敏感信息拦截、有害输出拦截和高风险工具审批次数。
8.2 Trace 和日志
一次智能体输出可能经历多个步骤:用户输入、意图识别、query rewrite、检索、重排、工具调用、模型生成、安全检查和最终输出。Trace 应记录每一步的输入、输出、耗时、版本和错误码。
没有 trace 时,运维团队只能看到错误答案,却不知道是检索召回错、工具返回错、模型解释错还是输出格式错。
8.3 根因分析
根因分析可以按链路逐步排查:用户问题是否明确,Prompt 版本是否变化,检索是否召回正确文档,工具是否成功调用,工具返回是否可信,模型是否误解工具结果,guardrail 是否误拦截,下游解析是否失败。
排查结论应转化为回归测试样例,避免同类错误再次出现。
8.4 维护、版本控制和持续改进
生产智能体的可维护性依赖版本控制。Prompt、模型、embedding、索引、工具 schema、工作流图和 guardrail 规则都应有版本号,并能回溯到某次输出。
自动调优和再训练必须受到评估和审批约束。对于高风险行业,自动修改生产策略可能带来合规风险,应优先使用离线验证和灰度发布。
课堂练习
| 课堂练习 8.1 设计一个智能体监控 dashboard,至少包含 20 个指标,并按系统、质量、安全、成本分类。 |
|---|
| 课堂练习 8.2 给一条失败任务 trace,写出根因分析步骤和最小修复方案。 |
|---|
| 课堂练习 8.3 设计一套 Prompt 版本回滚流程,要求包含触发条件、审批、验证和通知。 |
|---|
代码模板
模板 1:结构化日志事件
import json, time, uuid def log_event(task_id: str, event_type: str, payload: dict): event = { "event_id": str(uuid.uuid4()), "task_id": task_id, "event_type": event_type, "timestamp": time.time(), "payload": payload, } print(json.dumps(event, ensure_ascii=False)) log_event("task-001", "tool_call", { "tool": "search_policy", "args_hash": "sha256:...", "latency_ms": 240, "ok": True, "prompt_version": "p2026-04-28", "model": "llm-prod-v3" })
模板 2:质量指标聚合伪代码
def aggregate_metrics(events: list[dict]) -> dict: total = len([e for e in events if e["event_type"] == "task_end"]) failed = len([e for e in events if e.get("payload", {}).get("success") is False]) human = len([e for e in events if e["event_type"] == "human_handoff"]) blocked = len([e for e in events if e["event_type"] == "safety_block"]) return { "task_success_rate": 1 - failed / max(total, 1), "human_handoff_rate": human / max(total, 1), "safety_block_count": blocked, }
课后测试题
8.1 单选:智能体日志中最不应缺少的是?
A. Prompt、模型、检索、工具和安全检查版本轨迹
B. 只保存最终答案
C. 只保存 UI 截图
D. 只保存用户昵称
8.2 多选:监控 dashboard 应包含哪些指标?
A. 延迟和错误率
B. 任务成功率
C. 工具超时率
D. 安全拦截数量
8.3 单选:当新版本质量下降时,首先应做什么?
A. 定位变更并回滚或灰度暂停
B. 关闭所有监控
C. 删除旧版本
D. 提高输出字数
8.4 多选:根因分析可能检查哪些环节?
A. 检索召回
B. 工具返回
C. 模型解释
D. 下游解析
8.5 单选:人工接管率突然升高可能意味着?
A. 任务质量、工具或安全策略出现问题,需要分析
B. 系统一定更安全无需处理
C. 用户变少
D. 无需记录
答案与解析
8.1 答案:A
解析:多组件系统需要完整轨迹支持复现和审计。
8.2 答案:A/B/C/D
解析:运行、质量、工具和安全指标都重要。
8.3 答案:A
解析:版本控制和回滚是生产维护关键。
8.4 答案:A/B/C/D
解析:智能体链路多,错误可能发生在任一环节。
8.5 答案:A
解析:接管率是重要质量和可用性信号。
第9章 安全、道德与合规
| 本章在考试中的位置 本模块考查负责任 AI 和安全合规实践,包括系统安全、审计跟踪、隐私保护、企业政策、防偏见和有害内容、分层安全框架、许可和监管标准。 |
|---|
学习目标
设计覆盖身份、输入、检索、工具、生成、输出和审计的分层安全框架。
说明隐私保护、最小权限和数据隔离在智能体中的必要性。
识别偏见、有害内容、幻觉和越权工具调用风险。
理解许可、监管和责任归属对智能体部署的影响。
考试考点拆解
| 考点 | 应掌握内容 | 易错点 |
|---|---|---|
| 分层安全 | 身份、输入、检索、工具、生成、输出和审计多层防护。 | 只靠最终输出过滤。 |
| 隐私与权限 | 最小权限、数据隔离、脱敏、加密和访问审计。 | RAG 检索时忽略 ACL。 |
| 偏见和有害内容 | 检测、缓解、评估和人工升级。 | 认为模型默认中立。 |
| 许可和监管 | 模型、数据、API、行业规则和审计要求。 | 开源或网页数据可任意商用。 |
核心讲义
9.1 分层安全框架
智能体安全必须分层:身份层控制谁在访问;输入层识别越狱和敏感信息;检索层进行权限过滤;工具层进行白名单、参数校验和审批;生成层降低幻觉和有害内容;输出层脱敏和引用;审计层记录责任链。
如果只在最终输出后过滤,系统可能已经执行危险工具或访问了未授权数据。因此执行前控制和权限校验极其重要。
9.2 隐私保护和最小权限
智能体通常连接企业知识库、邮件、日历、数据库和文件系统。每个工具和检索请求都应以当前用户权限执行,而不是使用万能服务账号。敏感数据应根据业务需要脱敏、加密或不写入长期记忆。
最小权限原则要求智能体只获得完成当前任务所需权限。高风险操作应增加人工确认和审计。
9.3 偏见、有害内容和幻觉
模型可能产生偏见性建议、有害内容或编造事实。缓解策略包括安全分类器、输出审查、引用要求、事实核查、风险分级、人工升级和持续评估。
对于医疗、法律、金融等高风险场景,系统应明确限制、引用来源、提示不确定性,并在需要时要求专业人员介入。
9.4 合规、许可和责任
智能体可能使用开源模型、商业模型、第三方 API、企业文档和用户数据。上线前必须审查数据使用权、模型许可证、API 条款、隐私政策和行业监管要求。
可审计性是责任归属的基础。系统应能回答:谁发起任务、使用了哪些数据、调用了哪些工具、谁批准了高风险操作、输出依据是什么。
课堂练习
| 课堂练习 9.1 为一个“自动回复客户邮件”的智能体设计分层安全控制点。 |
|---|
| 课堂练习 9.2 列出一个企业 RAG 系统可能发生的 10 个隐私或权限风险,并提出对应防护措施。 |
|---|
| 课堂练习 9.3 设计一个高风险操作审批策略:哪些工具必须审批,审批信息应记录哪些字段? |
|---|
代码模板
模板 1:工具调用权限检查
def authorize_tool_call(user: dict, tool: str, args: dict) -> tuple[bool, str]: policy = { "read_kb": {"roles": ["employee", "admin"], "approval": False}, "send_email": {"roles": ["editor", "admin"], "approval": True}, "delete_file": {"roles": ["admin"], "approval": True}, } rule = policy.get(tool) if not rule: return False, "工具不在白名单中" if not set(user.get("roles", [])) & set(rule["roles"]): return False, "用户角色无权限" if rule["approval"] and not args.get("human_approved"): return False, "需要人工审批" return True, "允许执行"
模板 2:输出安全检查伪代码
def output_guardrail(answer: str, context: dict) -> dict: violations = [] if contains_private_data(answer): violations.append("private_data") if contains_harmful_instruction(answer): violations.append("harmful_instruction") if context.get("requires_citation") and not has_citation(answer): violations.append("missing_citation") return {"allow": not violations, "violations": violations}
课后测试题
9.1 单选:最小权限原则意味着?
A. 智能体只拥有完成当前任务所需权限
B. 所有工具都用管理员账号
C. 关闭审计
D. 让用户共享密码
9.2 多选:分层安全可包括哪些层?
A. 输入
B. 检索
C. 工具执行
D. 审计
9.3 单选:只在最终输出过滤的主要问题是?
A. 危险工具可能已经执行
B. 用户界面变慢
C. 无法改变字体
D. 会减少字数
9.4 多选:合规审查可能涉及?
A. 数据使用权
B. 模型许可证
C. API 条款
D. 行业监管
9.5 单选:高风险领域中最合适的策略是?
A. 增加引用、限制声明和人工升级
B. 鼓励模型自由猜测
C. 关闭日志
D. 取消权限控制
答案与解析
9.1 答案:A
解析:最小权限降低越权和误操作风险。
9.2 答案:A/B/C/D
解析:安全应覆盖全链路。
9.3 答案:A
解析:执行前控制是关键。
9.4 答案:A/B/C/D
解析:这些都是上线前合规内容。
9.5 答案:A
解析:高风险任务需要可信证据和人工监督。
第10章 人类-AI 交互和监督
| 本章在考试中的位置 本模块关注人如何有效监督和参与智能体系统,包括直观 UI、结构化反馈循环、透明机制、可解释推理、决策可追溯、人工监督和干预。 |
|---|
学习目标
设计能展示目标、计划、工具状态、证据和风险的智能体 UI。
建立结构化反馈闭环,将用户反馈转化为评估和改进。
区分透明性与暴露完整内部推理链。
确定哪些场景需要 human-in-the-loop 审批或接管。
考试考点拆解
| 考点 | 应掌握内容 | 易错点 |
|---|---|---|
| 交互 UI | 显示任务目标、计划、进度、证据、工具调用和确认按钮。 | 只有聊天框,用户不知道系统在做什么。 |
| 反馈闭环 | 结构化标签、用户评论、人工审核和回归测试。 | 只收集模糊满意度。 |
| 透明性 | 展示数据源、工具、关键证据、置信度和限制。 | 暴露完整内部推理链。 |
| 人工监督 | 高风险、不确定、不可逆或合规敏感操作需要人工介入。 | 所有操作全自动无审批。 |
核心讲义
10.1 智能体 UI 设计
好的智能体界面不只是聊天框。它应展示当前目标、计划步骤、工具调用状态、引用来源、可编辑中间结果、风险提示、确认按钮和反馈入口。对于长任务,用户需要知道系统执行到哪里,是否等待审批,是否遇到错误。
UI 设计直接影响信任。透明的过程展示能帮助用户理解系统能力边界,同时减少误用。
10.2 Human-in-the-loop
Human-in-the-loop 适用于高风险、高价值、不可逆或不确定任务,例如发送正式邮件、删除文件、修改数据库、财务审批、医学或法律建议。人工可以审批、纠正参数、选择候选答案、接管对话或审核输出。
考试中若题干出现“责任归属”“信任”“高风险”“合规”“不确定”,通常应考虑人工监督、审批和可追溯。
10.3 透明性和可解释性
透明性不等于暴露模型完整私有推理链。实际系统可以展示任务步骤、使用数据源、调用工具、关键证据、置信度、限制条件和人工审批记录。
可追溯性要求系统能回放关键决策依据。对于监管或企业场景,应保存足够证据以支持审计。
10.4 反馈循环和持续学习
用户反馈应被结构化收集,并进入评估和改进流程。例如“引用错误”应触发检索和引用评估;“没按格式”应触发输出 schema 改进;“需要人工接管”应触发任务边界或 UI 改进。
反馈闭环的目标不是让模型立即自我修改,而是形成可控的数据飞轮:收集、标注、复现、修复、评估、发布。
课堂练习
| 课堂练习 10.1 设计一个“智能体任务面板”的 UI 信息架构,包含目标、计划、进度、证据、风险和确认按钮。 |
|---|
| 课堂练习 10.2 列出 8 类必须人工确认的工具操作,并说明确认前应展示哪些信息。 |
|---|
| 课堂练习 10.3 设计一个反馈表单,使反馈能直接进入评估集。 |
|---|
代码模板
模板 1:人工审批请求对象
from dataclasses import dataclass @dataclass class ApprovalRequest: task_id: str action: str summary: str tool_name: str tool_args_preview: dict risk_level: str evidence_refs: list[str] requested_by: str request = ApprovalRequest( task_id="task-2026-001", action="send_email", summary="向作者发送正式通知邮件", tool_name="gmail.send_email", tool_args_preview={"to": "author@example.com", "subject": "Decision"}, risk_level="medium", evidence_refs=["draft-v3", "policy-2026"], requested_by="agent-supervisor" )
模板 2:反馈表单结构
FEEDBACK_FORM = { "task_id": "", "rating": 0, "tags": [], # fact_error, wrong_tool, citation_error, unsafe, too_slow, bad_tone "expected_answer": "", "comment": "", "allow_use_for_improvement": True, }
课后测试题
10.1 单选:人机交互中最能提升长任务信任度的是?
A. 展示目标、计划、进度和证据
B. 隐藏所有步骤
C. 只输出最终一句话
D. 禁止反馈
10.2 多选:哪些操作通常需要人工确认?
A. 发送正式邮件
B. 删除文件
C. 修改数据库
D. 读取公开 FAQ
10.3 单选:透明性不应简单等同于?
A. 展示证据和工具轨迹
B. 暴露完整内部推理链
C. 显示来源
D. 说明限制
10.4 多选:结构化反馈应包含?
A. 评分
B. 失败标签
C. 用户评论
D. 任务版本信息
10.5 单选:Human-in-the-loop 的主要目的是什么?
A. 在高风险或不确定场景中确保责任、信任和安全
B. 让系统永远不能自动化
C. 减少所有日志
D. 替代权限系统
答案与解析
10.1 答案:A
解析:透明的过程展示能提高可理解性和信任。
10.2 答案:A/B/C
解析:有副作用或不可逆操作通常需要确认;读取公开 FAQ 风险较低。
10.3 答案:B
解析:透明性应提供可审计信息,而不一定暴露完整内部推理。
10.4 答案:A/B/C/D
解析:这些信息有助于复现和改进。
10.5 答案:A
解析:人工监督用于控制风险并增强责任归属。
附录 A:核心术语速查表
| 英文术语 | 中文/全称 | 中文解释 |
|---|---|---|
| Agentic AI | 代理式 AI | 围绕目标持续感知、推理、行动、观察并调整的 AI 系统范式。 |
| Agent | 智能体 | 能够使用模型、工具、记忆和环境反馈完成任务的软件实体。 |
| ReAct | 推理-行动框架 | Reasoning + Acting,通过推理、行动、观察循环完成多步任务。 |
| Planner | 规划器 | 将复杂目标拆解为子任务并安排执行顺序的组件。 |
| Executor | 执行器 | 按照计划调用工具、处理结果并更新状态的组件。 |
| Memory | 记忆 | 保存会话状态、长期偏好、历史任务和外部知识的机制。 |
| RAG | 检索增强生成 | 先检索外部知识,再将证据交给模型生成答案。 |
| Embedding | 嵌入 | 将文本或其他对象映射为向量,以便语义检索。 |
| Vector Database | 向量数据库 | 存储和检索向量表示的数据库,常用于 RAG。 |
| Hybrid Search | 混合检索 | 结合语义向量检索和关键词检索的检索方法。 |
| Reranker | 重排器 | 对初始召回结果再次排序,以提高相关性。 |
| Guardrails | 护栏 | 用于限制输入、输出、检索、对话和工具执行风险的规则或模型。 |
| NIM | NVIDIA Inference Microservices | 用于部署生成式 AI 模型推理服务的 NVIDIA 微服务形态。 |
| Triton Inference Server | Triton 推理服务器 | 用于服务化部署多框架模型推理的 NVIDIA 推理服务器。 |
| TensorRT-LLM | TensorRT-LLM | 用于优化大语言模型在 NVIDIA GPU 上推理性能的工具链。 |
| MLOps | 机器学习运维 | 模型训练、部署、监控和治理流程。 |
| AgentOps | 智能体运维 | 面向智能体的 Prompt、工具、记忆、检索、trace 和安全治理。 |
| HITL | Human-in-the-loop / 人在环 | 在高风险或不确定任务中引入人工审批、纠错或接管。 |
| Idempotency | 幂等性 | 重复执行同一请求不会产生重复副作用的性质。 |
| Circuit Breaker | 熔断器 | 下游持续故障时暂停调用,避免级联失败。 |
附录 B:综合模拟考试与答案解析
模拟题 1 单选:某智能体在查询企业知识库时偶尔引用员工无权访问的文档,最应优先修复什么?
A. 提高 temperature
B. 检索层 ACL/metadata 权限过滤
C. 增加回答字数
D. 删除所有索引
模拟题 2 多选:生产级智能体的一次 trace 通常应记录哪些内容?
A. Prompt 版本
B. 检索结果
C. 工具调用参数与结果
D. 安全拦截结果
模拟题 3 单选:用户要求智能体删除一批文件,正确做法是?
A. 直接执行
B. 确认权限、展示预览、请求人工确认并记录审计
C. 让模型猜测文件路径
D. 关闭日志
模拟题 4 单选:RAG 答案经常缺少关键法规条款,优先检查什么?
A. 检索召回、chunking、top-k 和 reranker
B. UI 背景色
C. 是否使用更多表情
D. 是否删除引用
模拟题 5 多选:多智能体系统中防止混乱的机制包括?
A. 角色边界
B. 通信协议
C. 共享状态和任务锁
D. 无限循环直到成功
模拟题 6 单选:NIM、Triton、TensorRT-LLM 共同相关的主题更接近?
A. 模型推理部署和性能优化
B. 客户关系管理
C. PDF 编辑
D. 人工打分表
模拟题 7 多选:智能体评估集应包含哪些失败场景?
A. 工具超时
B. 检索为空
C. 用户输入模糊
D. 越权访问尝试
模拟题 8 单选:把所有用户输入自动写入长期记忆的主要风险是?
A. 记忆污染和隐私风险
B. 一定提升准确率
C. 减少审计需求
D. 替代权限系统
模拟题 9 多选:Human-in-the-loop 可用于哪些环节?
A. 审批高风险工具
B. 纠正工具参数
C. 审核最终输出
D. 选择候选方案
模拟题 10 单选:如果新 Prompt 上线后任务成功率下降,最合理的处理是?
A. 回滚或暂停灰度,并通过回归测试定位问题
B. 删除测试集
C. 增加营销话术
D. 停止监控
综合模拟考试答案解析
模拟题 1 答案:B
解析:未授权引用是检索权限过滤问题,应在检索阶段按用户权限过滤。
模拟题 2 答案:A/B/C/D
解析:完整 trace 支持审计、复现和根因分析。
模拟题 3 答案:B
解析:删除属于高风险不可逆操作,必须权限和人工确认。
模拟题 4 答案:A
解析:缺少关键证据通常与检索和切分相关。
模拟题 5 答案:A/B/C
解析:多智能体需要协议和状态控制;无限循环不可取。
模拟题 6 答案:A
解析:这些工具主要服务于模型推理部署与优化。
模拟题 7 答案:A/B/C/D
解析:鲁棒评估必须覆盖失败和安全边界。
模拟题 8 答案:A
解析:长期记忆需要写入策略、确认和隐私控制。
模拟题 9 答案:A/B/C/D
解析:人在环可以在多个阶段控制风险和提升质量。
模拟题 10 答案:A
解析:版本控制和回归测试是生产维护基本手段。
参考资料
Agentic AI Professional 相关公开认证方向 (AAI Professional) 认证页面:https://www.nvidia.cn/training/certification/agentic-ai-professional/
Agentic AI Professional 相关公开认证方向 认证考试学习指南:https://images.nvidia.cn/aem-dam/zh_cn/Solutions/training/certification/nvt-study-guide-new-agentic-ai-cert-exam-zhCN-4581053.pdf
NVIDIA NIM 文档:https://docs.nvidia.com/nim/
NVIDIA NeMo Guardrails 文档:https://docs.nvidia.com/nemo/guardrails/
NVIDIA Triton Inference Server 文档:https://docs.nvidia.com/deeplearning/triton-inference-server/
NVIDIA TensorRT-LLM 文档:https://nvidia.github.io/TensorRT-LLM/
| 免责声明 本教材为根据公开考试大纲整理的学习资料,不代表 NVIDIA 官方出版物。考试报名、考试范围、权重、费用、语言、有效期等信息可能更新,请以 NVIDIA 官方页面和考试中心最新说明为准。 |
|---|