核心概念卡

整本知识库里反复出现的术语,只在这里定义一次。其他文档遇到它们就会链回这里。

读这一页之前,建议先做 先动手,那些练习里你已经"用过"这些概念了。

阅读方式:每个概念给你 3 件事——1) 一句话定义;2) 一个生活化类比;3) 你用错它会出什么问题

速查表

概念 一句话 类比
Token AI 读写文本的最小计费/计长单位 出租车的「跳表」
上下文 AI 这一次能看到的所有信息 工作时桌面上摊开的所有材料
一次请求 把目标、材料、工具和输出契约交给模型的一次调用 给一个临时项目组发任务包
Prompt 你交给 AI 的一份"任务说明书" 给外包写的需求文档
RAG 让 AI 先去查你的资料、再回答 让顾问先翻你的档案再开口
Agent 能自己规划、调用工具、看反馈、再决定下一步的 AI 系统 一个被授权可以执行任务的实习生
评测 用样例和指标判断 AI 输出是否可用 上线前的 QA 测试

下面是详细版。


Token

一句话:Token 是 AI 模型处理文本时的最小单位,输入和输出都按 token 计费、计长度。

类比:像出租车的"跳表"——你说的话、AI 回的话,都在持续跳表。

怎么数

  • 中文:1 个汉字 ≈ 1.5-2 tokens
  • 英文:1 个常见单词 ≈ 1 token,长词或生僻词会被切成多个
  • 经验值:500 字中文 ≈ 1000 tokens

用错会怎样

  • 不知道有 token 上限,把一整本书一次性丢进去,结果模型只看到前半截就回答了(上下文窗口被撑爆,前面的被截断)
  • 让 AI 输出超长报告,等了 30 秒只为了一段你不会读的废话
  • 在 API 场景下账单失控

实践提示

  • 长材料先让 AI 帮你抽要点,别一次性全塞
  • 输出长度要约束:"不超过 300 字"、"列 5 条"
  • 重要 prompt 复用很多次时,关注它有多长

上下文(Context)

一句话:上下文是 AI 这一次回答时能看到的全部信息——你的问题、之前几轮对话、你上传的文件、系统设定、工具返回的结果,全都算。

类比:你工作时桌面上摊开的所有材料。桌子有大小(上下文窗口),太多东西反而找不到重点。

关键认知

  • 模型**不是"一直记得"**你说过什么,它只能看到当前窗口里有的东西。
  • 同一个问题,上下文不同,回答完全不同
  • 不是塞越多越好——重点会被稀释,AI 会"答偏"。

用错会怎样

  • 以为"我之前告诉过它了",结果新会话里 AI 完全不知道(上下文是会话级的,不跨会话)
  • 一次塞 10 个 PDF 让 AI 综合分析,结果它只引用了第 1 个
  • 历史对话太长,新指令被淹没

实践提示

  • 把最重要的指令放在 prompt 的开头结尾(中间最容易被忽略)
  • 长任务每隔几轮重申一次目标
  • 不相关的旧对话开新会话,别图省事

深入上下文工程专题综述


一次请求(Request)

一句话:一次请求是把模型选择、系统规则、用户任务、输入材料、上下文、工具定义、输出格式和控制参数一起交给模型。

类比:给一个临时项目组发任务包。包里要有目标、材料、可用工具、权限边界和验收标准;只发一句“帮我做一下”,结果通常不稳定。

一次请求通常包含

部分 作用
model 选择用哪个模型
instructions / messages 系统规则、用户问题、历史对话
content parts 文本、图片、文件、音频等输入块
tools 模型可以请求调用的外部工具
response schema 输出字段和格式
max output / reasoning / stream 控制输出长度、推理强度和返回方式

用错会怎样

  • 没有输出契约,系统拿到一段自然语言,无法解析。
  • 工具 schema 写不清,模型会用错工具或传错参数。
  • 把长历史、长文件、检索片段全塞进去,关键任务反而被淹没。

深入Token、上下文与一次请求结构


Prompt

一句话:Prompt 是你交给 AI 的一份任务说明书——目标、背景、材料、约束、输出格式、判断标准。

类比:给外包写需求文档。"做个酷的网站"和"做一个 3 页响应式落地页,主色 #1E40AF,要英文版"是两回事。

一个好 prompt 的 6 个部分

1. 我的目标是:……               ← 你想要什么结果
2. 背景是:……                    ← 为什么做这件事
3. 你可以使用的材料是:……         ← 上下文
4. 请你输出:……                  ← 格式(表格?JSON?清单?)
5. 限制条件:……                  ← 不要做什么
6. 判断好坏的标准:……             ← 怎么算成功

补一句:如果信息不够,先问我 1-3 个最关键的问题。

用错会怎样

  • 只说"帮我优化一下" → AI 不知道往哪个方向优化
  • 没给格式 → 每次输出形态都不一样,没法接到流程里
  • 一个 prompt 让 AI 做 5 件事 → 都做得很糙

实践提示

  • 写好的 prompt 保存下来,复用比每次重写更划算
  • 重要 prompt 给示例(few-shot):贴 1-2 个"你想要的好答案长这样"
  • 让 AI 先复述任务再开始,能挡掉一半的方向错误

深入Prompt-RAG-上下文与 MCPPrompt 资料专题综述


RAG

全称:Retrieval-Augmented Generation(检索增强生成)。

一句话:让 AI 先去查你提供的资料库再基于查到的内容回答

类比:找咨询顾问问问题,顾问不靠自己记忆瞎说,而是先翻你的合同/历史邮件/产品文档,然后基于这些回答你。

为什么需要 RAG

  • 模型训练时不知道你公司的资料、最新政策、内部规则
  • 让模型"凭印象答"会幻觉,让它"基于这些材料答"会靠谱很多
  • 资料更新只要更新数据库,不用重新训练模型

标准流程

你的资料 → 切片 → 向量化 → 存入数据库
                                ↓
用户问题 → 查询改写 → 召回(找到 Top N 候选)→ 重排(挑最相关)→ 拼进 prompt → 模型回答 + 引用来源

用错会怎样

  • 切片切太大:召回不准,给的资料里大部分无关
  • 切片切太小:丢上下文,单个片段看不出意思
  • 只用向量检索:碰到关键词查询(人名、产品编号)召回率惨
  • 没做引用:用户根本不知道答案是查来的还是编的
  • 没有评测集:换了一个参数,不知道效果是变好还是变差

实践提示

  • 混合检索(向量 + 关键词)几乎总是更好
  • **重排(rerank)**是性价比最高的提升
  • 一开始就建评测集,哪怕只有 20 条

深入RAG 资料专题综述RAG 设计模板RAG 知识问答流程


Agent

一句话:Agent 是一个有目标、会规划、能调用工具、会看反馈、再决定下一步的 AI 系统——不是一次 prompt,是一个闭环

类比:你让一个被授权的实习生去办一件事。他会:

  1. 拆解任务
  2. 查资料、打电话、填表(调用工具)
  3. 看结果,发现不对就改方案
  4. 完成或主动报告"我搞不定,请确认"

关键认知

  • Agent ≠ "LLM + 一堆工具"。它是 LLM + 状态 + 工具 + 循环 + 停止条件 + 权限边界 + 可观测性
  • 模型能力强 ≠ Agent 可上线。失败处理、权限控制、可回放才是工程难点。
  • Agent 不是越自主越好——涉及数据修改、对外发送、资金动作的地方必须有人确认。

最小 Agent 包含

模块 干啥
目标 用户要什么、什么算完成
模型 推理、规划、决策
工具 搜索、读文件、查数据库、发邮件、改记录……
记忆 当前任务状态 + 用户长期偏好
循环 想 → 做 → 看 → 反思 → 继续或停
权限 哪些动作可以自动,哪些必须人工确认
日志 每一步输入输出可回放

用错会怎样

  • 让 Agent 直接修改生产数据库 → 一次幻觉毁所有人
  • 没设停止条件 → Agent 陷入死循环烧钱
  • 没记日志 → 出了问题完全无法复盘
  • 把所有逻辑都塞给模型决策 → 该确定性写代码的地方不写

实践提示

  • 能用规则代码写就别让模型决策——模型只用在判断不清的环节
  • 每个工具调用都要有日志:输入、输出、耗时、错误
  • 高风险动作至少要有 dry-run 或 人工确认

深入Agent 核心概念Agent 资料专题综述Agent 设计模板


评测

一句话:用样例 + 指标 + 评分规则判断 AI 输出是否稳定、准确、可上线。

类比:上线前的 QA 测试。没测试就上线 = 用户在帮你 debug。

为什么必须做

  • 你改了一句 prompt,怎么知道是变好了还是变差了
  • 换了一个模型,效果是涨是跌?
  • 上线 3 个月后,模型默默退化了,怎么发现?

最小评测包含

评测集(20-100 条样例)
  ├── 正例:典型的正常输入
  ├── 反例:故意出错的、边界的、模糊的
  └── 每条样例 → 期望输出 / 评分规则

跑一遍 → 自动评分 + 人工抽查 → 出报告

评分方式(从粗到细):

  1. 关键词命中:输出里有没有必要的字段、引用、关键词
  2. 结构校验:JSON 解析得了吗、表格列对吗
  3. LLM 做评委:用另一个强模型评分(注意 bias)
  4. 人工评分:金标准,但贵

用错会怎样

  • 全靠"感觉"调 prompt → 调了 5 次都不知道哪次最好
  • 评测集只有正例 → 上线后被边界 case 打脸
  • 一次性写 100 条 → 没人会维护,最后过时
  • 用模型自评的同时不抽查 → 模型互相在"自圆其说"

实践提示

  • 先有 20 条样例再开始优化——没有评测的优化都是错觉
  • 评测集和真实用户行为同步增长,不要一次性写完
  • Bad case专门收集成清单,每次发版前必跑

深入评测清单Agent 评测与回放流程


还有几个常听到的术语

术语 一句话
LLM Large Language Model,大语言模型。GPT、Claude、文心、通义、DeepSeek 这些都是 LLM。
MCP Model Context Protocol。一种让 AI 工具接入更标准化的协议,详见 MCP 工具调用流程
多模态 模型能处理文本以外的输入/输出,比如图片、音频、视频、PDF。
幻觉 模型生成看起来合理但实际错误的内容。对策是引用 + 校验,不是"换更好的模型"
微调(Fine-tune) 用你自己的数据继续训练模型。先用 prompt 和 RAG 把效果做到极致再考虑,不要一上来就微调。
Few-shot 在 prompt 里给 1-3 个"好答案样例",让模型模仿格式和风格。
结构化输出 让模型输出 JSON/表格等可被代码解析的格式,生产系统必备
Runtime / Agentic Runtime 让 Agent 能稳定运行的执行环境:状态、调度、日志、回放、权限、成本控制。详见 工程化与 Runtime

下一步