核心概念卡

整本知识库里反复出现的术语，只在这里定义一次。其他文档遇到它们就会链回这里。

读这一页之前，建议先做先动手，那些练习里你已经"用过"这些概念了。

阅读方式：每个概念给你 3 件事——1) 一句话定义；2) 一个生活化类比；3) 你用错它会出什么问题。

速查表

概念	一句话	类比
Token	AI 读写文本的最小计费/计长单位	出租车的「跳表」
上下文	AI 这一次能看到的所有信息	工作时桌面上摊开的所有材料
一次请求	把目标、材料、工具和输出契约交给模型的一次调用	给一个临时项目组发任务包
Prompt	你交给 AI 的一份"任务说明书"	给外包写的需求文档
RAG	让 AI 先去查你的资料、再回答	让顾问先翻你的档案再开口
Agent	能自己规划、调用工具、看反馈、再决定下一步的 AI 系统	一个被授权可以执行任务的实习生
评测	用样例和指标判断 AI 输出是否可用	上线前的 QA 测试

下面是详细版。

Token

一句话：Token 是 AI 模型处理文本时的最小单位，输入和输出都按 token 计费、计长度。

类比：像出租车的"跳表"——你说的话、AI 回的话，都在持续跳表。

怎么数：

中文：1 个汉字 ≈ 1.5-2 tokens
英文：1 个常见单词 ≈ 1 token，长词或生僻词会被切成多个
经验值：500 字中文 ≈ 1000 tokens

用错会怎样：

不知道有 token 上限，把一整本书一次性丢进去，结果模型只看到前半截就回答了（上下文窗口被撑爆，前面的被截断）
让 AI 输出超长报告，等了 30 秒只为了一段你不会读的废话
在 API 场景下账单失控

实践提示：

长材料先让 AI 帮你抽要点，别一次性全塞
输出长度要约束："不超过 300 字"、"列 5 条"
重要 prompt 复用很多次时，关注它有多长

上下文（Context）

一句话：上下文是 AI 这一次回答时能看到的全部信息——你的问题、之前几轮对话、你上传的文件、系统设定、工具返回的结果，全都算。

类比：你工作时桌面上摊开的所有材料。桌子有大小（上下文窗口），太多东西反而找不到重点。

关键认知：

模型**不是"一直记得"**你说过什么，它只能看到当前窗口里有的东西。
同一个问题，上下文不同，回答完全不同。
不是塞越多越好——重点会被稀释，AI 会"答偏"。

用错会怎样：

以为"我之前告诉过它了"，结果新会话里 AI 完全不知道（上下文是会话级的，不跨会话）
一次塞 10 个 PDF 让 AI 综合分析，结果它只引用了第 1 个
历史对话太长，新指令被淹没

实践提示：

把最重要的指令放在 prompt 的开头和结尾（中间最容易被忽略）
长任务每隔几轮重申一次目标
不相关的旧对话开新会话，别图省事

深入：上下文工程专题综述

一次请求（Request）

一句话：一次请求是把模型选择、系统规则、用户任务、输入材料、上下文、工具定义、输出格式和控制参数一起交给模型。

类比：给一个临时项目组发任务包。包里要有目标、材料、可用工具、权限边界和验收标准；只发一句“帮我做一下”，结果通常不稳定。

一次请求通常包含：

部分	作用
model	选择用哪个模型
instructions / messages	系统规则、用户问题、历史对话
content parts	文本、图片、文件、音频等输入块
tools	模型可以请求调用的外部工具
response schema	输出字段和格式
max output / reasoning / stream	控制输出长度、推理强度和返回方式

用错会怎样：

没有输出契约，系统拿到一段自然语言，无法解析。
工具 schema 写不清，模型会用错工具或传错参数。
把长历史、长文件、检索片段全塞进去，关键任务反而被淹没。

深入：Token、上下文与一次请求结构

Prompt

一句话：Prompt 是你交给 AI 的一份任务说明书——目标、背景、材料、约束、输出格式、判断标准。

类比：给外包写需求文档。"做个酷的网站"和"做一个 3 页响应式落地页，主色 #1E40AF，要英文版"是两回事。

一个好 prompt 的 6 个部分：

1. 我的目标是：……               ← 你想要什么结果
2. 背景是：……                    ← 为什么做这件事
3. 你可以使用的材料是：……         ← 上下文
4. 请你输出：……                  ← 格式（表格？JSON？清单？）
5. 限制条件：……                  ← 不要做什么
6. 判断好坏的标准：……             ← 怎么算成功

补一句：如果信息不够，先问我 1-3 个最关键的问题。

用错会怎样：

只说"帮我优化一下" → AI 不知道往哪个方向优化
没给格式 → 每次输出形态都不一样，没法接到流程里
一个 prompt 让 AI 做 5 件事 → 都做得很糙

实践提示：

写好的 prompt 保存下来，复用比每次重写更划算
重要 prompt 给示例（few-shot）：贴 1-2 个"你想要的好答案长这样"
让 AI 先复述任务再开始，能挡掉一半的方向错误

深入：Prompt-RAG-上下文与 MCP、Prompt 资料专题综述

RAG

全称：Retrieval-Augmented Generation（检索增强生成）。

一句话：让 AI 先去查你提供的资料库，再基于查到的内容回答。

类比：找咨询顾问问问题，顾问不靠自己记忆瞎说，而是先翻你的合同/历史邮件/产品文档，然后基于这些回答你。

为什么需要 RAG：

模型训练时不知道你公司的资料、最新政策、内部规则
让模型"凭印象答"会幻觉，让它"基于这些材料答"会靠谱很多
资料更新只要更新数据库，不用重新训练模型

标准流程：

你的资料 → 切片 → 向量化 → 存入数据库
                                ↓
用户问题 → 查询改写 → 召回（找到 Top N 候选）→ 重排（挑最相关）→ 拼进 prompt → 模型回答 + 引用来源

用错会怎样：

切片切太大：召回不准，给的资料里大部分无关
切片切太小：丢上下文，单个片段看不出意思
只用向量检索：碰到关键词查询（人名、产品编号）召回率惨
没做引用：用户根本不知道答案是查来的还是编的
没有评测集：换了一个参数，不知道效果是变好还是变差

实践提示：

混合检索（向量 + 关键词）几乎总是更好
**重排（rerank）**是性价比最高的提升
一开始就建评测集，哪怕只有 20 条

深入：RAG 资料专题综述、RAG 设计模板、RAG 知识问答流程

Agent

一句话：Agent 是一个有目标、会规划、能调用工具、会看反馈、再决定下一步的 AI 系统——不是一次 prompt，是一个闭环。

类比：你让一个被授权的实习生去办一件事。他会：

拆解任务
查资料、打电话、填表（调用工具）
看结果，发现不对就改方案
完成或主动报告"我搞不定，请确认"

关键认知：

Agent ≠ "LLM + 一堆工具"。它是 LLM + 状态 + 工具 + 循环 + 停止条件 + 权限边界 + 可观测性。
模型能力强 ≠ Agent 可上线。失败处理、权限控制、可回放才是工程难点。
Agent 不是越自主越好——涉及数据修改、对外发送、资金动作的地方必须有人确认。

最小 Agent 包含：

模块	干啥
目标	用户要什么、什么算完成
模型	推理、规划、决策
工具	搜索、读文件、查数据库、发邮件、改记录……
记忆	当前任务状态 + 用户长期偏好
循环	想 → 做 → 看 → 反思 → 继续或停
权限	哪些动作可以自动，哪些必须人工确认
日志	每一步输入输出可回放

用错会怎样：

让 Agent 直接修改生产数据库 → 一次幻觉毁所有人
没设停止条件 → Agent 陷入死循环烧钱
没记日志 → 出了问题完全无法复盘
把所有逻辑都塞给模型决策 → 该确定性写代码的地方不写

实践提示：

能用规则代码写就别让模型决策——模型只用在判断不清的环节
每个工具调用都要有日志：输入、输出、耗时、错误
高风险动作至少要有 dry-run 或人工确认

深入：Agent 核心概念、Agent 资料专题综述、Agent 设计模板

评测

一句话：用样例 + 指标 + 评分规则判断 AI 输出是否稳定、准确、可上线。

类比：上线前的 QA 测试。没测试就上线 = 用户在帮你 debug。

为什么必须做：

你改了一句 prompt，怎么知道是变好了还是变差了？
换了一个模型，效果是涨是跌？
上线 3 个月后，模型默默退化了，怎么发现？

最小评测包含：

评测集（20-100 条样例）
  ├── 正例：典型的正常输入
  ├── 反例：故意出错的、边界的、模糊的
  └── 每条样例 → 期望输出 / 评分规则

跑一遍 → 自动评分 + 人工抽查 → 出报告

评分方式（从粗到细）：

关键词命中：输出里有没有必要的字段、引用、关键词
结构校验：JSON 解析得了吗、表格列对吗
LLM 做评委：用另一个强模型评分（注意 bias）
人工评分：金标准，但贵

用错会怎样：

全靠"感觉"调 prompt → 调了 5 次都不知道哪次最好
评测集只有正例 → 上线后被边界 case 打脸
一次性写 100 条 → 没人会维护，最后过时
用模型自评的同时不抽查 → 模型互相在"自圆其说"

实践提示：

先有 20 条样例再开始优化——没有评测的优化都是错觉
评测集和真实用户行为同步增长，不要一次性写完
把Bad case专门收集成清单，每次发版前必跑

深入：评测清单、Agent 评测与回放流程

还有几个常听到的术语

术语	一句话
LLM	Large Language Model，大语言模型。GPT、Claude、文心、通义、DeepSeek 这些都是 LLM。
MCP	Model Context Protocol。一种让 AI 工具接入更标准化的协议，详见 MCP 工具调用流程。
多模态	模型能处理文本以外的输入/输出，比如图片、音频、视频、PDF。
幻觉	模型生成看起来合理但实际错误的内容。对策是引用 + 校验，不是"换更好的模型"。
微调（Fine-tune）	用你自己的数据继续训练模型。先用 prompt 和 RAG 把效果做到极致再考虑，不要一上来就微调。
Few-shot	在 prompt 里给 1-3 个"好答案样例"，让模型模仿格式和风格。
结构化输出	让模型输出 JSON/表格等可被代码解析的格式，生产系统必备。
Runtime / Agentic Runtime	让 Agent 能稳定运行的执行环境：状态、调度、日志、回放、权限、成本控制。详见工程化与 Runtime。

下一步

还没动手过 → 先动手
想看自己角色对应的路径 → 角色导航
想深入某个概念 → 主题索引
想看完整学习计划 → 学习地图