核心概念卡
整本知识库里反复出现的术语,只在这里定义一次。其他文档遇到它们就会链回这里。
读这一页之前,建议先做 先动手,那些练习里你已经"用过"这些概念了。
阅读方式:每个概念给你 3 件事——1) 一句话定义;2) 一个生活化类比;3) 你用错它会出什么问题。
速查表
| 概念 | 一句话 | 类比 |
|---|---|---|
| Token | AI 读写文本的最小计费/计长单位 | 出租车的「跳表」 |
| 上下文 | AI 这一次能看到的所有信息 | 工作时桌面上摊开的所有材料 |
| 一次请求 | 把目标、材料、工具和输出契约交给模型的一次调用 | 给一个临时项目组发任务包 |
| Prompt | 你交给 AI 的一份"任务说明书" | 给外包写的需求文档 |
| RAG | 让 AI 先去查你的资料、再回答 | 让顾问先翻你的档案再开口 |
| Agent | 能自己规划、调用工具、看反馈、再决定下一步的 AI 系统 | 一个被授权可以执行任务的实习生 |
| 评测 | 用样例和指标判断 AI 输出是否可用 | 上线前的 QA 测试 |
下面是详细版。
Token
一句话:Token 是 AI 模型处理文本时的最小单位,输入和输出都按 token 计费、计长度。
类比:像出租车的"跳表"——你说的话、AI 回的话,都在持续跳表。
怎么数:
- 中文:1 个汉字 ≈ 1.5-2 tokens
- 英文:1 个常见单词 ≈ 1 token,长词或生僻词会被切成多个
- 经验值:500 字中文 ≈ 1000 tokens
用错会怎样:
- 不知道有 token 上限,把一整本书一次性丢进去,结果模型只看到前半截就回答了(上下文窗口被撑爆,前面的被截断)
- 让 AI 输出超长报告,等了 30 秒只为了一段你不会读的废话
- 在 API 场景下账单失控
实践提示:
- 长材料先让 AI 帮你抽要点,别一次性全塞
- 输出长度要约束:"不超过 300 字"、"列 5 条"
- 重要 prompt 复用很多次时,关注它有多长
上下文(Context)
一句话:上下文是 AI 这一次回答时能看到的全部信息——你的问题、之前几轮对话、你上传的文件、系统设定、工具返回的结果,全都算。
类比:你工作时桌面上摊开的所有材料。桌子有大小(上下文窗口),太多东西反而找不到重点。
关键认知:
- 模型**不是"一直记得"**你说过什么,它只能看到当前窗口里有的东西。
- 同一个问题,上下文不同,回答完全不同。
- 不是塞越多越好——重点会被稀释,AI 会"答偏"。
用错会怎样:
- 以为"我之前告诉过它了",结果新会话里 AI 完全不知道(上下文是会话级的,不跨会话)
- 一次塞 10 个 PDF 让 AI 综合分析,结果它只引用了第 1 个
- 历史对话太长,新指令被淹没
实践提示:
- 把最重要的指令放在 prompt 的开头和结尾(中间最容易被忽略)
- 长任务每隔几轮重申一次目标
- 不相关的旧对话开新会话,别图省事
深入:上下文工程专题综述
一次请求(Request)
一句话:一次请求是把模型选择、系统规则、用户任务、输入材料、上下文、工具定义、输出格式和控制参数一起交给模型。
类比:给一个临时项目组发任务包。包里要有目标、材料、可用工具、权限边界和验收标准;只发一句“帮我做一下”,结果通常不稳定。
一次请求通常包含:
| 部分 | 作用 |
|---|---|
| model | 选择用哪个模型 |
| instructions / messages | 系统规则、用户问题、历史对话 |
| content parts | 文本、图片、文件、音频等输入块 |
| tools | 模型可以请求调用的外部工具 |
| response schema | 输出字段和格式 |
| max output / reasoning / stream | 控制输出长度、推理强度和返回方式 |
用错会怎样:
- 没有输出契约,系统拿到一段自然语言,无法解析。
- 工具 schema 写不清,模型会用错工具或传错参数。
- 把长历史、长文件、检索片段全塞进去,关键任务反而被淹没。
Prompt
一句话:Prompt 是你交给 AI 的一份任务说明书——目标、背景、材料、约束、输出格式、判断标准。
类比:给外包写需求文档。"做个酷的网站"和"做一个 3 页响应式落地页,主色 #1E40AF,要英文版"是两回事。
一个好 prompt 的 6 个部分:
1. 我的目标是:…… ← 你想要什么结果
2. 背景是:…… ← 为什么做这件事
3. 你可以使用的材料是:…… ← 上下文
4. 请你输出:…… ← 格式(表格?JSON?清单?)
5. 限制条件:…… ← 不要做什么
6. 判断好坏的标准:…… ← 怎么算成功
补一句:如果信息不够,先问我 1-3 个最关键的问题。
用错会怎样:
- 只说"帮我优化一下" → AI 不知道往哪个方向优化
- 没给格式 → 每次输出形态都不一样,没法接到流程里
- 一个 prompt 让 AI 做 5 件事 → 都做得很糙
实践提示:
- 写好的 prompt 保存下来,复用比每次重写更划算
- 重要 prompt 给示例(few-shot):贴 1-2 个"你想要的好答案长这样"
- 让 AI 先复述任务再开始,能挡掉一半的方向错误
深入:Prompt-RAG-上下文与 MCP、Prompt 资料专题综述
RAG
全称:Retrieval-Augmented Generation(检索增强生成)。
一句话:让 AI 先去查你提供的资料库,再基于查到的内容回答。
类比:找咨询顾问问问题,顾问不靠自己记忆瞎说,而是先翻你的合同/历史邮件/产品文档,然后基于这些回答你。
为什么需要 RAG:
- 模型训练时不知道你公司的资料、最新政策、内部规则
- 让模型"凭印象答"会幻觉,让它"基于这些材料答"会靠谱很多
- 资料更新只要更新数据库,不用重新训练模型
标准流程:
你的资料 → 切片 → 向量化 → 存入数据库
↓
用户问题 → 查询改写 → 召回(找到 Top N 候选)→ 重排(挑最相关)→ 拼进 prompt → 模型回答 + 引用来源
用错会怎样:
- 切片切太大:召回不准,给的资料里大部分无关
- 切片切太小:丢上下文,单个片段看不出意思
- 只用向量检索:碰到关键词查询(人名、产品编号)召回率惨
- 没做引用:用户根本不知道答案是查来的还是编的
- 没有评测集:换了一个参数,不知道效果是变好还是变差
实践提示:
- 混合检索(向量 + 关键词)几乎总是更好
- **重排(rerank)**是性价比最高的提升
- 一开始就建评测集,哪怕只有 20 条
深入:RAG 资料专题综述、RAG 设计模板、RAG 知识问答流程
Agent
一句话:Agent 是一个有目标、会规划、能调用工具、会看反馈、再决定下一步的 AI 系统——不是一次 prompt,是一个闭环。
类比:你让一个被授权的实习生去办一件事。他会:
- 拆解任务
- 查资料、打电话、填表(调用工具)
- 看结果,发现不对就改方案
- 完成或主动报告"我搞不定,请确认"
关键认知:
- Agent ≠ "LLM + 一堆工具"。它是 LLM + 状态 + 工具 + 循环 + 停止条件 + 权限边界 + 可观测性。
- 模型能力强 ≠ Agent 可上线。失败处理、权限控制、可回放才是工程难点。
- Agent 不是越自主越好——涉及数据修改、对外发送、资金动作的地方必须有人确认。
最小 Agent 包含:
| 模块 | 干啥 |
|---|---|
| 目标 | 用户要什么、什么算完成 |
| 模型 | 推理、规划、决策 |
| 工具 | 搜索、读文件、查数据库、发邮件、改记录…… |
| 记忆 | 当前任务状态 + 用户长期偏好 |
| 循环 | 想 → 做 → 看 → 反思 → 继续或停 |
| 权限 | 哪些动作可以自动,哪些必须人工确认 |
| 日志 | 每一步输入输出可回放 |
用错会怎样:
- 让 Agent 直接修改生产数据库 → 一次幻觉毁所有人
- 没设停止条件 → Agent 陷入死循环烧钱
- 没记日志 → 出了问题完全无法复盘
- 把所有逻辑都塞给模型决策 → 该确定性写代码的地方不写
实践提示:
- 能用规则代码写就别让模型决策——模型只用在判断不清的环节
- 每个工具调用都要有日志:输入、输出、耗时、错误
- 高风险动作至少要有 dry-run 或 人工确认
深入:Agent 核心概念、Agent 资料专题综述、Agent 设计模板
评测
一句话:用样例 + 指标 + 评分规则判断 AI 输出是否稳定、准确、可上线。
类比:上线前的 QA 测试。没测试就上线 = 用户在帮你 debug。
为什么必须做:
- 你改了一句 prompt,怎么知道是变好了还是变差了?
- 换了一个模型,效果是涨是跌?
- 上线 3 个月后,模型默默退化了,怎么发现?
最小评测包含:
评测集(20-100 条样例)
├── 正例:典型的正常输入
├── 反例:故意出错的、边界的、模糊的
└── 每条样例 → 期望输出 / 评分规则
跑一遍 → 自动评分 + 人工抽查 → 出报告
评分方式(从粗到细):
- 关键词命中:输出里有没有必要的字段、引用、关键词
- 结构校验:JSON 解析得了吗、表格列对吗
- LLM 做评委:用另一个强模型评分(注意 bias)
- 人工评分:金标准,但贵
用错会怎样:
- 全靠"感觉"调 prompt → 调了 5 次都不知道哪次最好
- 评测集只有正例 → 上线后被边界 case 打脸
- 一次性写 100 条 → 没人会维护,最后过时
- 用模型自评的同时不抽查 → 模型互相在"自圆其说"
实践提示:
- 先有 20 条样例再开始优化——没有评测的优化都是错觉
- 评测集和真实用户行为同步增长,不要一次性写完
- 把Bad case专门收集成清单,每次发版前必跑
还有几个常听到的术语
| 术语 | 一句话 |
|---|---|
| LLM | Large Language Model,大语言模型。GPT、Claude、文心、通义、DeepSeek 这些都是 LLM。 |
| MCP | Model Context Protocol。一种让 AI 工具接入更标准化的协议,详见 MCP 工具调用流程。 |
| 多模态 | 模型能处理文本以外的输入/输出,比如图片、音频、视频、PDF。 |
| 幻觉 | 模型生成看起来合理但实际错误的内容。对策是引用 + 校验,不是"换更好的模型"。 |
| 微调(Fine-tune) | 用你自己的数据继续训练模型。先用 prompt 和 RAG 把效果做到极致再考虑,不要一上来就微调。 |
| Few-shot | 在 prompt 里给 1-3 个"好答案样例",让模型模仿格式和风格。 |
| 结构化输出 | 让模型输出 JSON/表格等可被代码解析的格式,生产系统必备。 |
| Runtime / Agentic Runtime | 让 Agent 能稳定运行的执行环境:状态、调度、日志、回放、权限、成本控制。详见 工程化与 Runtime。 |