上下文工程专题综述
上下文工程决定模型这一次到底能看到什么。它比“上下文越长越好”更重要,核心是相关性、顺序、压缩和冲突处理。
主题流程图
主题边界
- Prompt 是任务说明;上下文是本次请求可见材料;记忆是产品或系统长期保存的信息。
- RAG 片段、工具结果、历史对话和用户偏好都可能进入上下文,但优先级不同。
知识树
- 输入层:系统规则、用户任务、文件、图片、历史对话。
- 检索层:RAG 片段、网页、数据库、工具结果。
- 状态层:任务进度、已完成步骤、未决问题。
- 压缩层:摘要、提纲、窗口切换、过期清理。
- 安全层:指令优先级、资料可信度、注入防护。
阅读顺序
- 先理解 Token 和上下文窗口。
- 再看上下文拼装:什么放前面、什么压缩、什么不能让资料覆盖规则。
- 最后结合 Agent/Runtime,看长任务如何跨轮恢复状态。
常见误区
- 把所有材料一次性塞进去,导致重点稀释。
- 把网页或用户上传资料当作高优先级指令。
- 长对话中不维护任务状态摘要,后续回答开始漂移。
实战任务
- 为一个长任务写“当前任务状态摘要”模板。
- 把同一问题分别用少上下文、噪声上下文、精简上下文测试输出差异。
- 设计上下文预算:系统规则、用户材料、检索片段、输出各占多少。
必读资料
后置阅读
- 超长上下文模型的具体上限变化很快,只要掌握预算和压缩方法即可。