上下文工程专题综述

上下文工程决定模型这一次到底能看到什么。它比“上下文越长越好”更重要,核心是相关性、顺序、压缩和冲突处理。

主题流程图

主题边界

  • Prompt 是任务说明;上下文是本次请求可见材料;记忆是产品或系统长期保存的信息。
  • RAG 片段、工具结果、历史对话和用户偏好都可能进入上下文,但优先级不同。

知识树

  • 输入层:系统规则、用户任务、文件、图片、历史对话。
  • 检索层:RAG 片段、网页、数据库、工具结果。
  • 状态层:任务进度、已完成步骤、未决问题。
  • 压缩层:摘要、提纲、窗口切换、过期清理。
  • 安全层:指令优先级、资料可信度、注入防护。

阅读顺序

  1. 先理解 Token 和上下文窗口。
  2. 再看上下文拼装:什么放前面、什么压缩、什么不能让资料覆盖规则。
  3. 最后结合 Agent/Runtime,看长任务如何跨轮恢复状态。

常见误区

  • 把所有材料一次性塞进去,导致重点稀释。
  • 把网页或用户上传资料当作高优先级指令。
  • 长对话中不维护任务状态摘要,后续回答开始漂移。

实战任务

  1. 为一个长任务写“当前任务状态摘要”模板。
  2. 把同一问题分别用少上下文、噪声上下文、精简上下文测试输出差异。
  3. 设计上下文预算:系统规则、用户材料、检索片段、输出各占多少。

必读资料

后置阅读

  • 超长上下文模型的具体上限变化很快,只要掌握预算和压缩方法即可。