Runtime专题综述
Runtime 解决的是“AI 能力如何稳定跑起来”。本专题重点看状态、调度、沙箱、权限、可观测、回放和成本。
主题流程图
主题边界
- 一次模型调用不需要 Runtime;长任务、后台任务、周期检查、工具链编排、多人协作和生产系统才需要 Runtime。
- Runtime 不是模型能力,而是模型外层的执行系统。
知识树
- 状态:Session、Task、Step、Tool Call、Artifact。
- 执行:队列、重试、超时、并发、取消、恢复。
- 安全:沙箱、权限、审批、只读/写入分级。
- 观测:Trace、日志、指标、告警、回放。
- 成本:token 预算、缓存、限流、模型分级。
阅读顺序
- 先读运行时治理流程,知道生产系统要管什么。
- 再读 Harness、后台任务、周期检查等资料,理解长任务如何拆状态。
- 最后把 Runtime 字段落到 PRD、技术方案和评测清单。
常见误区
- 只看模型回答质量,不记录输入、工具结果和版本。
- 把失败重试交给模型自由发挥,导致循环、重复扣费或重复写入。
- 没有任务状态,长任务中断后只能从头来。
实战任务
- 为一个 Agent 画状态机:created、running、waitingapproval、failed、completed。
- 设计一个回放页面字段清单。
- 给高风险工具写审批规则和降级策略。
必读资料
- AI Agent技术0-1拆解
- AI Harness 工程:Agent 能跑起来的那一层到底是什么?
- AI 网关
- Claude Harness Engineering 操作手册
- Harness Engineering 深度解析
- Harness Engineering:同一个模型,从42%到78%——Vibe Coding时代真正的护城河
- Harness is the New Dataset:模型智能提升的下一个关键方向
- Harness到底是什么?一篇给你讲透
- Harness驱动的Agent
- RAG可观测性
- 为什么智能体需要运行时
- 可观测性
- 失败模式与边界条件
- 开源生态
- 我的Harness Engineering实践
后置阅读
- 具体框架 API 可以后置;先把状态和治理模型画清楚。