Harness到底是什么？一篇给你讲透

一、为什么Harness突然火了

这个词在2025年末到2026年初明显升温。

Anthropic在2025年11月就已经公开讨论“long-running agents”的effective harnesses，核心问题是：agent 做长任务会跨多个上下文窗口，而每次新会话都像“一个新工程师接班”，没有之前发生过什么的记忆。

到2026年2月，Mitchell Hashimoto在自己的文章里直接把一个阶段命名为 “Engineer the Harness”；几天后，OpenAI又发布了 “Harness engineering”，把这个概念进一步推到台前。

[图示已省略]

也就是说，行业开始意识到：2025年大家比的是模型和prompt；2026年开始，真正拉开差距的是模型外面的系统设计。这就是harness*()*变热的根本原因。这个判断能从OpenAI 和Anthropic的工程文章里直接看出来。

二、Harness到底是什么

Harness = 围绕LLM/agent的执行与治理层。

[图示已省略]

OpenAI的表述更偏工程实现：

在Codex体系里，harness包含core agent loop + execution logic + client/runtime integration；它不是单次对话，而是一个能驱动工具调用、状态流转、事件流、客户端交互的长期运行系统。

所以，harness不是一个具体模型，也不是一句prompt，更不是某个单独框架。

三、和prompt、workflow、agent、framework的关系

它不是prompt

Prompt只是给模型的文字说明。

Harness则负责：什么时候给什么prompt、何时压缩上下文、何时调用工具、失败后怎么恢复、哪些动作需要审批。

它不等于agent

Aent 通常指“会规划、会调用工具、会迭代执行”的智能体行为。

Harness则是agent背后的基础设施。OpenAI把agent loop视为harness的核心逻辑之一，但完整harness还包括更多supporting features和runtime结构。

它不等于framework

框架更像“开发工具箱”；

Harness 更像“真正跑在线上的运行环境”。

Salesforce 明确区分了：framework提供构建agent的库，而harness是现实世界里约束、管理和运行agent的实际runtime system。

它也不只是workflow

Workflow 是流程；

Harness不仅管流程，还管状态、记忆、权限、恢复、验证、日志、审批、客户端协议。

四、一个harness里通常包含什么

[图示已省略]

结合OpenAI、Anthropic、Salesforce的公开工程文章，一个成熟harness 大致会有这几层：

Agent loop

就是“用户输入 → 模型思考 → 请求工具 → 执行工具 → 观察结果 → 再思考 → 输出”的循环。OpenAI把这称作Codex的核心逻辑。

Tool layer

给模型接上shell、代码编辑、浏览器、数据库、API、文件系统等能力，并校验工具调用是否合法、参数是否正确。没有这层，模型只能聊天。

Memory / state

保存中间状态、任务进度、摘要、待办、检查点。这是解决长任务“做着做着就忘了”的关键。Anthropic讲得很清楚：跨context window工作的agent必须弥补“新会话没有前情记忆”的问题。

Safety / permissions

限制模型能访问什么、能改什么、什么动作必须审批、怎么过滤输入输出。Salesforce直接把harness描述成model的security wrapper。

Lifecycle / recovery

任务崩了能不能续跑，重启后能不能接着干，长任务能不能跨小时甚至跨天继续。Salesforce把这叫lifecycle and state management。

Client/runtime integration

尤其在产品化场景里，harness还要对接CLI*()*、IDE、Web、后台容器。OpenAI的Codex App Server就是在做这件事：把harness以稳定协议暴露给不同客户端。

五、Harness Engineering又是什么

既然harness是那层运行系统，Harness Engineering 就是专门设计和迭代这层系统的工程实践。

OpenAI在2026年2月把它明确写成主题，核心思想不是“怎么把prompt写得更花”，而是：

怎么让仓库对agen 更可读
怎么把知识沉淀到repo里
怎么通过反馈回路让agent持续纠错
怎么控制“熵增”和系统漂移
怎么让humans steer, agents execute

所以你可以把Harness Engineering 理解成：从“提示工程”升级到“智能体运行系统工程”。

Harness Engineering和过去的“Prompt Engineering() / Context Engineering”有什么区别呢？

Prompt engineering：教模型这一轮怎么答
Context engineering：给模型这一轮喂什么上下文
Harness engineering：设计整个系统，让模型在很多轮、很多工具、很长时间里都能稳定完成任务

[图示已省略]

也就是说，harness关心的是连续执行能力，而不只是单轮输出质量。这个区别在OpenAI对agent loop/app server的描述，以及Anthropic对long-running agents的描述里都提到了。

最后再总结一下： Harness不是新模型，也不是新框架，而是“大模型外面的那层执行与治理系统”。它负责把会推理的LLM变成能长期、稳定、安全完成任务的agent。

Harness到底是什么？一篇给你讲透

一、为什么Harness突然火了

二、Harness到底是什么

三、和prompt、workflow、agent、framework的关系

它不是prompt

它不等于agent

它不等于framework

它也不只是workflow

四、一个harness里通常包含什么

Agent loop

Tool layer

Memory / state

Safety / permissions

Lifecycle / recovery

Client/runtime integration

Harness Engineering和过去的“Prompt Engineering*()* / Context Engineering”有什么区别呢？

Harness Engineering和过去的“Prompt Engineering() / Context Engineering”有什么区别呢？