Agent Data Protocol资料

提示

ADP（Agent Data Protocol）通过标准化智能体训练数据格式，极大简化了 LLM 智能体的微调流程，提升了跨任务泛化能力，并推动了开源生态的协同发展。

简介

智能体（Agent）是让大语言模型（LLM）与外部环境交互、调用工具、执行任务的关键形式。然而，高质量智能体训练数据的缺乏与格式碎片化，成为成这一领域快速发展的主要瓶颈。

论文《Agent Data Protocol》（ADP）由 CMU、OSU、HKU 等机构联合提出，旨在通过标准化协议层统一不同来源的智能体数据集，从而实现高效的监督微调（SFT）与跨任务泛化。

ADP 通过定义统一的「动作（Action）」与「观测（Observation）」结构，将复杂的交互数据转换为通用的训练语料，使得异构数据能被任意智能体框架（如 OpenHands、SWE-Agent、AgentLab）直接使用。

研究动机

在深入了解 ADP 之前，首先需要明确当前智能体训练数据面临的主要挑战，以及 ADP 试图解决的核心问题。

当前问题

数据碎片化：不同智能体数据集（浏览、代码、API 调用等）格式各异，难以整合。
数据复用困难：每个数据集都需针对不同 Agent 框架定制转换脚本，工程成本高。
缺乏可比较性：异构格式阻碍了跨数据集的评估与统计分析。

ADP 的目标

ADP 的设计目标主要包括以下三点：

Simplicity：结构清晰，易于解析与验证。
Standardization：统一所有智能体任务的数据格式。
Expressiveness：兼容多种任务类型（编程、网页、工具使用、通信等），保留原始语义。

ADP 核心架构

ADP 采用 Pydantic Schema 定义统一的轨迹（Trajectory）结构，便于数据解析与验证。

下方为 Trajectory 的结构定义示例：

Trajectory {
  id: str,
  content: [Action | Observation],
  details: dict  # 元数据
}

在 ADP 中，动作（Action）和观测（Observation）类型的标准化定义如下表所示：

在实际应用中，动作和观测类型的标准化对于数据兼容性至关重要。

内嵌表格

类型	描述	示例
APIAction	外部工具调用	goto(url="https://google.com")
CodeAction	代码执行	print("Hello World")
MessageAction	自然语言回复	"How can I help you?"

表 1: ADP 动作（Action）类型

内嵌表格

类型	描述	示例
TextObservation	文本环境反馈	Execution result: Hello World
WebObservation	网页状态（HTML/AX 树/截图等）	url=google.com, html=...

表 2: ADP 观测（Observation）类型

ADP 数据转换流程

ADP 的数据标准化流程采用“多对多 → 中心辐射”架构，极大简化了数据集与智能体框架之间的适配复杂度。

下图展示了整体流程：

[图示或嵌入内容已省略]

图 1: ADP 数据标准化流程

如上图所示，ADP 的数据转换流程分为以下三个阶段：

阶段 1：Raw → ADP

将已有数据集（如 AgentInstruct、Mind2Web、SWE-Gym 等）映射为统一的 Action/Observation 结构。

阶段 2：ADP → SFT

为不同智能体框架编写一次性转换脚本（如 OpenHands、SWE-Agent、AgentLab），从而适配其特定格式。这样，工程复杂度从 O(D×A)（每数据集 × 每 Agent）降为 O(D+A)。

阶段 3：质量验证

自动校验动作配对、推理解释存在率（Reasoning Coverage ≥ 90%）、数据一致性等，确保数据质量。

标准化数据集

ADP 协议已整合了 13 个主流智能体数据集（共 130 万条轨迹），覆盖四大类别，具体如下表：

内嵌表格

类别	示例数据集	说明
Coding	CodeActInstruct, Code-Feedback	代码生成与执行任务
Software Engineering	SWE-Gym, SWE-smith	多步代码修复与测试
API/Tool Use	Orca AgentInstruct, OpenHands Feedback	工具调用任务
Web Browsing	Mind2Web, Synatra, Go-Browse	网站交互与任务执行

表 3: ADP 标准化数据集类别与示例

实验结果

基于 Qwen2.5 / Qwen3 模型的多框架实验结果表明，ADP 显著提升了智能体在多项任务上的表现。

下表展示了主要实验结果：

内嵌表格

框架	任务	模型	Base	#NAME?	提升
SWE-Agent	SWE-Bench	Qwen2.5-7B	0.40%	20.20%	0.198
OpenHands	SWE-Bench	Qwen2.5-7B	2.80%	20.40%	0.176
AgentLab	WebArena	Qwen2.5-7B	4.50%	21.00%	0.165
OpenHands	AgentBench	Qwen2.5-7B	3.50%	27.10%	0.236

表 4: ADP 多框架实验结果

这些结果在 7B、14B、32B 模型上均保持一致，且在 SWE-Bench 上超过 Claude 3.5 Sonnet (33.6%) 的表现。

跨任务泛化能力

ADP 数据在多个任务间展现出强大的迁移性，显著优于单一领域微调。

下图展示了跨任务泛化的性能提升：

[图示或嵌入内容已省略]

图 2: ADP 跨任务泛化能力

具体实验数据如下：

SWE-smith only：1.0% → ADP：10.4%
AgentInstruct only：0.6% → ADP：9.1%
Go-Browse only：16.0% → ADP：20.1%

可见，跨域混合数据优于单一领域微调，能有效避免负迁移。

社区与生态价值

ADP 的开源与社区贡献极大推动了智能体领域的标准化进程。

贡献与开源计划

统一了 13 个异构数据集；
代码总量仅约 4,900 LOC；
每个新 Agent 仅需 ~77 LOC 即可适配；
已开源于 agentdataprotocol.com。

潜在影响

促进研究复现与公平比较
大幅降低智能体微调门槛
推动跨领域智能体标准化生态

未来方向

ADP 未来的发展方向包括：

多模态扩展：整合图像、屏幕录制、音频等多模态数据。
评测协议标准化：让 Agent 与环境共用统一接口，提升评测一致性。
自动化数据验证与转换：通过 AI 自动清洗与标准化数据，进一步提升效率。

总结

Agent Data Protocol（ADP）通过标准化智能体训练数据格式，极大简化了 LLM 智能体的微调与跨任务泛化流程。其统一的 Schema、丰富的开源数据集和显著的实验效果，为智能体生态的协同发展奠定了坚实基础。未来，ADP 有望在多模态、评测标准化和自动化数据处理等方向持续拓展，推动智能体领域迈向更高水平。