Agent Data Protocol资料

提示

ADP(Agent Data Protocol)通过标准化智能体训练数据格式,极大简化了 LLM 智能体的微调流程,提升了跨任务泛化能力,并推动了开源生态的协同发展。

简介

智能体(Agent)是让大语言模型(LLM)与外部环境交互、调用工具、执行任务的关键形式。然而,高质量智能体训练数据的缺乏与格式碎片化,成为成这一领域快速发展的主要瓶颈。

论文《Agent Data Protocol》(ADP)由 CMU、OSU、HKU 等机构联合提出,旨在通过标准化协议层统一不同来源的智能体数据集,从而实现高效的监督微调(SFT)与跨任务泛化。

ADP 通过定义统一的「动作(Action)」与「观测(Observation)」结构,将复杂的交互数据转换为通用的训练语料,使得异构数据能被任意智能体框架(如 OpenHands、SWE-Agent、AgentLab)直接使用。


研究动机

在深入了解 ADP 之前,首先需要明确当前智能体训练数据面临的主要挑战,以及 ADP 试图解决的核心问题。

当前问题

  • 数据碎片化:不同智能体数据集(浏览、代码、API 调用等)格式各异,难以整合。
  • 数据复用困难:每个数据集都需针对不同 Agent 框架定制转换脚本,工程成本高。
  • 缺乏可比较性:异构格式阻碍了跨数据集的评估与统计分析。

ADP 的目标

ADP 的设计目标主要包括以下三点:

  1. Simplicity:结构清晰,易于解析与验证。
  2. Standardization:统一所有智能体任务的数据格式。
  3. Expressiveness:兼容多种任务类型(编程、网页、工具使用、通信等),保留原始语义。

ADP 核心架构

ADP 采用 Pydantic Schema 定义统一的轨迹(Trajectory)结构,便于数据解析与验证。

下方为 Trajectory 的结构定义示例:

Trajectory {
  id: str,
  content: [Action | Observation],
  details: dict  # 元数据
}

在 ADP 中,动作(Action)和观测(Observation)类型的标准化定义如下表所示:

在实际应用中,动作和观测类型的标准化对于数据兼容性至关重要。

内嵌表格

类型 描述 示例
APIAction 外部工具调用 goto(url="https://google.com")
CodeAction 代码执行 print("Hello World")
MessageAction 自然语言回复 "How can I help you?"

表 1: ADP 动作(Action)类型

内嵌表格

类型 描述 示例
TextObservation 文本环境反馈 Execution result: Hello World
WebObservation 网页状态(HTML/AX 树/截图等) url=google.com, html=...

表 2: ADP 观测(Observation)类型


ADP 数据转换流程

ADP 的数据标准化流程采用“多对多 → 中心辐射”架构,极大简化了数据集与智能体框架之间的适配复杂度。

下图展示了整体流程:

[图示或嵌入内容已省略]

图 1: ADP 数据标准化流程

如上图所示,ADP 的数据转换流程分为以下三个阶段:

阶段 1:Raw → ADP

将已有数据集(如 AgentInstruct、Mind2Web、SWE-Gym 等)映射为统一的 Action/Observation 结构。

阶段 2:ADP → SFT

为不同智能体框架编写一次性转换脚本(如 OpenHands、SWE-Agent、AgentLab),从而适配其特定格式。这样,工程复杂度从 O(D×A)(每数据集 × 每 Agent)降为 O(D+A)。

阶段 3:质量验证

自动校验动作配对、推理解释存在率(Reasoning Coverage ≥ 90%)、数据一致性等,确保数据质量。

标准化数据集

ADP 协议已整合了 13 个主流智能体数据集(共 130 万条轨迹),覆盖四大类别,具体如下表:

内嵌表格

类别 示例数据集 说明
Coding CodeActInstruct, Code-Feedback 代码生成与执行任务
Software Engineering SWE-Gym, SWE-smith 多步代码修复与测试
API/Tool Use Orca AgentInstruct, OpenHands Feedback 工具调用任务
Web Browsing Mind2Web, Synatra, Go-Browse 网站交互与任务执行

表 3: ADP 标准化数据集类别与示例


实验结果

基于 Qwen2.5 / Qwen3 模型的多框架实验结果表明,ADP 显著提升了智能体在多项任务上的表现。

下表展示了主要实验结果:

内嵌表格

框架 任务 模型 Base #NAME? 提升
SWE-Agent SWE-Bench Qwen2.5-7B 0.40% 20.20% 0.198
OpenHands SWE-Bench Qwen2.5-7B 2.80% 20.40% 0.176
AgentLab WebArena Qwen2.5-7B 4.50% 21.00% 0.165
OpenHands AgentBench Qwen2.5-7B 3.50% 27.10% 0.236

表 4: ADP 多框架实验结果

这些结果在 7B、14B、32B 模型上均保持一致,且在 SWE-Bench 上超过 Claude 3.5 Sonnet (33.6%) 的表现。


跨任务泛化能力

ADP 数据在多个任务间展现出强大的迁移性,显著优于单一领域微调。

下图展示了跨任务泛化的性能提升:

[图示或嵌入内容已省略]

图 2: ADP 跨任务泛化能力

具体实验数据如下:

  • SWE-smith only:1.0% → ADP:10.4%
  • AgentInstruct only:0.6% → ADP:9.1%
  • Go-Browse only:16.0% → ADP:20.1%

可见,跨域混合数据优于单一领域微调,能有效避免负迁移。


社区与生态价值

ADP 的开源与社区贡献极大推动了智能体领域的标准化进程。

贡献与开源计划

  • 统一了 13 个异构数据集;
  • 代码总量仅约 4,900 LOC
  • 每个新 Agent 仅需 ~77 LOC 即可适配;
  • 已开源于 agentdataprotocol.com

潜在影响

  1. 促进研究复现与公平比较
  2. 大幅降低智能体微调门槛
  3. 推动跨领域智能体标准化生态

未来方向

ADP 未来的发展方向包括:

  1. 多模态扩展:整合图像、屏幕录制、音频等多模态数据。
  2. 评测协议标准化:让 Agent 与环境共用统一接口,提升评测一致性。
  3. 自动化数据验证与转换:通过 AI 自动清洗与标准化数据,进一步提升效率。

总结

Agent Data Protocol(ADP)通过标准化智能体训练数据格式,极大简化了 LLM 智能体的微调与跨任务泛化流程。其统一的 Schema、丰富的开源数据集和显著的实验效果,为智能体生态的协同发展奠定了坚实基础。未来,ADP 有望在多模态、评测标准化和自动化数据处理等方向持续拓展,推动智能体领域迈向更高水平。