Agent 评测与回放流程
用于把 Agent 的线上表现变成可复盘、可定位、可迭代的评测闭环。
flowchart TD
A["构造任务集"] --> B["定义通过标准"]
B --> C["运行 Agent"]
C --> D["记录 Trace、工具调用和输出"]
D --> E["自动指标评测"]
D --> F["人工抽检"]
E --> G["错误分类"]
F --> G
G --> H{"主要问题"}
H -- "模型推理" --> I["调整 Prompt / 模型"]
H -- "检索知识" --> J["调整 RAG"]
H -- "工具执行" --> K["调整工具和权限"]
H -- "流程设计" --> L["调整任务拆解"]
I --> C
J --> C
K --> C
L --> C