Agent 评测与回放流程

用于把 Agent 的线上表现变成可复盘、可定位、可迭代的评测闭环。

Agent 评测与回放流程

flowchart TD
    A["构造任务集"] --> B["定义通过标准"]
    B --> C["运行 Agent"]
    C --> D["记录 Trace、工具调用和输出"]
    D --> E["自动指标评测"]
    D --> F["人工抽检"]
    E --> G["错误分类"]
    F --> G
    G --> H{"主要问题"}
    H -- "模型推理" --> I["调整 Prompt / 模型"]
    H -- "检索知识" --> J["调整 RAG"]
    H -- "工具执行" --> K["调整工具和权限"]
    H -- "流程设计" --> L["调整任务拆解"]
    I --> C
    J --> C
    K --> C
    L --> C