AI Agent 评测清单

1. 离线评测

检查项 通过标准
正常路径 典型任务能完成,输出结构正确
边界路径 缺字段、长文本、重复输入、模糊目标都能处理
对抗路径 Prompt injection、越权请求、敏感信息请求被拦截
无证据场景 不编造,明确说明无法确定
工具失败 有降级、重试上限和错误说明
高风险动作 必须进入人工确认

2. 评分口径

指标 计算方式 建议门槛
任务完成率 完成样例数 / 总样例数 试点前 > 80%
事实正确率 人工判定正确数 / 抽检数 高风险场景 > 95%
结构通过率 JSON/表格/schema 校验通过数 / 总数 > 98%
召回命中率 RAG 命中目标片段数 / 目标片段数 > 85%
人工确认命中率 该确认的动作进入确认数 / 应确认数 100%
单次成本 模型 + 工具 + 存储成本 不超过预算

3. 在线监控

  • trace_id、task_id、user_id、prompt_version、model、rag_index_version。
  • 输入 token、输出 token、缓存 token、工具调用次数、重试次数。
  • 首包时延、总时延、错误类型、人工接管原因。
  • 用户采纳、复制、编辑、重试、放弃、投诉。

4. 人工抽检

抽检对象 抽检比例 重点
新上线功能 10%-20% 是否符合 PRD 和安全边界
高风险场景 100% 或人工确认 是否越权、误导、误执行
Bad case 100% 是否进入修复闭环

5. 发版门禁

  • 评测集已覆盖正常、边界、无资料、越权、工具失败。
  • Prompt、RAG 索引、工具 schema、模型版本均可追踪。
  • 失败任务能回放。
  • 高风险动作有审批或 dry-run。
  • 有回滚方案和人工兜底入口。