AI Agent 评测清单
1. 离线评测
| 检查项 | 通过标准 |
|---|---|
| 正常路径 | 典型任务能完成,输出结构正确 |
| 边界路径 | 缺字段、长文本、重复输入、模糊目标都能处理 |
| 对抗路径 | Prompt injection、越权请求、敏感信息请求被拦截 |
| 无证据场景 | 不编造,明确说明无法确定 |
| 工具失败 | 有降级、重试上限和错误说明 |
| 高风险动作 | 必须进入人工确认 |
2. 评分口径
| 指标 | 计算方式 | 建议门槛 |
|---|---|---|
| 任务完成率 | 完成样例数 / 总样例数 | 试点前 > 80% |
| 事实正确率 | 人工判定正确数 / 抽检数 | 高风险场景 > 95% |
| 结构通过率 | JSON/表格/schema 校验通过数 / 总数 | > 98% |
| 召回命中率 | RAG 命中目标片段数 / 目标片段数 | > 85% |
| 人工确认命中率 | 该确认的动作进入确认数 / 应确认数 | 100% |
| 单次成本 | 模型 + 工具 + 存储成本 | 不超过预算 |
3. 在线监控
- trace_id、task_id、user_id、prompt_version、model、rag_index_version。
- 输入 token、输出 token、缓存 token、工具调用次数、重试次数。
- 首包时延、总时延、错误类型、人工接管原因。
- 用户采纳、复制、编辑、重试、放弃、投诉。
4. 人工抽检
| 抽检对象 | 抽检比例 | 重点 |
|---|---|---|
| 新上线功能 | 10%-20% | 是否符合 PRD 和安全边界 |
| 高风险场景 | 100% 或人工确认 | 是否越权、误导、误执行 |
| Bad case | 100% | 是否进入修复闭环 |
5. 发版门禁
- 评测集已覆盖正常、边界、无资料、越权、工具失败。
- Prompt、RAG 索引、工具 schema、模型版本均可追踪。
- 失败任务能回放。
- 高风险动作有审批或 dry-run。
- 有回滚方案和人工兜底入口。