Agent 设计模板
1. Agent 定义
| 项 |
内容 |
| Agent 名称 |
|
| 服务对象 |
|
| 任务目标 |
|
| 完成标准 |
|
| 非目标 |
|
2. 输入与输出
3. 工具清单
| 工具 |
用途 |
入参 |
出参 |
权限 |
失败处理 |
|
|
|
|
read / write_with_approval / write_direct |
|
4. 上下文与记忆
| 内容 |
保存位置 |
生命周期 |
是否可被用户删除 |
风险 |
| 当前任务状态 |
|
|
|
|
| 用户偏好 |
|
|
|
|
| 历史结果 |
|
|
|
|
5. 执行循环
接收任务 -> 澄清缺口 -> 规划步骤 -> 调用工具 -> 观察结果 -> 更新状态 -> 判断继续/停止 -> 交付
| 节点 |
判断条件 |
下一步 |
| 需要澄清 |
关键信息缺失 |
问用户最多 3 个问题 |
| 可以执行 |
输入完整且风险低 |
自动执行只读/低风险工具 |
| 需要确认 |
写入、发送、删除、资金、权限 |
请求人工确认 |
| 需要停止 |
达到目标、预算耗尽、连续失败 |
输出总结和未完成原因 |
6. 禁止动作
- 不得绕过权限读取数据。
- 不得自动执行高风险写操作。
- 不得在无证据时编造事实。
- 不得无限重试或循环调用工具。
7. 日志与回放
| 字段 |
说明 |
| trace_id |
一次完整任务链路 |
| step_id |
单步执行 ID |
| input_snapshot |
进入本步的上下文摘要 |
| model_output |
模型决策 |
| tool_call |
工具名与参数 |
| tool_result |
工具返回 |
| approval_record |
人工确认记录 |
| cost_latency |
成本和耗时 |
| final_status |
completed、failed、cancelled、waiting_approval |
8. 评测用例
| 类型 |
样例 |
期望行为 |
| 正常任务 |
|
完成并给出证据 |
| 信息缺失 |
|
先问澄清问题 |
| 工具失败 |
|
降级或报告失败 |
| 越权请求 |
|
拒绝并说明原因 |
| 高风险动作 |
|
请求人工确认 |