智能体管理
智能体全生命周期管理
从创建到生产,一个平台全搞定。为智能体配置绑定的模型、工具和指令。通过量化基准测试验证质量。发布到组织市场。技能系统可将每次对话的指令成本降低约 80%。
智能体生命周期
1
创建
定义智能体身份,绑定模型,设置执行模式
2
配置
挂载技能、连接器、知识库和子智能体
3
测试
运行评估数据集,衡量准确率、延迟和成本
4
发布
提交审核,审批通过后的智能体将出现在组织市场中
5
监控
追踪使用情况、Token 消耗和质量指标
生命周期管控
智能体管理
通过精细化控制创建、配置和发布智能体。为每个智能体绑定特定的模型、工具、连接器和知识库。按智能体选择执行模式(标准 ReAct 或规划器 DAG),并设置温度参数以控制确定性。开启可发现标志,允许其他智能体通过 LLM 自动发现。
按智能体绑定模型,支持温度参数控制
执行模式选择:标准模式 (ReAct) 或规划器模式 (DAG)
可发现标志,支持跨智能体自动发现
按智能体绑定连接器、工具和知识库
PROD
Finance_Expert_Agent
ID: ag_8f2k9s1m
编排器
DAG Planner
基础模型
LLM
能力
RAGERP_WriteTool_CallHistory
skill_definition.json
// 优化: 5000+ tokens → 15 tokens
{
"instructions": "Long system prompt...",
"examples": [...],
"schemas": [...]
}
"instructions": "Long system prompt...",
"examples": [...],
"schemas": [...]
}
技能存根系统
序列化引用
{ "id": "finance_audit", "stub": true }$ agent call read_skill("finance_audit")
> 按需加载完整上下文...
> 按需加载完整上下文...
技能系统
渐进式指令加载,大幅降低 Token 消耗。技能 — 包括 SOP、脚本、领域知识 — 在系统提示中以轻量级存根形式引用(每个约 15 个 Token)。智能体在需要时调用 read_skill() 按需加载完整内容。
系统提示中的轻量级存根(每个技能引用约 15 个 Token)
通过 read_skill() 按需加载 — 仅在相关时加载完整内容
每次对话指令 Token 成本降低约 80%
按智能体设置 compact_instructions 字段,自定义压缩策略
节省约 80% Token
传统方式:将所有指令塞入每次对话。技能系统:仅在智能体需要时加载所需内容。
评估中心
在生产部署前进行量化的智能体质量基准测试。构建包含提示、预期行为和断言的测试数据集。通过 LLM 评分并行运行评估。查看每个用例的通过/失败、延迟和 Token 消耗结果。
测试数据集增删改查:提示 + 预期行为 + 断言
支持 LLM 评分的并行评估运行
每个用例的通过/失败、延迟和 Token 消耗指标
结果查看器支持自动轮询,实现实时更新
"系统化的质量度量取代猜测。在用户使用前,全面掌握智能体的准确率、成本和速度。"
自动评估报告 #842
92% 匹配指令准确率94%
工具调用精度88%
输出一致性91%
目标: GPT-4o-Mini样本量: 1,000
智能体自动发现与子智能体绑定
实现专家级委派,避免多智能体混乱。将智能体标记为可发现,定义 sub_agent_ids 白名单,使用 CallAgentTool 将任务委派给合适的专家。一个智能体可以像工具一样调用另一个智能体 — 可控、可审计、有意图。
智能体可发现标志,支持 LLM 自动发现
sub_agent_ids 白名单,实现可控委派
CallAgentTool:以工具形式调用专家智能体
可审计的委派链,支持完整追溯
三种执行模式
为每项任务选择合适的执行策略。标准模式逐步推理。规划器模式将任务分解为依赖图并行执行。自动路由使用快速 LLM 对查询进行分类,自动路由到最优模式。
| 标准模式 (ReAct) | 规划器模式 (DAG) | 自动路由 | |
|---|---|---|---|
| 工作原理 | 思考-执行循环 | 先规划再并行执行 | 先分类再路由 |
| 最适场景 | 判断与探索 | 多步骤工作流 | 混合工作负载 |
| 并行能力 | 顺序执行 | 独立步骤并行执行 | 取决于路由的模式 |
| 自我纠正 | 错误恢复 | 自动重新规划(最多 3 轮) | 继承路由模式的能力 |