解决方案

从告警到修复的运维自动闭环

运维团队面对的不是一个系统的问题,而是“监控系统看告警、登服务器查日志、开工单系统记结论、在群里报结果”这条跨系统链路的效率问题。FIM One 把这条链路从人工串联变为自动执行。

运维痛点

告警量远超人工处理能力

生产环境的监控系统每天产生数百甚至数千条告警。其中大量是重复告警、关联告警或低优先级噪声。运维人员花费大量时间在“判断这条告警该不该处理”上,真正需要紧急响应的 P0 事件反而淹没在列表中。

一次排查涉及四到五个系统的手动操作

发现告警后,先登录 Prometheus 或 Zabbix 查看详情;再 SSH 到对应服务器拉取应用日志和系统日志;如果涉及最近的部署变更,还需要登录 CI/CD 系统查看发布记录。排查完成后在 Jira 或内部工单系统记录结论,最后在飞书群里汇报。每一步都需要手动切换上下文。

排查质量依赖个人经验

资深运维工程师的排查思路——先看哪个日志、关注哪些指标、哪些现象对应哪类根因——停留在个人脑中。新人面对同样的告警需要从头摸索,处置时间是资深人员的三到五倍。经验无法沉淀为可复用的标准流程。

场景追踪

P0 事件:延迟飙升
严重
AI 预分析

日志关联完成。在集群 B 中发现匹配的错误模式。

检测到 CI/CD 发布 v2.4.1 恰好在飙升前 5 分钟。

处置建议

"v2.4.1 中可能存在连接泄漏。建议立即回滚至 v2.4.0。"

FIM Agent 将"人追日志"转变为"逻辑找人",提供预分析的根因结论。

修复闭环

1

告警接收与预处理

监控系统通过 Webhook 将告警推送至 FIM One。Agent 自动执行告警去重(合并同一源的重复告警)、关联分析(识别同一故障引发的多条告警)、优先级判定(基于告警类型和影响范围分为 P0-P3)。

2

日志与上下文自动采集

Agent 通过连接器或内置工具拉取相关信息:应用日志和系统日志(通过 Shell 工具或日志平台 API)、最近的部署记录和配置变更(通过 CI/CD 系统连接器)、相关服务的性能指标(通过监控系统 API)。多个采集任务并行执行,互不阻塞。

3

根因分析

Agent 将采集到的日志、指标和变更记录提交给大模型分析。同时检索知识库中的历史故障案例(相似告警的过往处理记录)。生成根因诊断报告:列出可能的原因及其置信度,关联历史相似案例,推荐处置方案。

4

推送与确认

诊断报告通过飞书交互卡片推送至值班人员。卡片包含:告警摘要、根因分析、推荐操作按钮。值班人员在卡片中直接选择操作,确认后 Agent 自动执行。

5

执行与记录

Agent 执行处置操作,监控执行结果。自动更新工单系统:记录告警详情、诊断过程、处置操作和结果。关闭告警,通知相关团队。全部操作链路可回溯。

SLA 影响

告警处理从“人追系统”变为“系统找人”

Agent 完成预处理和初步诊断后,只把需要人工决策的关键环节推送到值班人员面前。人不再被动地在系统间奔波,而是在收到推送时做出判断。

排查经验从个人记忆变为组织资产

每次告警的诊断过程和处置结果自动沉淀到知识库中。新的告警发生时,Agent 自动检索相似历史案例。资深人员的经验通过 Agent 传递给整个团队。

处置全程可审计

从告警触发到最终关闭的完整操作链路记录。支持 SLA 统计和故障复盘分析。

开发者

在 GitHub 上探索我们的源代码,为连接器生态做出贡献,或者将 FIM One 集成到您自己的应用中。

git clone https://github.com/fim-ai/fim-one.git && ./start.sh

企业用户

需要私有化部署、定制连接器或专业支持?我们的团队随时准备帮助您扩展 AI 转型。

私有化部署与数据隔离
SSO 单点登录与审计日志
1对1 专属技术支持
SLA 服务可用性保证