AIOps 多智能体项目与论文资源汇总
本文汇总了AIOps领域多智能体相关的核心开源项目、重要学术论文及开发测试资源,旨在帮助读者优化根因定位与分析方案。
目录
AIOps 多智能体项目与论文资源汇总
整理目的: 帮助优化根因定位和分析方案
关注重点: 多智能体(Multi-Agent)项目
更新时间: 2025年12月
一、核心开源项目
1.1 AIOpsLab (Microsoft) ⭐⭐⭐⭐⭐
项目简介: 微软研究院开发的AIOps代理评估整体框架,是目前最完整的AIOps评测平台
核心特性:
- 支持微服务云环境部署
- 故障注入与工作负载生成
- 遥测数据导出
- Agent-Cloud Interface (ACI) 代理云交互接口
- 48个问题的基准测试套件
技术亮点:
- 四级任务体系:检测 → 定位 → 根因分析 → 缓解
- 支持症状性故障和功能性故障的注入
- 可观测性三要素:日志、指标、追踪
资源链接:
- GitHub: https://aka.ms/aiopslab-repo
- 官网: https://microsoft.github.io/AIOpsLab/
- 论文: https://arxiv.org/abs/2501.07606
1.2 mABC: 多智能体区块链启发式协作框架 ⭐⭐⭐⭐⭐
项目简介: 首创使用区块链投票机制的多智能体根因分析框架,发表于EMNLP 2024
核心特性:
- 7个专业化Agent协作
- 区块链启发的投票协议
- 有效缓解LLM幻觉问题
- 解决循环依赖问题
技术亮点:
- 每个Agent专注特定RCA子任务
- 结构化工作流程设计
- 去中心化决策机制减少单点故障
资源链接:
- GitHub: https://github.com/zwpride/mABC
- 论文: https://arxiv.org/abs/2404.12135
- PDF: https://aclanthology.org/2024.findings-emnlp.232.pdf
1.3 OpenRCA (Microsoft) ⭐⭐⭐⭐
项目简介: 微软开源的LLM根因分析基准测试项目
核心特性:
- LLM代理RCA能力评估
- 时间序列和日志数据分析
- 追踪图分析
- Python实现
资源链接:
1.4 AIOps Polaris ⭐⭐⭐⭐
项目简介: 基于多智能体架构和RAG的自动化RCA系统
核心特性:
- 多Agent协作(Knowledge Agent、Reasoning Agent、Executor Agent等)
- 检索增强生成(RAG)
- 故障数据建模
- 解决方案自动生成
资源链接:
1.5 MicroRCA-Agent ⭐⭐⭐⭐
项目简介: CCF国际AIOps挑战赛决赛项目,模块化多智能体微服务RCA解决方案
核心特性:
- 多模态数据支持(日志、追踪、指标)
- 结构化RCA输出
- 闭环推理
- 可扩展模块分离
资源链接:
1.6 RCAgent (阿里巴巴/学术界) ⭐⭐⭐⭐
项目简介: 工具增强的自主云根因分析Agent,发表于CIKM 2024
核心特性:
- Controller Agent + Expert Agent架构
- 自由形式数据收集
- 动作轨迹与自一致性机制
- 隐私安全设计(支持本地部署)
技术亮点:
- 在阿里云真实生产环境部署
- 超越ReAct等基线方法
- 高级上下文管理
资源链接:
- 论文: https://arxiv.org/pdf/2310.16340
- 相关资源: https://www.catalyzex.com/paper/rcagent-cloud-root-cause-analysis-by
1.7 FLASH (Microsoft) ⭐⭐⭐⭐
项目简介: 微软工作流自动化代理,专注重复事件诊断
全称: workFLow Automation agent with Status supervision and Hindsight integration
核心特性:
- 状态监督(Status Supervision)
- 事后学习集成(Hindsight Integration)
- 工作流自动化
- 比SOTA代理提升13.2%诊断准确率
技术亮点:
- 将复杂诊断指令分解为可管理的条件片段
- 从过去失败中自动学习
- 限制错误传播
资源链接:
- 论文: https://www.microsoft.com/en-us/research/wp-content/uploads/2024/10/FLASH_Paper.pdf
- 项目页: https://www.microsoft.com/en-us/research/project/flash-a-reliable-workflow-automation-agent/
1.8 Intelligent Fault Diagnosis Multi-Agent System ⭐⭐⭐
项目简介: 基于CrewAI的智能故障诊断多智能体系统
核心特性:
- 电信网络故障诊断
- RAG工作流程
- 验证层和会话管理
- 生产级错误处理
资源链接:
二、重要学术论文
2.1 多智能体系统论文
Flow-of-Action: SOP Enhanced LLM-Based Multi-Agent System for Root Cause Analysis
- 会议: WWW’25 (2025) 工业赛道
- 作者: Changhua Pei 等
- 核心贡献:
- 使用SOP(标准操作流程)约束LLM多智能体系统
- 辅助Agent过滤噪声、优化搜索空间
- 达到64%准确率(对比之前35.5%)
- 链接: https://arxiv.org/abs/2502.08224
MA-RCA: Multi-Agent Root Cause Analysis
- 期刊: Complex & Intelligent Systems (Springer, Nov 2025)
- 核心贡献:
- 检索和验证Agent动态验证假设
- 减少上下文切换失败
- 在真实数据集上达到更高F1分数
- 链接: https://link.springer.com/article/10.1007/s40747-025-02096-0
Chain-of-Event: Interpretable Root Cause Analysis for Microservices
- 会议: FSE Companion ‘24
- 核心贡献:
- 自动学习事件因果图
- 集成SRE专业知识
- 在电商数据集(5000+服务)上达到98.8% top-3准确率
- 链接: https://netman.aiops.org/wp-content/uploads/2024/07/Chain-of-Event_Interpretable-Root-Cause-Analysis-for-MicroservicesFSE24-Camera-Ready.pdf
2.2 LLM Agent 论文
Exploring LLM-based Agents for Root Cause Analysis
- 会议: FSE 2024
- 作者: Roy 等 (Microsoft)
- 核心贡献:
- ReAct LLM Agent + 检索工具
- 微软生产事件数据集评估
- 显著提升事实准确性
- 链接: https://arxiv.org/abs/2403.04123
TAMO: Fine-Grained Root Cause Analysis via Tool-Assisted LLM Agent
- 时间: 2025
- 核心贡献:
- 工具增强LLM Agent
- 克服多模态输入约束
- 解决动态依赖问题
- 链接: https://arxiv.org/abs/2504.20462
AIOps for Reliability: Evaluating LLMs for Automated RCA in Chaos Engineering
- 时间: 2025
- 核心贡献:
- 评估GPT-4o、Gemini-1.5、Mistral-small
- 混沌工程故障场景
- 提供代码和数据集
- 链接: https://github.com/szandala/llms-chaos-engineering
2.3 图神经网络相关论文
QMIX-GNN: GNN-Based Heterogeneous Multi-Agent Information Fusion
- 核心贡献: 通过GNN融合异构多智能体信息,改进协作决策
- 链接: https://www.mdpi.com/2076-3417/15/7/3794
Reliable and Efficient Multi-Agent Coordination via Graph Neural Networks
- 核心贡献: GNN-VAE学习协调和故障模式
- 链接: https://arxiv.org/abs/2503.02954
A Heterogeneous Graph-Based Multi-Task Learning for Fault Event Classification
- 核心贡献: 配电网故障事件分类的多任务GNN
- 链接: https://ieeexplore.ieee.org/document/10643407
三、开发测试数据集与评测框架
🎯 本节重点: 提供可直接用于开发和测试AIOps程序的数据集和环境
3.1 推荐开发测试数据集(按类型分类)
📊 日志异常检测数据集
| 数据集 | 规模 | 特点 | 下载链接 |
|---|---|---|---|
| HDFS | 11M+ 日志行 | Hadoop分布式文件系统日志,标注异常 | https://github.com/logpai/loghub |
| BGL | 4.7M 日志行 | Blue Gene/L超级计算机日志 | https://github.com/logpai/loghub |
| Thunderbird | 211M 日志行 | 超级计算机系统日志 | https://github.com/logpai/loghub |
| OpenStack | 207K 日志行 | 云平台日志,多种异常类型 | https://github.com/logpai/loghub |
| Hadoop | 394K 日志行 | 大数据平台日志 | https://github.com/logpai/loghub |
综合资源: https://github.com/ait-aecid/anomaly-detection-log-datasets
📈 多模态数据集(日志+指标+追踪)
| 数据集 | 数据类型 | 规模 | 下载链接 |
|---|---|---|---|
| LO2 Microservice | 日志+指标+追踪 | 657K日志文件, 45M指标文件 | https://arxiv.org/pdf/2504.12067 |
| MultiLog | 多变量日志 | 分布式数据库集群 | https://github.com/AIOps-LogDB/MultiLog-Dataset |
| RCAEval | 日志+指标+追踪 | 735个故障案例 | https://zenodo.org/records/14504481 |
| Train-Ticket | 全栈数据 | 微服务系统 | https://github.com/FudanSELab/train-ticket |
🔧 可生成测试数据的微服务系统
| 系统 | 服务数量 | 特点 | GitHub |
|---|---|---|---|
| Online Boutique | 11个微服务 | Google官方示例,易部署 | https://github.com/GoogleCloudPlatform/microservices-demo |
| Sock Shop | 13个微服务 | Weaveworks示例,社区活跃 | https://github.com/microservices-demo/microservices-demo |
| Train-Ticket | 41个微服务 | 复旦大学,功能完整 | https://github.com/FudanSELab/train-ticket |
| DeathStarBench | 28个微服务 | 学术标准,论文常用 | https://github.com/delimitrou/DeathStarBench |
3.2 故障注入与测试环境
Chaos Mesh(推荐)⭐⭐⭐⭐⭐
简介: Kubernetes原生的混沌工程平台,可注入多种故障
支持的故障类型:
- Pod故障(杀死、重启)
- 网络故障(延迟、丢包、分区)
- IO故障(延迟、错误)
- CPU/内存压力
- HTTP故障
- DNS故障
快速安装:
# 安装Chaos Mesh
curl -sSL https://mirrors.chaos-mesh.org/v2.8.0/install.sh | bash
资源链接:
- 官网: https://chaos-mesh.org
- GitHub: https://github.com/chaos-mesh/chaos-mesh
- 文档: https://chaos-mesh.org/docs/
ChaosStarBench ⭐⭐⭐⭐
简介: 基于DeathStarBench的故障实验基准套件
特点:
- 预配置的故障场景
- 集成Chaos Mesh
- 支持多种微服务应用
资源链接:
AIOpsArena ⭐⭐⭐⭐⭐
简介: 场景导向的AIOps评估平台
核心功能:
- 自动数据采集(日志、追踪、指标)
- 可定制故障注入
- 在线算法部署
- 算法排行榜对比
快速开始:
# 克隆仓库
git clone https://github.com/AIOpsArena/aiopsarena
# 按文档部署到Kubernetes
资源链接:
- GitHub: https://github.com/AIOpsArena/aiopsarena
- 论文: https://nkcs.iops.ai/wp-content/uploads/2025/01/AIOpsArena.pdf
3.3 RCA专用基准测试
RCAEval ⭐⭐⭐⭐⭐
简介: ASE 2024/WWW 2025发布的开源RCA基准测试
数据规模:
- 3个数据集(RE1, RE2, RE3)
- 735个真实故障案例
- 3个微服务系统:Online Boutique、Sock Shop、Train Ticket
- 11种故障类型
使用方式:
# 安装
pip install RCAEval
# 运行基准测试
python -m RCAEval --config your_config.yaml
资源链接:
- GitHub: https://github.com/phamquiluan/RCAEval
- 论文: https://arxiv.org/html/2412.17015v5
- 数据下载: https://zenodo.org/records/14504481
NetManAIOps 数据集 ⭐⭐⭐⭐⭐
简介: 清华大学NetMan实验室的AIOps数据集合集
包含数据集:
- AIOps-Challenge-2020-Data(挑战赛数据)
- LatentScope(有限可观测性RCA)
- OpsEval-Datasets(多模态故障数据)
- Donut-Data(KPI异常检测)
- Bagel-Data(时间序列异常)
资源链接:
- GitHub组织: https://github.com/NetManAIOps
- 论文: arXiv:2208.03938
3.4 开源AIOps工具(可用于开发测试)
| 工具 | 用途 | 语言 | GitHub |
|---|---|---|---|
| Loglizer | 日志分析与异常检测 | Python | https://github.com/logpai/loglizer |
| Log-Anomaly-Detector | 无监督日志异常检测 | Python | https://github.com/AICoE/log-anomaly-detector |
| WhyLogs | 日志/指标自动画像 | Python | https://github.com/whylabs/whylogs |
| Drain3 | 日志解析 | Python | https://github.com/logpai/Drain3 |
| DeepLog | 深度学习日志异常检测 | Python | https://github.com/wuyifan18/DeepLog |
3.5 快速开始指南
📝 开发测试流程建议
第一步:选择数据集
初学者 → HDFS/BGL日志数据集(简单,标注清晰)
进阶者 → RCAEval多模态数据集(完整,故障类型丰富)
高级者 → 自建环境 + Chaos Mesh故障注入
第二步:搭建测试环境
本地开发 → Docker + 单服务测试
集成测试 → Minikube + 微服务应用
生产级测试 → Kubernetes集群 + AIOpsArena
第三步:选择评测指标
检测任务 → 检测时间(TTD)、准确率、召回率
定位任务 → Acc@K、MRR、定位时间(TTL)
RCA任务 → 根因准确率、步骤数、Token消耗
四、Agent开发框架
4.1 通用Agent框架
| 框架 | 特点 | 链接 |
|---|---|---|
| LangChain | 上下文感知推理、知识检索 | https://python.langchain.com |
| AutoGen (Microsoft) | 协作多智能体设计 | https://github.com/microsoft/autogen |
| CrewAI | 结构化多智能体工作流 | https://github.com/joaomdmoura/crewAI |
| CAMEL | 首个多智能体LLM框架 | https://github.com/camel-ai/camel |
4.2 可观测性工具
| 工具 | 用途 | 链接 |
|---|---|---|
| Prometheus | 指标监控 | https://prometheus.io |
| Jaeger | 分布式追踪 | https://www.jaegertracing.io |
| Chaos-Mesh | 故障注入 | https://chaos-mesh.org |
五、资源合集与学习资料
5.1 Awesome 列表
| 名称 | 描述 | 链接 |
|---|---|---|
| awesome-LLM-AIOps | LLM驱动的AIOps资源合集 | https://github.com/Jun-jie-Huang/awesome-LLM-AIOps |
| awesome-failure-diagnosis | 故障诊断资源合集 | https://github.com/phamquiluan/awesome-failure-diagnosis |
5.2 微软相关资源
| 资源 | 描述 | 链接 |
|---|---|---|
| AIOpsLab教程 | ICML 2025教程 | https://microsoft.github.io/AIOpsLab/ |
| RCA Agent方案 | Copilot Studio集成指南 | https://adoption.microsoft.com/en-us/scenario-library/information-technology/root-cause-analysis-agent/ |
| Triangle System | Azure AIOps优化 | https://azure.microsoft.com/en-us/blog/optimizing-incident-management-with-aiops-using-the-triangle-system/ |
六、技术趋势分析
6.1 多智能体协作趋势
-
去中心化决策机制
- 区块链启发的投票协议
- 减少单点LLM故障
- 缓解Agent幻觉
-
SOP与验证Agent
- 标准化推理步骤
- 验证Agent检查假设
- 减少错误传播
-
多模态多领域数据
- 日志 + 指标 + 追踪
- 真实场景故障定位
6.2 关键技术方向
| 方向 | 描述 | 相关项目 |
|---|---|---|
| Agent协作架构 | 多专业Agent分工合作 | mABC, Flow-of-Action |
| RAG增强 | 检索增强减少幻觉 | AIOps Polaris, RCAgent |
| 工具调用 | LLM调用外部诊断工具 | TAMO, AIOpsLab |
| 事后学习 | 从历史事件学习 | FLASH |
| 图神经网络 | 服务依赖关系建模 | Chain-of-Event |
6.3 现有方法局限性
- 信息过载: Agent处理大量遥测数据时性能下降
- 幻觉问题: LLM误判系统状态
- 无效操作: Agent重复调用无效API,浪费步骤
- 反馈机制: 运维任务反馈模糊,难以迭代改进
七、推荐学习路线
7.1 入门阶段(1-2周)
- 阅读AIOpsLab论文 - 理解AIOps评估框架
- 了解四级任务体系 - 检测→定位→RCA→缓解
- 复现简单Agent - 使用LangChain实现基础ReAct框架
7.2 进阶阶段(3-4周)
- 深入mABC论文 - 理解多智能体协作机制
- 学习FLASH架构 - 掌握工作流自动化设计
- 实验RCAEval基准 - 在标准数据集上测试算法
7.3 实践阶段(1-2月)
- 搭建AIOpsLab环境 - 部署微服务测试应用
- 设计多智能体方案 - 结合项目需求定制
- 对比实验 - 在多个数据集上验证效果
7.4 优化方向建议
针对你的根因定位和分析优化需求,推荐关注:
-
Agent协作架构优化
- 参考mABC的投票机制
- 引入验证Agent减少误判
-
RAG增强策略
- 结构化知识库检索
- 领域约束生成
-
多模态数据融合
- 日志-指标-追踪联合分析
- 服务依赖图建模
-
小模型蒸馏
- 大模型知识迁移到小模型
- 降低推理成本
联系信息与贡献
如果你发现了其他优秀的AIOps多智能体项目或论文,欢迎补充!
本文档由学习助手整理,供学术研究参考使用
最后更新:2025年12月