合集
AIOPS论文翻译与学习
数篇AIOPS论文的翻译与学习,重点关注RCA
19 篇
本文提出MA-RCA方法,通过专业化Agent分工、集成历史诊断经验及双重验证机制,有效抑制大语言模型在根因分析中的幻觉问题。实验表明,该方法在提升诊断准确率的同时显著降低了幻觉率,为复杂系统故障定位提供了更可靠的解决方案。
MA-RCA论文提出一种多智能体根因分析方法,通过专业化分工与强制历史检索两大机制,有效抑制LLM在故障诊断中的幻觉问题。
本文提出QMIX-GNN方法,利用图神经网络解决异构多智能体强化学习中的信息融合难题。该方法通过自适应聚合智能体观测信息,有效提升了团队协作能力与任务性能,尤其在复杂场景下显著优于传统方法,为多智能体协调提供了高效解决方案。
RCAgent论文提出了一种基于自主智能体与工具增强大语言模型的云端根因分析方法。其创新架构结合自主决策、轨迹级自一致性及优化的日志检索技术,有效解决了传统方法灵活性不足、生成结果不稳定及隐私安全等问题。
本文介绍了RCAgent,一个基于工具增强大语言模型的自主智能体框架,用于云端根因分析。该框架通过自主决策调用工具进行自由数据收集与综合分析,并采用轨迹自一致性等技术提升稳定性。
本文提出一种基于异构图多任务学习的图神经网络架构,用于智能电网故障诊断。该模型能同时处理故障检测、定位、类型分类及电阻电流估计等多个任务,有效融合电网拓扑与电气数据。
本文提出TAMO框架,通过双分支扩散模型融合日志、指标与追踪等多模态数据,并利用频域自注意力构建因果图进行根因定位。
TAMO论文提出一种基于工具辅助LLM代理的细粒度根因分析方法,通过双分支扩散模型融合日志、指标与追踪等多模态数据,并利用频域自注意力构建因果图以准确定位故障实体。
本文提出MABC框架,针对微服务架构中根因分析面临的故障传播与循环依赖等挑战,通过多智能体协作与区块链启发投票机制,有效缓解大模型幻觉问题并避免非终止循环。
该论文提出MABC方法,通过多智能体协作与区块链启发式投票机制,解决微服务架构中故障根因分析面临的传播复杂、循环依赖和LLM幻觉等挑战。系统采用七个专业化智能体分工,结合标准化流程与投票验证,显著提升了分析准确性与结果可靠性。
本文提出Chain-of-Event方法,通过自动学习事件因果图,解决微服务根因分析中多模态数据兼容、可解释性差和依赖手动配置的难题。
本文介绍了Chain-of-Event方法,用于解决微服务根因分析中多模态数据处理难、模型可解释性差及手动配置多等挑战。该方法通过将多源数据统一为事件,并构建可解释的因果概率图,实现自动学习与SRE友好调优,显著提升分析准确率与可操作性。
FLASH是微软研发的工作流自动化智能体,用于诊断云服务中的重复性事件。它通过状态监督将复杂指令分解为可管理片段,并利用事后学习从历史失败中积累经验,防止错误传播。实验表明,FLASH将诊断准确率提升了13.
清华大学与阿里巴巴团队提出Flow-of-Action系统,通过标准操作流程约束多智能体协作,优化工具编排与搜索空间,显著提升微服务根因分析准确率至64%,为复杂故障诊断提供高效解决方案。
《Flow-of-Action》论文提出一种基于SOP(标准作业程序)增强的多智能体系统,用于微服务根因分析。其核心创新在于将SOP代码化以精确引导智能体决策,并通过预生成动作集优化搜索空间。
本文探讨了基于大语言模型的智能体在云服务根因分析中的应用。研究采用零样本设置,通过ReAct框架结合两步检索方法,有效提升了诊断的事实准确性并减少幻觉。
本文提出基于图神经网络与变分自编码器的GNN-VAE框架,用于解决多智能体协调中的约束优化问题。该模型通过图结构捕捉智能体交互,并生成满足无环与密度约束的可行解,在保证接近最优解质量的同时,显著提升了计算效率,可扩展至250个机器人的大规模…
本研究探索基于大语言模型的智能体用于云服务根因分析,采用ReAct框架在微软生产数据集上进行评估。结果表明,该方法在分布外事件中仍能提供有竞争力的根因预测性能,显著提升事实准确性,且历史讨论评论可进一步改善检索效果。
FLASH论文提出一种用于诊断重复性事件的自动化工作流代理,通过状态监督机制分阶段简化指令、事后学习从历史失败中积累经验,以及工具存根支持离线测试,显著提升了诊断准确率。