HCY Blog

Flow-of-Action论文学习笔记

AIOPS论文学习

《Flow-of-Action》论文提出一种基于SOP(标准作业程序)增强的多智能体系统,用于微服务根因分析。其核心创新在于将SOP代码化以精确引导智能体决策,并通过预生成动作集优化搜索空间。

Flow-of-Action论文学习笔记

论文: Flow-of-Action: SOP Enhanced LLM-Based Multi-Agent System for Root Cause Analysis

学习日期: 2025年12月


📌 核心要点

1. 论文解决的问题

LLM Agent在微服务RCA中的两大痛点:

  1. 工具编排混乱: Agent随意调用工具,缺乏系统性
  2. 搜索空间庞大: 可选动作太多,决策困难

2. 核心创新

创新描述效果
SOP约束用标准流程引导决策减少混乱
SOP代码化将步骤转换为可执行代码提高精确度
Action Set预生成动作集合优化选择空间
多Agent协作4个专业Agent分工提升质量

🏗️ 系统架构

四Agent协作模型

                MainAgent (决策中心)

    ┌─────────────────┼─────────────────┐
    ↓                 ↓                 ↓
ActionAgent      JudgeAgent         ObAgent
(生成动作)       (判断评估)        (分析观察)

SOP Flow核心流程

故障信息 → match_sop → 匹配SOP?
              ↓ 否        ↓ 是
         generate_sop → generate_sop_code

                          run_sop

                       Observation

                    ┌────────┴────────┐
                    ↓                 ↓
              继续深入           找到根因
                    ↓                 ↓
           match_observation        Speak

💡 关键技术细节

1. SOP到代码的转换

为什么要代码化?

优势解释
精确执行代码比自然语言更准确
原子操作确保步骤完整执行
资源节省一次调用执行多步,省token

示例转换:

SOP文本: 
1. 检查磁盘使用率
2. 如超过90%,分析大文件
3. 否则检查IO等待

转换后代码:
def sop_disk_check():
    usage = check_disk_usage()
    if usage > 90:
        return analyze_large_files()
    return check_io_wait()

2. Action Set机制

问题: Agent面对众多工具不知如何选择

解决方案: 先生成候选动作集,再从中选择

生成逻辑:

  1. ActionAgent基于上下文生成候选
  2. JudgeAgent基于规则补充遗漏
  3. 每个动作附带理由说明

示例:

当前状态: 执行完网络检查,发现延迟高

Action Set:
1. trace_network_path - 追踪网络路径
   理由: 需要确定延迟发生在哪个节点
   
2. check_dns - 检查DNS解析
   理由: DNS问题可能导致延迟
   
3. analyze_tcp_connections - 分析TCP连接
   理由: 连接状态可能异常

4. Speak - 输出根因 (JudgeAgent判断)
   理由: 如果已有足够证据

3. 层次化SOP设计

从宏观到微观:

网络问题 (Level 1)

网络分区问题 (Level 2)

特定服务网络隔离 (Level 3)

好处: 逐步收敛搜索空间

4. 错误恢复机制

代码执行失败时:

  1. 识别错误类型
  2. 重新匹配参数
  3. 重新生成代码
  4. 再次尝试执行

📊 实验亮点

核心数据

方法准确率相对提升
ReAct22.3%-
AutoGPT28.1%+26%
mABC35.5%+59%
Flow-of-Action64.0%+187%

消融实验结论

组件重要性排序:

  1. SOP Flow - 最关键 (-18.5%)
  2. Action Set - 非常重要 (-12.3%)
  3. ObAgent - 重要 (-8.7%)
  4. Code Execution - 有价值 (-6.2%)

🔍 个人思考

优势

  1. 实用性强: SOP是运维实践的核心,引入SOP很自然
  2. 创新的代码化: 将SOP转为代码执行是亮点
  3. 效果显著: 64% vs 35.5%的提升非常明显
  4. 可扩展性: SOP可以持续积累和完善

局限性

  1. SOP依赖: 需要预先建立SOP库
  2. 代码生成可靠性: 代码可能有bug
  3. 领域特定: 不同系统的SOP不通用
  4. 新故障类型: 生成的新SOP质量难保证

与其他论文对比

维度Flow-of-ActionmABCRCAgent
核心理念SOP约束投票验证工具增强
Agent数量472
约束强度中(软约束)
可解释性高(SOP清晰)

可借鉴点

  1. SOP即知识库: 运维知识的标准化表达
  2. 代码化执行: 提高执行精确度的有效方法
  3. Action Set: 优化决策空间的实用技术
  4. 层次化分析: 从宏观到微观的分析策略

📚 相关论文

  • mABC: 区块链投票的多Agent框架
  • Chain-of-Code: 代码执行提升LLM能力
  • FastGPT: 严格工作流约束方法

💭 后续学习

  • 研究SOP的自动化生成方法
  • 了解代码生成的可靠性保证技术
  • 思考如何平衡约束强度与灵活性
  • 探索SOP知识库的构建方法

🏷️ 关键词

SOP 多智能体 代码执行 Action Set 微服务 根因分析 WWW'25