Skip to content

开题报告发言稿(严格对应 v2)

说明:本稿按 slides/generate_pptx_v2.py 的 19 页内容逐页编写,标题、关键数据、结构与 v2 一致。

Slide 0 封面

屏幕内容

  • 面向大模型推理加速的

  • CXL内存扩展与异构计算架构研究

  • srtp开题报告

  • 何宸禹 蔡雨禾 黄绎睿

  • 浙江大学 计算机科学与技术学院

  • 2026年4月

发言稿

各位老师好,我汇报的题目是“面向大模型推理加速的CXL内存扩展与异构计算架构研究”。 本次汇报聚焦一个核心问题:在大模型推理从算力瓶颈转向内存瓶颈的背景下,如何利用 CXL 构建更高效的内存与计算协同体系。


Slide 1 报告提纲

屏幕内容

  1. 研究背景与动机
  2. CXL技术现状与实测分析
  3. LLM推理系统现状与瓶颈量化
  1. 交叉领域研究进展与Gap分析
  1. 研究问题与技术路线
  2. 预期贡献与总结

发言稿

我将按六个部分展开。前半部分回答“为什么做”,中间部分回答“别人做到哪一步”,后半部分回答“我准备怎么做、做出什么”。


Slide 2 大模型推理的内存墙问题——量化分析

屏幕内容

  • 模型规模表:
  • LLaMA-3-8B:8B,16GB,KV/token ~0.5MB
  • LLaMA-3-70B:70B,140GB,KV/token ~2.5MB

  • LLaMA-3-405B:405B,810GB

  • DeepSeek-V3:671B(MoE),~340GB

  • GPT-3(175B):350GB,KV/token ~4.5MB

  • KV Cache 关键数据:

    • LLaMA-65B 单 token KV cache 2.5MB

    • 70B + 128K 上下文:KV cache ~160GB

    • 1M 上下文:KV cache ~488GB

    • KV cache 占 GPU 显存 >30%

    • HBM 可在 14 秒内被 KV cache 占满

  • 两阶段特征:

    • Prefill:计算密集,A100可接近计算饱和,GPU利用率 82%

    • Decode:内存密集,GPU利用率仅 13%

  • 硬件代际矛盾:

    • A100→H100:计算力 3.43x,HBM容量 1.0x,带宽 1.64x

发言稿

这一页想说明“问题已经被量化了”。 第一,模型越大、上下文越长,KV cache 会迅速膨胀,甚至超过权重本体。

第二,推理呈现明显阶段异构:prefill 吃算力,decode 吃内存带宽,导致 decode 阶段 GPU 常处于“算力闲置、等数据”的状态。 第三,硬件代际发展也在加剧矛盾,算力增长快于内存容量增长,这就是我们研究 CXL 的现实动因。


屏幕内容

  • 核心优势:

    • 容量扩展到 TB 级

    • 成本约为 HBM 的 1/5~1/10

    • CXL.mem 提供 load/store 语义

  • 支持内存池化
  • 内存层次定位:

    • Tier0 GPU HBM:80GB,3.35TB/s,~10ns

    • Tier1 CPU DRAM:512GB-2TB,200GB/s,~90ns

    • Tier2 CXL Memory:TB级,30-38GB/s,~170-250ns

    • Tier3 NVMe SSD:TB级,7GB/s,~10us

  • 核心问题:

    • 如何在满足 SLO 前提下最大化吞吐与资源利用率

发言稿

CXL 的关键价值不是“替代 HBM”,而是“补齐内存层次中间空档”。 它在延迟和带宽上都明显优于 SSD,容量和成本上又明显优于 HBM,非常适合承接 KV cache 的 warm 数据。 因此本课题的目标是做 CXL-aware 的系统级优化,而不是单点技巧。


Slide 4 CXL真实硬件性能评测 [Demystifying CXL, MICRO'23]

屏幕内容

  • 平台:Intel 4th Gen Xeon + 3 款 CXL 设备

  • 关键表格:

    • 本地 DDR5 延迟约 90/120ns

    • CXL-A(ASIC) 延迟约 122/190ns

    • CXL-B(ASIC) 延迟约 180/250ns

    • CXL-C(FPGA) 延迟约 270/350ns

    • 带宽效率:70%/46%/47%/20%

  • 关键发现:

    • 真实 CXL 比模拟低 26% 延迟

    • ASIC 方案仅比本地高约 35%

    • CXL 可利用更大 LLC

    • 对 ms 级应用影响有限

  • 对 LLM 启示:

    • 延迟层级明确,CXL 处于可接受窗口

    • x8 链路可匹配 DDR5 单通道

    • Caption 策略可提升 24%

发言稿

这一页回答“CXL 是否足够实用”。 从真实硬件看,CXL 不是纸面概念,延迟带宽都已具备系统设计价值。尤其 ASIC 方案已经逼近可部署区间,说明我们做 CXL-aware 推理系统是有工程基础的。


Slide 5 CXL协议演进与内存管理系统

屏幕内容

  • 协议演进:1.0/1.1 → 2.0 → 3.0 → 3.1 → 4.0

  • TPP (Meta):

    • 已合入 Linux v5.18

    • 本地 DRAM 仅 20% 时与全本地差距 <1%

    • 比默认 Linux 提升 18%

    • 比 NUMA Balancing 提升 5-17%

  • 设备类型:Type1/Type2/Type3 及 LLM 场景映射

  • Pond (Azure):

    • 约 25% 内存被搁浅

    • 可减少 7% DRAM 需求

    • 端口延迟 25ns,端到端额外约 70ns

    • 建议池规模 8-16 sockets

发言稿

这页要表达两点: 第一,协议层和生态层正在成熟,软件栈不再空白。 第二,TPP 与 Pond 分别证明了“分层可行”和“池化有收益”,为我们把 CXL 引入 LLM 系统提供了可借鉴的方法论。


Slide 6 LLM推理技术栈全景

屏幕内容

  • 应用层:多轮对话、RAG、Agent、长文本

  • 调度层:Continuous Batching、P/D 解耦、SLO 管理

  • 计算层:FlashAttention、并行策略、量化

  • 内存层(CXL介入点):PagedAttention、多层KV、Offloading、分布式KV池

  • 硬件层:HBM、DRAM、CXL、SSD

发言稿

这页的核心是定位:CXL 不是替代某个算法,而是插入在“内存层和硬件层之间”的系统要素。 所以研究方式必须是跨层设计:内存放置、迁移、调度和硬件协同一起做。


Slide 7 KV Cache 内存管理——关键瓶颈量化

屏幕内容

  • vLLM:

    • 内存利用率 96.3%

    • 内存浪费 <4%

    • 吞吐 2-4x

  • Mooncake:

    • 吞吐最高提升 525%

    • Kimi 真实负载提升 75%

    • 热度分布高度不均

  • DistServe / Splitwise:

    • DistServe goodput 最高 7.4x

    • Splitwise 同成本吞吐 1.4x,成本降 20%

    • KV 传输优化后仅占 E2E 的 0.8%

  • FlexGen / HeteGen:

    • FlexGen 相比 DeepSpeed 40-69x

    • FlexGen GPU↔CPU 仅 12GB/s

    • HeteGen 相比 FlexGen 最高 317%

发言稿

这一页不是罗列系统,而是证明“瓶颈已经被不同工作从不同角度反复验证”。 结论一致:KV 管理和数据搬运是核心矛盾;当前方法有效但主要围绕 HBM/DRAM/SSD,尚未系统纳入 CXL。


Slide 8 KV Cache 多层存储——最活跃交叉方向

屏幕内容

  • CachedAttention:

    • HBM→DRAM→SSD

    • LLaMA-13B/65B/70B/Falcon-40B 在 TTFT、Prefill、成本上均有显著收益

  • Infinite-LLM:

    • 吞吐 vs vLLM 1.4-3.4x

    • 支持 2M tokens (32×A100)

  • LoongServe:

    • 吞吐 vs vLLM 最高 3.85x

    • vs DistServe 最高 5.81x

    • 1M tokens KV 约 488GB

  • 关键洞察:

    • 现有多层架构均未纳入 CXL 层

发言稿

这页想讲“机会窗口”。 多层 KV 的正确性已经被大量工作证明,现在缺的不是“要不要分层”,而是“把 CXL 作为正式层之后,策略如何重构”。


Slide 9 CXL — LLM 系统性 Gap 分析

屏幕内容

  • 内存层次:2-3层 → 4层

  • KV 传输:DMA/RDMA → CXL.mem load/store

  • 容量:单机 DRAM → CXL 池化数 TB

  • 共享:网络传输 → 共享内存池

  • 编程模型:显式 DMA → 透明 load/store

  • 数据支撑:TPP、DirectCXL、Pond、Splitwise 等

发言稿

这页建立“从现状到研究问题”的桥梁。 我们不是重复已有系统,而是针对它们共同缺失的 CXL 层做系统补全,并且每个 gap 都有已有论文的数据支撑。


Slide 10 五个关键研究Gap

屏幕内容

  • Gap1:缺乏 CXL-aware KV 管理

  • Gap2:P/D 解耦中 CXL 角色未定义

  • Gap3:缺乏 CXL-LLM 场景评测

  • Gap4:缺乏 CXL 近内存注意力探索

  • Gap5:缺乏多GPU CXL池化设计

发言稿

这五个 gap 对应我后续四个 RQ 和三个阶段工作,逻辑是闭环的: 先建模,再系统,再架构。


Slide 11 研究问题

屏幕内容

  • RQ1:最优 CXL 分层策略如何设计?

  • RQ2:P/D 解耦中 CXL 共享池如何优化跨阶段传输?

  • RQ3:Type2 能力如何用于注意力加速?

  • RQ4:如何构建 CXL-aware 调度与资源管理系统?

  • 每个 RQ 配有论文依据

发言稿

我的研究问题不是拍脑袋提出,而是从“gap + 可验证证据”推导出来。 这样后续每个阶段都能形成可度量的研究产出。


Slide 12 技术路线总览

屏幕内容

  • Phase1(3-6月):特征分析与基准建立

  • Phase2(6-12月):CXL-aware KV 管理系统

  • Phase3(6-12月):异构计算架构设计

  • Phase4(3-6月):论文撰写与总结

发言稿

总体路线是“先证据、后系统、再创新架构”。 先把性能边界摸清,再做系统工程,最后做近内存计算探索,避免一开始就进入不可验证的复杂实现。


Slide 13 Phase 1 详细

屏幕内容

  • 1.1 访存 Profiling

  • 1.2 CXL 性能评测

  • 1.3 性能模型

  • 预期:首个 CXL-LLM 模型与量化数据

发言稿

Phase1 的目标是建立“决策依据”: 什么数据该放哪一层,在哪个负载下 CXL 收益最大,什么时候会触发尾延迟风险。


Slide 14 Phase 2 详细

屏幕内容

  • 2.1 四层分层策略(HBM→DRAM→CXL→SSD)

  • 2.2 与 vLLM/SGLang 集成

  • 2.3 多GPU CXL KV Pool

  • 目标:吞吐提升 ≥30%

发言稿

Phase2 是工程核心:把 CXL 真正“接进去、跑起来、比出来”。 评测会和 vLLM、FlexGen、CachedAttention、Mooncake 等基线对齐,保证结论可信。


Slide 15 Phase 3 详细

屏幕内容

  • 3.1 Type2 近内存注意力计算

  • 3.2 异构调度(GPU + CXL)

  • 3.3 端到端评测

  • 目标:降低 decode 延迟,形成高质量论文

发言稿

Phase3 关注“结构性创新”: 把原来搬数据的过程改成“在靠近数据处算一部分”,以减少 decode 阶段的搬运开销。


Slide 16 预期贡献

屏幕内容

  1. CXL-LLM 性能模型
  2. CXL-aware KV Cache 管理系统
  3. CXL 异构推理架构
  4. 开源系统原型

发言稿

最终贡献分为“理论模型、系统实现、架构创新、开源资产”四类。 其中系统与开源会保证可复现,架构与模型支撑论文产出。


Slide 17 关键参考文献

屏幕内容

  • CXL 技术基础文献

  • LLM 推理系统文献

  • KV Cache 与异构文献

  • 扩展参考共 30 篇

发言稿

文献部分覆盖了我方案依赖的三条主线: CXL 硬件与系统、LLM 推理框架、KV cache 与异构优化。


Slide 18 致谢

屏幕内容

  • 谢谢

  • 敬请各位老师批评指正

发言稿

我的汇报到这里结束,欢迎各位老师批评指正。


3分钟精简版口播提纲(可选)

  • 第1分钟:Slide 2-4(问题有多严重 + CXL是否可行)

  • 第2分钟:Slide 7-10(已有系统证据 + 我的研究gap)

  • 第3分钟:Slide 11-16(研究问题、路线、贡献)