开题报告发言稿（严格对应 v2）

说明：本稿按 slides/generate_pptx_v2.py 的 19 页内容逐页编写，标题、关键数据、结构与 v2 一致。

Slide 0 封面

屏幕内容

面向大模型推理加速的
CXL内存扩展与异构计算架构研究
srtp开题报告
何宸禹蔡雨禾黄绎睿
浙江大学计算机科学与技术学院
2026年4月

发言稿

各位老师好，我汇报的题目是“面向大模型推理加速的CXL内存扩展与异构计算架构研究”。本次汇报聚焦一个核心问题：在大模型推理从算力瓶颈转向内存瓶颈的背景下，如何利用 CXL 构建更高效的内存与计算协同体系。

Slide 1 报告提纲

屏幕内容

研究背景与动机
CXL技术现状与实测分析
LLM推理系统现状与瓶颈量化

交叉领域研究进展与Gap分析

研究问题与技术路线
预期贡献与总结

发言稿

我将按六个部分展开。前半部分回答“为什么做”，中间部分回答“别人做到哪一步”，后半部分回答“我准备怎么做、做出什么”。

Slide 2 大模型推理的内存墙问题——量化分析

屏幕内容

模型规模表：

LLaMA-3-8B：8B，16GB，KV/token ~0.5MB

LLaMA-3-70B：70B，140GB，KV/token ~2.5MB
LLaMA-3-405B：405B，810GB
DeepSeek-V3：671B(MoE)，~340GB

GPT-3(175B)：350GB，KV/token ~4.5MB
KV Cache 关键数据：
- LLaMA-65B 单 token KV cache 2.5MB
- 70B + 128K 上下文：KV cache ~160GB
- 1M 上下文：KV cache ~488GB
- KV cache 占 GPU 显存 >30%
- HBM 可在 14 秒内被 KV cache 占满

两阶段特征：
- Prefill：计算密集，A100可接近计算饱和，GPU利用率 82%
- Decode：内存密集，GPU利用率仅 13%
硬件代际矛盾：
- A100→H100：计算力 3.43x，HBM容量 1.0x，带宽 1.64x

发言稿

这一页想说明“问题已经被量化了”。第一，模型越大、上下文越长，KV cache 会迅速膨胀，甚至超过权重本体。

第二，推理呈现明显阶段异构：prefill 吃算力，decode 吃内存带宽，导致 decode 阶段 GPU 常处于“算力闲置、等数据”的状态。第三，硬件代际发展也在加剧矛盾，算力增长快于内存容量增长，这就是我们研究 CXL 的现实动因。

Slide 3 CXL (Compute Express Link) 带来的机遇

屏幕内容

核心优势：
- 容量扩展到 TB 级
- 成本约为 HBM 的 1/5~1/10
- CXL.mem 提供 load/store 语义

支持内存池化

内存层次定位：
- Tier0 GPU HBM：80GB，3.35TB/s，~10ns
- Tier1 CPU DRAM：512GB-2TB，200GB/s，~90ns
- Tier2 CXL Memory：TB级，30-38GB/s，~170-250ns
- Tier3 NVMe SSD：TB级，7GB/s，~10us

核心问题：
- 如何在满足 SLO 前提下最大化吞吐与资源利用率

发言稿

CXL 的关键价值不是“替代 HBM”，而是“补齐内存层次中间空档”。它在延迟和带宽上都明显优于 SSD，容量和成本上又明显优于 HBM，非常适合承接 KV cache 的 warm 数据。因此本课题的目标是做 CXL-aware 的系统级优化，而不是单点技巧。

Slide 4 CXL真实硬件性能评测 [Demystifying CXL, MICRO'23]

屏幕内容

平台：Intel 4th Gen Xeon + 3 款 CXL 设备
关键表格：
- 本地 DDR5 延迟约 90/120ns
- CXL-A(ASIC) 延迟约 122/190ns
- CXL-B(ASIC) 延迟约 180/250ns
- CXL-C(FPGA) 延迟约 270/350ns
- 带宽效率：70%/46%/47%/20%
关键发现：
- 真实 CXL 比模拟低 26% 延迟
- ASIC 方案仅比本地高约 35%
- CXL 可利用更大 LLC
- 对 ms 级应用影响有限
对 LLM 启示：
- 延迟层级明确，CXL 处于可接受窗口
- x8 链路可匹配 DDR5 单通道
- Caption 策略可提升 24%

发言稿

这一页回答“CXL 是否足够实用”。从真实硬件看，CXL 不是纸面概念，延迟带宽都已具备系统设计价值。尤其 ASIC 方案已经逼近可部署区间，说明我们做 CXL-aware 推理系统是有工程基础的。

Slide 5 CXL协议演进与内存管理系统

屏幕内容

协议演进：1.0/1.1 → 2.0 → 3.0 → 3.1 → 4.0
TPP (Meta)：
- 已合入 Linux v5.18
- 本地 DRAM 仅 20% 时与全本地差距 <1%
- 比默认 Linux 提升 18%
- 比 NUMA Balancing 提升 5-17%
设备类型：Type1/Type2/Type3 及 LLM 场景映射
Pond (Azure)：
- 约 25% 内存被搁浅
- 可减少 7% DRAM 需求
- 端口延迟 25ns，端到端额外约 70ns
- 建议池规模 8-16 sockets

发言稿

这页要表达两点：第一，协议层和生态层正在成熟，软件栈不再空白。第二，TPP 与 Pond 分别证明了“分层可行”和“池化有收益”，为我们把 CXL 引入 LLM 系统提供了可借鉴的方法论。

Slide 6 LLM推理技术栈全景

屏幕内容

应用层：多轮对话、RAG、Agent、长文本
调度层：Continuous Batching、P/D 解耦、SLO 管理
计算层：FlashAttention、并行策略、量化
内存层（CXL介入点）：PagedAttention、多层KV、Offloading、分布式KV池
硬件层：HBM、DRAM、CXL、SSD

发言稿

这页的核心是定位：CXL 不是替代某个算法，而是插入在“内存层和硬件层之间”的系统要素。所以研究方式必须是跨层设计：内存放置、迁移、调度和硬件协同一起做。

Slide 7 KV Cache 内存管理——关键瓶颈量化

屏幕内容

vLLM：
- 内存利用率 96.3%
- 内存浪费 <4%
- 吞吐 2-4x
Mooncake：
- 吞吐最高提升 525%
- Kimi 真实负载提升 75%
- 热度分布高度不均
DistServe / Splitwise：
- DistServe goodput 最高 7.4x
- Splitwise 同成本吞吐 1.4x，成本降 20%
- KV 传输优化后仅占 E2E 的 0.8%
FlexGen / HeteGen：
- FlexGen 相比 DeepSpeed 40-69x
- FlexGen GPU↔CPU 仅 12GB/s
- HeteGen 相比 FlexGen 最高 317%

发言稿

这一页不是罗列系统，而是证明“瓶颈已经被不同工作从不同角度反复验证”。结论一致：KV 管理和数据搬运是核心矛盾；当前方法有效但主要围绕 HBM/DRAM/SSD，尚未系统纳入 CXL。

Slide 8 KV Cache 多层存储——最活跃交叉方向

屏幕内容

CachedAttention：
- HBM→DRAM→SSD
- LLaMA-13B/65B/70B/Falcon-40B 在 TTFT、Prefill、成本上均有显著收益
Infinite-LLM：
- 吞吐 vs vLLM 1.4-3.4x
- 支持 2M tokens (32×A100)
LoongServe：
- 吞吐 vs vLLM 最高 3.85x
- vs DistServe 最高 5.81x
- 1M tokens KV 约 488GB
关键洞察：
- 现有多层架构均未纳入 CXL 层

发言稿

这页想讲“机会窗口”。多层 KV 的正确性已经被大量工作证明，现在缺的不是“要不要分层”，而是“把 CXL 作为正式层之后，策略如何重构”。

Slide 9 CXL — LLM 系统性 Gap 分析

屏幕内容

内存层次：2-3层 → 4层
KV 传输：DMA/RDMA → CXL.mem load/store
容量：单机 DRAM → CXL 池化数 TB
共享：网络传输 → 共享内存池
编程模型：显式 DMA → 透明 load/store
数据支撑：TPP、DirectCXL、Pond、Splitwise 等

发言稿

这页建立“从现状到研究问题”的桥梁。我们不是重复已有系统，而是针对它们共同缺失的 CXL 层做系统补全，并且每个 gap 都有已有论文的数据支撑。

Slide 10 五个关键研究Gap

屏幕内容

Gap1：缺乏 CXL-aware KV 管理
Gap2：P/D 解耦中 CXL 角色未定义
Gap3：缺乏 CXL-LLM 场景评测
Gap4：缺乏 CXL 近内存注意力探索
Gap5：缺乏多GPU CXL池化设计

发言稿

这五个 gap 对应我后续四个 RQ 和三个阶段工作，逻辑是闭环的：先建模，再系统，再架构。

Slide 11 研究问题

屏幕内容

RQ1：最优 CXL 分层策略如何设计？
RQ2：P/D 解耦中 CXL 共享池如何优化跨阶段传输？
RQ3：Type2 能力如何用于注意力加速？
RQ4：如何构建 CXL-aware 调度与资源管理系统？
每个 RQ 配有论文依据

发言稿

我的研究问题不是拍脑袋提出，而是从“gap + 可验证证据”推导出来。这样后续每个阶段都能形成可度量的研究产出。

Slide 12 技术路线总览

屏幕内容

Phase1（3-6月）：特征分析与基准建立
Phase2（6-12月）：CXL-aware KV 管理系统
Phase3（6-12月）：异构计算架构设计
Phase4（3-6月）：论文撰写与总结

发言稿

总体路线是“先证据、后系统、再创新架构”。先把性能边界摸清，再做系统工程，最后做近内存计算探索，避免一开始就进入不可验证的复杂实现。

Slide 13 Phase 1 详细

屏幕内容

1.1 访存 Profiling
1.2 CXL 性能评测
1.3 性能模型
预期：首个 CXL-LLM 模型与量化数据

发言稿

Phase1 的目标是建立“决策依据”：什么数据该放哪一层，在哪个负载下 CXL 收益最大，什么时候会触发尾延迟风险。

Slide 14 Phase 2 详细

屏幕内容

2.1 四层分层策略（HBM→DRAM→CXL→SSD）
2.2 与 vLLM/SGLang 集成
2.3 多GPU CXL KV Pool
目标：吞吐提升 ≥30%

发言稿

Phase2 是工程核心：把 CXL 真正“接进去、跑起来、比出来”。评测会和 vLLM、FlexGen、CachedAttention、Mooncake 等基线对齐，保证结论可信。

Slide 15 Phase 3 详细

屏幕内容

3.1 Type2 近内存注意力计算
3.2 异构调度（GPU + CXL）
3.3 端到端评测
目标：降低 decode 延迟，形成高质量论文

发言稿

Phase3 关注“结构性创新”：把原来搬数据的过程改成“在靠近数据处算一部分”，以减少 decode 阶段的搬运开销。

Slide 16 预期贡献

屏幕内容

CXL-LLM 性能模型
CXL-aware KV Cache 管理系统
CXL 异构推理架构
开源系统原型

发言稿

最终贡献分为“理论模型、系统实现、架构创新、开源资产”四类。其中系统与开源会保证可复现，架构与模型支撑论文产出。

Slide 17 关键参考文献

屏幕内容

CXL 技术基础文献
LLM 推理系统文献
KV Cache 与异构文献
扩展参考共 30 篇

发言稿

文献部分覆盖了我方案依赖的三条主线： CXL 硬件与系统、LLM 推理框架、KV cache 与异构优化。

Slide 18 致谢

屏幕内容

谢谢
敬请各位老师批评指正

发言稿

我的汇报到这里结束，欢迎各位老师批评指正。

3分钟精简版口播提纲（可选）

第1分钟：Slide 2-4（问题有多严重 + CXL是否可行）
第2分钟：Slide 7-10（已有系统证据 + 我的研究gap）
第3分钟：Slide 11-16（研究问题、路线、贡献）

开题报告发言稿（严格对应 v2） ​

Slide 0 封面 ​

屏幕内容 ​

发言稿 ​

Slide 1 报告提纲 ​

屏幕内容 ​

发言稿 ​

Slide 2 大模型推理的内存墙问题——量化分析 ​

屏幕内容 ​

发言稿 ​

Slide 3 CXL (Compute Express Link) 带来的机遇 ​

屏幕内容 ​

发言稿 ​

Slide 4 CXL真实硬件性能评测 [Demystifying CXL, MICRO'23] ​

屏幕内容 ​

发言稿 ​

Slide 5 CXL协议演进与内存管理系统 ​

屏幕内容 ​

发言稿 ​

Slide 6 LLM推理技术栈全景 ​

屏幕内容 ​

发言稿 ​

Slide 7 KV Cache 内存管理——关键瓶颈量化 ​

屏幕内容 ​

发言稿 ​

Slide 8 KV Cache 多层存储——最活跃交叉方向 ​

屏幕内容 ​

发言稿 ​

Slide 9 CXL — LLM 系统性 Gap 分析 ​

屏幕内容 ​

发言稿 ​

Slide 10 五个关键研究Gap ​

屏幕内容 ​

发言稿 ​

Slide 11 研究问题 ​

屏幕内容 ​

发言稿 ​

Slide 12 技术路线总览 ​

屏幕内容 ​

发言稿 ​

Slide 13 Phase 1 详细 ​

屏幕内容 ​

发言稿 ​

Slide 14 Phase 2 详细 ​

屏幕内容 ​

发言稿 ​

Slide 15 Phase 3 详细 ​

屏幕内容 ​

发言稿 ​

Slide 16 预期贡献 ​

屏幕内容 ​

发言稿 ​

Slide 17 关键参考文献 ​

屏幕内容 ​

发言稿 ​

Slide 18 致谢 ​

屏幕内容 ​

发言稿 ​

3分钟精简版口播提纲（可选） ​

开题报告发言稿（严格对应 v2）

Slide 0 封面

屏幕内容

发言稿

Slide 1 报告提纲

屏幕内容

发言稿

Slide 2 大模型推理的内存墙问题——量化分析

屏幕内容

发言稿

Slide 3 CXL (Compute Express Link) 带来的机遇

屏幕内容

发言稿

Slide 4 CXL真实硬件性能评测 [Demystifying CXL, MICRO'23]

屏幕内容

发言稿

Slide 5 CXL协议演进与内存管理系统

屏幕内容

发言稿

Slide 6 LLM推理技术栈全景

屏幕内容

发言稿

Slide 7 KV Cache 内存管理——关键瓶颈量化

屏幕内容

发言稿

Slide 8 KV Cache 多层存储——最活跃交叉方向

屏幕内容

发言稿

Slide 9 CXL — LLM 系统性 Gap 分析

屏幕内容

发言稿

Slide 10 五个关键研究Gap

屏幕内容

发言稿

Slide 11 研究问题

屏幕内容

发言稿

Slide 12 技术路线总览

屏幕内容

发言稿

Slide 13 Phase 1 详细

屏幕内容

发言稿

Slide 14 Phase 2 详细

屏幕内容

发言稿

Slide 15 Phase 3 详细

屏幕内容

发言稿

Slide 16 预期贡献

屏幕内容

发言稿

Slide 17 关键参考文献

屏幕内容

发言稿

Slide 18 致谢

屏幕内容

发言稿

3分钟精简版口播提纲（可选）