开题报告发言稿(严格对应 v2)
说明:本稿按 slides/generate_pptx_v2.py 的 19 页内容逐页编写,标题、关键数据、结构与 v2 一致。
Slide 0 封面
屏幕内容
面向大模型推理加速的
CXL内存扩展与异构计算架构研究
srtp开题报告
何宸禹 蔡雨禾 黄绎睿
浙江大学 计算机科学与技术学院
2026年4月
发言稿
各位老师好,我汇报的题目是“面向大模型推理加速的CXL内存扩展与异构计算架构研究”。 本次汇报聚焦一个核心问题:在大模型推理从算力瓶颈转向内存瓶颈的背景下,如何利用 CXL 构建更高效的内存与计算协同体系。
Slide 1 报告提纲
屏幕内容
- 研究背景与动机
- CXL技术现状与实测分析
- LLM推理系统现状与瓶颈量化
- 交叉领域研究进展与Gap分析
- 研究问题与技术路线
- 预期贡献与总结
发言稿
我将按六个部分展开。前半部分回答“为什么做”,中间部分回答“别人做到哪一步”,后半部分回答“我准备怎么做、做出什么”。
Slide 2 大模型推理的内存墙问题——量化分析
屏幕内容
- 模型规模表:
- LLaMA-3-8B:8B,16GB,KV/token ~0.5MB
LLaMA-3-70B:70B,140GB,KV/token ~2.5MB
LLaMA-3-405B:405B,810GB
DeepSeek-V3:671B(MoE),~340GB
GPT-3(175B):350GB,KV/token ~4.5MB
KV Cache 关键数据:
LLaMA-65B 单 token KV cache 2.5MB
70B + 128K 上下文:KV cache ~160GB
1M 上下文:KV cache ~488GB
KV cache 占 GPU 显存 >30%
HBM 可在 14 秒内被 KV cache 占满
两阶段特征:
Prefill:计算密集,A100可接近计算饱和,GPU利用率 82%
Decode:内存密集,GPU利用率仅 13%
硬件代际矛盾:
- A100→H100:计算力 3.43x,HBM容量 1.0x,带宽 1.64x
发言稿
这一页想说明“问题已经被量化了”。 第一,模型越大、上下文越长,KV cache 会迅速膨胀,甚至超过权重本体。
第二,推理呈现明显阶段异构:prefill 吃算力,decode 吃内存带宽,导致 decode 阶段 GPU 常处于“算力闲置、等数据”的状态。 第三,硬件代际发展也在加剧矛盾,算力增长快于内存容量增长,这就是我们研究 CXL 的现实动因。
Slide 3 CXL (Compute Express Link) 带来的机遇
屏幕内容
核心优势:
容量扩展到 TB 级
成本约为 HBM 的 1/5~1/10
CXL.mem 提供 load/store 语义
- 支持内存池化
内存层次定位:
Tier0 GPU HBM:80GB,3.35TB/s,~10ns
Tier1 CPU DRAM:512GB-2TB,200GB/s,~90ns
Tier2 CXL Memory:TB级,30-38GB/s,~170-250ns
Tier3 NVMe SSD:TB级,7GB/s,~10us
核心问题:
- 如何在满足 SLO 前提下最大化吞吐与资源利用率
发言稿
CXL 的关键价值不是“替代 HBM”,而是“补齐内存层次中间空档”。 它在延迟和带宽上都明显优于 SSD,容量和成本上又明显优于 HBM,非常适合承接 KV cache 的 warm 数据。 因此本课题的目标是做 CXL-aware 的系统级优化,而不是单点技巧。
Slide 4 CXL真实硬件性能评测 [Demystifying CXL, MICRO'23]
屏幕内容
平台:Intel 4th Gen Xeon + 3 款 CXL 设备
关键表格:
本地 DDR5 延迟约 90/120ns
CXL-A(ASIC) 延迟约 122/190ns
CXL-B(ASIC) 延迟约 180/250ns
CXL-C(FPGA) 延迟约 270/350ns
带宽效率:70%/46%/47%/20%
关键发现:
真实 CXL 比模拟低 26% 延迟
ASIC 方案仅比本地高约 35%
CXL 可利用更大 LLC
对 ms 级应用影响有限
对 LLM 启示:
延迟层级明确,CXL 处于可接受窗口
x8 链路可匹配 DDR5 单通道
Caption 策略可提升 24%
发言稿
这一页回答“CXL 是否足够实用”。 从真实硬件看,CXL 不是纸面概念,延迟带宽都已具备系统设计价值。尤其 ASIC 方案已经逼近可部署区间,说明我们做 CXL-aware 推理系统是有工程基础的。
Slide 5 CXL协议演进与内存管理系统
屏幕内容
协议演进:1.0/1.1 → 2.0 → 3.0 → 3.1 → 4.0
TPP (Meta):
已合入 Linux v5.18
本地 DRAM 仅 20% 时与全本地差距 <1%
比默认 Linux 提升 18%
比 NUMA Balancing 提升 5-17%
设备类型:Type1/Type2/Type3 及 LLM 场景映射
Pond (Azure):
约 25% 内存被搁浅
可减少 7% DRAM 需求
端口延迟 25ns,端到端额外约 70ns
建议池规模 8-16 sockets
发言稿
这页要表达两点: 第一,协议层和生态层正在成熟,软件栈不再空白。 第二,TPP 与 Pond 分别证明了“分层可行”和“池化有收益”,为我们把 CXL 引入 LLM 系统提供了可借鉴的方法论。
Slide 6 LLM推理技术栈全景
屏幕内容
应用层:多轮对话、RAG、Agent、长文本
调度层:Continuous Batching、P/D 解耦、SLO 管理
计算层:FlashAttention、并行策略、量化
内存层(CXL介入点):PagedAttention、多层KV、Offloading、分布式KV池
硬件层:HBM、DRAM、CXL、SSD
发言稿
这页的核心是定位:CXL 不是替代某个算法,而是插入在“内存层和硬件层之间”的系统要素。 所以研究方式必须是跨层设计:内存放置、迁移、调度和硬件协同一起做。
Slide 7 KV Cache 内存管理——关键瓶颈量化
屏幕内容
vLLM:
内存利用率 96.3%
内存浪费 <4%
吞吐 2-4x
Mooncake:
吞吐最高提升 525%
Kimi 真实负载提升 75%
热度分布高度不均
DistServe / Splitwise:
DistServe goodput 最高 7.4x
Splitwise 同成本吞吐 1.4x,成本降 20%
KV 传输优化后仅占 E2E 的 0.8%
FlexGen / HeteGen:
FlexGen 相比 DeepSpeed 40-69x
FlexGen GPU↔CPU 仅 12GB/s
HeteGen 相比 FlexGen 最高 317%
发言稿
这一页不是罗列系统,而是证明“瓶颈已经被不同工作从不同角度反复验证”。 结论一致:KV 管理和数据搬运是核心矛盾;当前方法有效但主要围绕 HBM/DRAM/SSD,尚未系统纳入 CXL。
Slide 8 KV Cache 多层存储——最活跃交叉方向
屏幕内容
CachedAttention:
HBM→DRAM→SSD
LLaMA-13B/65B/70B/Falcon-40B 在 TTFT、Prefill、成本上均有显著收益
Infinite-LLM:
吞吐 vs vLLM 1.4-3.4x
支持 2M tokens (32×A100)
LoongServe:
吞吐 vs vLLM 最高 3.85x
vs DistServe 最高 5.81x
1M tokens KV 约 488GB
关键洞察:
- 现有多层架构均未纳入 CXL 层
发言稿
这页想讲“机会窗口”。 多层 KV 的正确性已经被大量工作证明,现在缺的不是“要不要分层”,而是“把 CXL 作为正式层之后,策略如何重构”。
Slide 9 CXL — LLM 系统性 Gap 分析
屏幕内容
内存层次:2-3层 → 4层
KV 传输:DMA/RDMA → CXL.mem load/store
容量:单机 DRAM → CXL 池化数 TB
共享:网络传输 → 共享内存池
编程模型:显式 DMA → 透明 load/store
数据支撑:TPP、DirectCXL、Pond、Splitwise 等
发言稿
这页建立“从现状到研究问题”的桥梁。 我们不是重复已有系统,而是针对它们共同缺失的 CXL 层做系统补全,并且每个 gap 都有已有论文的数据支撑。
Slide 10 五个关键研究Gap
屏幕内容
Gap1:缺乏 CXL-aware KV 管理
Gap2:P/D 解耦中 CXL 角色未定义
Gap3:缺乏 CXL-LLM 场景评测
Gap4:缺乏 CXL 近内存注意力探索
Gap5:缺乏多GPU CXL池化设计
发言稿
这五个 gap 对应我后续四个 RQ 和三个阶段工作,逻辑是闭环的: 先建模,再系统,再架构。
Slide 11 研究问题
屏幕内容
RQ1:最优 CXL 分层策略如何设计?
RQ2:P/D 解耦中 CXL 共享池如何优化跨阶段传输?
RQ3:Type2 能力如何用于注意力加速?
RQ4:如何构建 CXL-aware 调度与资源管理系统?
每个 RQ 配有论文依据
发言稿
我的研究问题不是拍脑袋提出,而是从“gap + 可验证证据”推导出来。 这样后续每个阶段都能形成可度量的研究产出。
Slide 12 技术路线总览
屏幕内容
Phase1(3-6月):特征分析与基准建立
Phase2(6-12月):CXL-aware KV 管理系统
Phase3(6-12月):异构计算架构设计
Phase4(3-6月):论文撰写与总结
发言稿
总体路线是“先证据、后系统、再创新架构”。 先把性能边界摸清,再做系统工程,最后做近内存计算探索,避免一开始就进入不可验证的复杂实现。
Slide 13 Phase 1 详细
屏幕内容
1.1 访存 Profiling
1.2 CXL 性能评测
1.3 性能模型
预期:首个 CXL-LLM 模型与量化数据
发言稿
Phase1 的目标是建立“决策依据”: 什么数据该放哪一层,在哪个负载下 CXL 收益最大,什么时候会触发尾延迟风险。
Slide 14 Phase 2 详细
屏幕内容
2.1 四层分层策略(HBM→DRAM→CXL→SSD)
2.2 与 vLLM/SGLang 集成
2.3 多GPU CXL KV Pool
目标:吞吐提升 ≥30%
发言稿
Phase2 是工程核心:把 CXL 真正“接进去、跑起来、比出来”。 评测会和 vLLM、FlexGen、CachedAttention、Mooncake 等基线对齐,保证结论可信。
Slide 15 Phase 3 详细
屏幕内容
3.1 Type2 近内存注意力计算
3.2 异构调度(GPU + CXL)
3.3 端到端评测
目标:降低 decode 延迟,形成高质量论文
发言稿
Phase3 关注“结构性创新”: 把原来搬数据的过程改成“在靠近数据处算一部分”,以减少 decode 阶段的搬运开销。
Slide 16 预期贡献
屏幕内容
- CXL-LLM 性能模型
- CXL-aware KV Cache 管理系统
- CXL 异构推理架构
- 开源系统原型
发言稿
最终贡献分为“理论模型、系统实现、架构创新、开源资产”四类。 其中系统与开源会保证可复现,架构与模型支撑论文产出。
Slide 17 关键参考文献
屏幕内容
CXL 技术基础文献
LLM 推理系统文献
KV Cache 与异构文献
扩展参考共 30 篇
发言稿
文献部分覆盖了我方案依赖的三条主线: CXL 硬件与系统、LLM 推理框架、KV cache 与异构优化。
Slide 18 致谢
屏幕内容
谢谢
敬请各位老师批评指正
发言稿
我的汇报到这里结束,欢迎各位老师批评指正。
3分钟精简版口播提纲(可选)
第1分钟:Slide 2-4(问题有多严重 + CXL是否可行)
第2分钟:Slide 7-10(已有系统证据 + 我的研究gap)
第3分钟:Slide 11-16(研究问题、路线、贡献)