引言
随着大语言模型(LLMs)参数规模从数十亿扩展到数千亿,传统的冯·诺依曼架构面临着前所未有的挑战。在Transformer模型的推理过程中,特别是解码阶段,内存带宽已成为主要瓶颈。本教程将深入探讨如何通过近存计算(Near-Memory Computing, NMC)和存内计算(Processing-in-Memory, PIM)技术来突破这一瓶颈。
为什么需要这个教程?
- 内存墙问题日益严重:Qwen-72B等大模型在单token生成时,计算利用率不足5%
- 能耗失衡:数据搬移能耗是计算能耗的100-1000倍
- 新技术涌现:从Samsung HBM-PIM到各类模拟计算方案,亟需系统性理解
- 实际部署需求:如何在延迟优先的场景下实现高效推理
教程特色
1. 面向实际应用
- 以Qwen-72B密集模型和200B MoE模型为核心案例
- 关注单token解码延迟优化
- 包含成本分析和部署建议
2. 循序渐进的学习路径
- 从4×4矩阵示例到72B模型实现
- 从基础概念到前沿研究
- 理论与实践并重
3. 全面的技术覆盖
- 数字PIM:HBM-PIM、UPMEM等
- 模拟计算:ReRAM/PCM交叉阵列
- 混合架构:数字-模拟协同设计
- 新兴技术:CXL-PIM、光计算等
4. 定量分析贯穿始终
- 详细的带宽计算
- 能耗分解模型
- 性能-精度权衡分析
- TCO(总拥有成本)评估
章节导航
第一部分:基础与动机(第1-3章)
第三部分:架构深度剖析(第6-8章)
第四部分:系统设计与实现(第9-12章)
第五部分:评估与展望(第13-16章)
附录
快速导航指南
如果您是…
硬件工程师
- 重点阅读:第3、6、7章(存储技术和架构)
- 参考:第13章(性能评估方法)
算法研究员
- 重点阅读:第4、5章(负载分析和量化)
- 深入:第10、11章(模型优化)
系统架构师
- 核心章节:第9、12章(编程模型和系统集成)
- 扩展:第14章(商业方案对比)
产品经理/决策者
- 必读:第1、13、14章(动机、评估、商业版图)
- 概览:第15、16章(技术趋势)
阅读建议
- 初学者路径:第1章 → 第2章 → 第4章(4.1-4.3)→ 第6章(6.1)
- 进阶路径:完整阅读第1-8章,选择性阅读9-12章
- 专家路径:可直接跳转到感兴趣的章节,利用交叉引用深入
本教程的目标
完成本教程后,您将能够:
- 理解核心概念:掌握PIM/NMC的基本原理和分类
- 分析实际问题:量化评估Transformer模型的内存瓶颈
- 设计解决方案:为特定模型选择合适的PIM架构
- 评估性能收益:计算延迟、能耗和成本改进
- 把握技术趋势:了解最新进展和未来方向
开始学习
让我们从第1章开始,深入了解为什么Transformer推理需要PIM技术,以及传统架构面临的根本性挑战。
本教程持续更新中,欢迎反馈和建议。