面向Transformer的近存计算和存内计算完全教程

引言

随着大语言模型（LLMs）参数规模从数十亿扩展到数千亿，传统的冯·诺依曼架构面临着前所未有的挑战。在Transformer模型的推理过程中，特别是解码阶段，内存带宽已成为主要瓶颈。本教程将深入探讨如何通过近存计算（Near-Memory Computing, NMC）和存内计算（Processing-in-Memory, PIM）技术来突破这一瓶颈。

为什么需要这个教程？

内存墙问题日益严重：Qwen-72B等大模型在单token生成时，计算利用率不足5%
能耗失衡：数据搬移能耗是计算能耗的100-1000倍
新技术涌现：从Samsung HBM-PIM到各类模拟计算方案，亟需系统性理解
实际部署需求：如何在延迟优先的场景下实现高效推理

教程特色

1. 面向实际应用

以Qwen-72B密集模型和200B MoE模型为核心案例
关注单token解码延迟优化
包含成本分析和部署建议

2. 循序渐进的学习路径

从4×4矩阵示例到72B模型实现
从基础概念到前沿研究
理论与实践并重

3. 全面的技术覆盖

数字PIM：HBM-PIM、UPMEM等
模拟计算：ReRAM/PCM交叉阵列
混合架构：数字-模拟协同设计
新兴技术：CXL-PIM、光计算等

4. 定量分析贯穿始终

详细的带宽计算
能耗分解模型
性能-精度权衡分析
TCO（总拥有成本）评估

章节导航

第一部分：基础与动机（第1-3章）

第二部分：Transformer负载与优化（第4-5章）

第三部分：架构深度剖析（第6-8章）

第四部分：系统设计与实现（第9-12章）

第五部分：评估与展望（第13-16章）

附录

快速导航指南

如果您是...

硬件工程师

重点阅读：第3、6、7章（存储技术和架构）
参考：第13章（性能评估方法）

算法研究员

重点阅读：第4、5章（负载分析和量化）
深入：第10、11章（模型优化）

系统架构师

核心章节：第9、12章（编程模型和系统集成）
扩展：第14章（商业方案对比）

产品经理/决策者

必读：第1、13、14章（动机、评估、商业版图）
概览：第15、16章（技术趋势）

阅读建议

初学者路径：第1章 → 第2章 → 第4章（4.1-4.3）→ 第6章（6.1）
进阶路径：完整阅读第1-8章，选择性阅读9-12章
专家路径：可直接跳转到感兴趣的章节，利用交叉引用深入

本教程的目标

完成本教程后，您将能够：

理解核心概念：掌握PIM/NMC的基本原理和分类
分析实际问题：量化评估Transformer模型的内存瓶颈
设计解决方案：为特定模型选择合适的PIM架构
评估性能收益：计算延迟、能耗和成本改进
把握技术趋势：了解最新进展和未来方向

开始学习

让我们从第1章开始，深入了解为什么Transformer推理需要PIM技术，以及传统架构面临的根本性挑战。

本教程持续更新中，欢迎反馈和建议。