面向Transformer的近存计算和存内计算完全教程

引言

随着大语言模型(LLMs)参数规模从数十亿扩展到数千亿,传统的冯·诺依曼架构面临着前所未有的挑战。在Transformer模型的推理过程中,特别是解码阶段,内存带宽已成为主要瓶颈。本教程将深入探讨如何通过近存计算(Near-Memory Computing, NMC)和存内计算(Processing-in-Memory, PIM)技术来突破这一瓶颈。

为什么需要这个教程?

  • 内存墙问题日益严重:Qwen-72B等大模型在单token生成时,计算利用率不足5%
  • 能耗失衡:数据搬移能耗是计算能耗的100-1000倍
  • 新技术涌现:从Samsung HBM-PIM到各类模拟计算方案,亟需系统性理解
  • 实际部署需求:如何在延迟优先的场景下实现高效推理

教程特色

1. 面向实际应用

  • 以Qwen-72B密集模型和200B MoE模型为核心案例
  • 关注单token解码延迟优化
  • 包含成本分析和部署建议

2. 循序渐进的学习路径

  • 从4×4矩阵示例到72B模型实现
  • 从基础概念到前沿研究
  • 理论与实践并重

3. 全面的技术覆盖

  • 数字PIM:HBM-PIM、UPMEM等
  • 模拟计算:ReRAM/PCM交叉阵列
  • 混合架构:数字-模拟协同设计
  • 新兴技术:CXL-PIM、光计算等

4. 定量分析贯穿始终

  • 详细的带宽计算
  • 能耗分解模型
  • 性能-精度权衡分析
  • TCO(总拥有成本)评估

章节导航

第一部分:基础与动机(第1-3章)

第二部分:Transformer负载与优化(第4-5章)

第三部分:架构深度剖析(第6-8章)

第四部分:系统设计与实现(第9-12章)

第五部分:评估与展望(第13-16章)

附录

快速导航指南

如果您是...

硬件工程师

  • 重点阅读:第3、6、7章(存储技术和架构)
  • 参考:第13章(性能评估方法)

算法研究员

  • 重点阅读:第4、5章(负载分析和量化)
  • 深入:第10、11章(模型优化)

系统架构师

  • 核心章节:第9、12章(编程模型和系统集成)
  • 扩展:第14章(商业方案对比)

产品经理/决策者

  • 必读:第1、13、14章(动机、评估、商业版图)
  • 概览:第15、16章(技术趋势)

阅读建议

  1. 初学者路径:第1章 → 第2章 → 第4章(4.1-4.3)→ 第6章(6.1)
  2. 进阶路径:完整阅读第1-8章,选择性阅读9-12章
  3. 专家路径:可直接跳转到感兴趣的章节,利用交叉引用深入

本教程的目标

完成本教程后,您将能够:

  1. 理解核心概念:掌握PIM/NMC的基本原理和分类
  2. 分析实际问题:量化评估Transformer模型的内存瓶颈
  3. 设计解决方案:为特定模型选择合适的PIM架构
  4. 评估性能收益:计算延迟、能耗和成本改进
  5. 把握技术趋势:了解最新进展和未来方向

开始学习

让我们从第1章开始,深入了解为什么Transformer推理需要PIM技术,以及传统架构面临的根本性挑战。


本教程持续更新中,欢迎反馈和建议。