near_memory_computing

面向Transformer的近存计算和存内计算完全教程

引言

随着大语言模型(LLMs)参数规模从数十亿扩展到数千亿,传统的冯·诺依曼架构面临着前所未有的挑战。在Transformer模型的推理过程中,特别是解码阶段,内存带宽已成为主要瓶颈。本教程将深入探讨如何通过近存计算(Near-Memory Computing, NMC)和存内计算(Processing-in-Memory, PIM)技术来突破这一瓶颈。

为什么需要这个教程?

教程特色

1. 面向实际应用

2. 循序渐进的学习路径

3. 全面的技术覆盖

4. 定量分析贯穿始终

章节导航

第一部分:基础与动机(第1-3章)

第二部分:Transformer负载与优化(第4-5章)

第三部分:架构深度剖析(第6-8章)

第四部分:系统设计与实现(第9-12章)

第五部分:评估与展望(第13-16章)

附录

快速导航指南

如果您是…

硬件工程师

算法研究员

系统架构师

产品经理/决策者

阅读建议

  1. 初学者路径:第1章 → 第2章 → 第4章(4.1-4.3)→ 第6章(6.1)
  2. 进阶路径:完整阅读第1-8章,选择性阅读9-12章
  3. 专家路径:可直接跳转到感兴趣的章节,利用交叉引用深入

本教程的目标

完成本教程后,您将能够:

  1. 理解核心概念:掌握PIM/NMC的基本原理和分类
  2. 分析实际问题:量化评估Transformer模型的内存瓶颈
  3. 设计解决方案:为特定模型选择合适的PIM架构
  4. 评估性能收益:计算延迟、能耗和成本改进
  5. 把握技术趋势:了解最新进展和未来方向

开始学习

让我们从第1章开始,深入了解为什么Transformer推理需要PIM技术,以及传统架构面临的根本性挑战。


本教程持续更新中,欢迎反馈和建议。