面向Transformer的近存计算和存内计算教程大纲

教程概述

从基础到前沿，全面介绍PIM/NMC技术在transformer推理中的应用，重点关注解码器模型（7B-200B参数）及实际部署考量。

目标读者

具有芯片设计背景的行业专业人士
进入PIM/NMC领域的研究人员
优化transformer推理的系统架构师

核心学习成果

理解transformer解码中的内存瓶颈
掌握面向AI负载的PIM架构
分析实际实现和权衡
为特定transformer模型设计PIM解决方案
评估新兴技术和未来方向

章节结构

第1章：为什么Transformer需要PIM？内存墙危机

解码器瓶颈：单token生成与内存带宽
量化问题：Qwen-72B的Roofline分析
数据搬移成本：能耗分解（DRAM访问vs计算）
KV-Cache爆炸：随序列长度的扩展
传统解决方案及局限：HBM、缓存层次结构

第2章：PIM/NMC基础

历史背景：简述演进（1990年代逻辑存储器到现代PIM）
分类体系：近数据vs存内、模拟vs数字
基本操作：存储器内矩阵向量乘法
简单示例：4x4矩阵计算详解
能耗和性能模型：基本方程

第3章：PIM存储技术

基于DRAM的PIM：三星HBM-PIM架构
SRAM解决方案：近bank计算
新兴NVM：用于权重的ReRAM/PCM交叉阵列
模拟计算：交叉阵列和ADC/DAC开销
技术比较：密度、能耗、延迟权衡

第4章：Transformer负载分析

注意力机制：QKV投影和softmax
FFN层：门控线性单元（SwiGLU）
内存访问模式：顺序解码分析
算术强度：逐层分解
案例研究：Qwen-72B完整模型分析

第5章：面向PIM的量化

权重量化：W4A16、FP4及更低
离群值感知方法：处理激活尖峰
PIM特定约束：模拟噪声和数字精度
量化-架构协同设计：匹配位宽与硬件
性能影响：精度vs效率权衡

第6章：数字PIM架构

近Bank计算：HBM-PIM深度剖析
DRAM内处理：UPMEM架构
位串行vs位并行：transformer权衡
多Bank协调：并行策略
案例研究：在HBM-PIM上实现注意力

第7章：面向Transformer的模拟PIM

交叉阵列基础：欧姆定律计算
权重映射：从数字到电导
ADC/DAC设计：分辨率vs速度/能耗
噪声和变化：对transformer精度的影响
商业案例：Mythic、Syntiant架构

第8章：混合信号和混合方法

两全其美：何时使用模拟vs数字
SRAM内计算：带模拟辅助的数字PIM
分层架构：结合不同技术
精度分配：不同层使用不同精度
能效优化：详细分析

第9章：编程模型和编译器

抽象层：从PyTorch到PIM指令
内存分配：放置权重和激活
调度：重叠计算和数据搬移
API和框架：行业示例
代码示例：注意力的简单内核

第10章：大模型优化

模型并行：跨PIM芯片分割Qwen-72B
流水线策略：隐藏芯片间通信
推测解码：用于草稿模型的PIM
稀疏模式：利用transformer稀疏性
KV-Cache管理：PIM感知缓存

第11章：PIM上的专家混合模型

MoE基础：200B参数模型，32B激活
专家放置：映射32个专家到内存
路由器实现：在哪计算门控
全对全优化：减少通信
负载均衡：动态专家分配

第12章：系统集成

主机-PIM接口：PCIe、CXL、自定义协议
内存层次：集成PIM与缓存
多芯片系统：扩展到多个PIM设备
软件栈：驱动、运行时、框架
部署场景：边缘vs数据中心

第13章：性能评估

指标：Tokens/秒/瓦、延迟、TCO
基准测试方法：公平比较
Roofline分析：PIM vs传统架构
能耗分解：逐组件分析
面积效率：mm²/TOP/s

第14章：商业版图

三星HBM-PIM：产品和路线图
UPMEM：实际部署
创业生态：Mythic、Syntiant等
成本分析：不同方案的$/token
市场采用：障碍和机遇

第15章：新兴技术

CXL连接的PIM：分解式内存计算
光计算：光子矩阵乘法
3D集成：用于PIM的晶圆键合
新型存储：MRAM、FeRAM机遇
量子交叉：经典-量子混合

第16章：未来方向和研究

开放挑战：可靠性、可编程性、标准
研究机会：算法-硬件协同设计
标准化努力：OpenCAPI、CXL扩展
预测：5年展望
入门指南：构建你的第一个PIM系统

附录

A：数学基础：矩阵运算、能耗方程
B：参考架构：详细规格
C：代码仓库：示例实现
D：术语表：PIM/NMC术语
E：延伸阅读：论文和资源

独特特点

以Transformer为中心：每个概念都与解码器负载相关
定量化：全程使用Qwen-72B的真实数据
实用性：面向工业，不仅是学术
全面性：数字和模拟、近存和存内
前瞻性：新兴技术和未来趋势

计算示例包括

交叉阵列中4x4注意力计算的逐步演示
能耗比较：DDR5 vs HBM vs PIM（72B模型）
不同序列长度的带宽计算
量化对困惑度的影响
多芯片扩展效率
MoE全对全通信模式