面向Transformer的近存计算和存内计算教程大纲
教程概述
从基础到前沿,全面介绍PIM/NMC技术在transformer推理中的应用,重点关注解码器模型(7B-200B参数)及实际部署考量。
目标读者
- 具有芯片设计背景的行业专业人士
- 进入PIM/NMC领域的研究人员
- 优化transformer推理的系统架构师
核心学习成果
- 理解transformer解码中的内存瓶颈
- 掌握面向AI负载的PIM架构
- 分析实际实现和权衡
- 为特定transformer模型设计PIM解决方案
- 评估新兴技术和未来方向
章节结构
第1章:为什么Transformer需要PIM?内存墙危机
- 解码器瓶颈:单token生成与内存带宽
- 量化问题:Qwen-72B的Roofline分析
- 数据搬移成本:能耗分解(DRAM访问vs计算)
- KV-Cache爆炸:随序列长度的扩展
- 传统解决方案及局限:HBM、缓存层次结构
第2章:PIM/NMC基础
- 历史背景:简述演进(1990年代逻辑存储器到现代PIM)
- 分类体系:近数据vs存内、模拟vs数字
- 基本操作:存储器内矩阵向量乘法
- 简单示例:4x4矩阵计算详解
- 能耗和性能模型:基本方程
第3章:PIM存储技术
- 基于DRAM的PIM:三星HBM-PIM架构
- SRAM解决方案:近bank计算
- 新兴NVM:用于权重的ReRAM/PCM交叉阵列
- 模拟计算:交叉阵列和ADC/DAC开销
- 技术比较:密度、能耗、延迟权衡
第4章:Transformer负载分析
- 注意力机制:QKV投影和softmax
- FFN层:门控线性单元(SwiGLU)
- 内存访问模式:顺序解码分析
- 算术强度:逐层分解
- 案例研究:Qwen-72B完整模型分析
第5章:面向PIM的量化
- 权重量化:W4A16、FP4及更低
- 离群值感知方法:处理激活尖峰
- PIM特定约束:模拟噪声和数字精度
- 量化-架构协同设计:匹配位宽与硬件
- 性能影响:精度vs效率权衡
第6章:数字PIM架构
- 近Bank计算:HBM-PIM深度剖析
- DRAM内处理:UPMEM架构
- 位串行vs位并行:transformer权衡
- 多Bank协调:并行策略
- 案例研究:在HBM-PIM上实现注意力
第7章:面向Transformer的模拟PIM
- 交叉阵列基础:欧姆定律计算
- 权重映射:从数字到电导
- ADC/DAC设计:分辨率vs速度/能耗
- 噪声和变化:对transformer精度的影响
- 商业案例:Mythic、Syntiant架构
第8章:混合信号和混合方法
- 两全其美:何时使用模拟vs数字
- SRAM内计算:带模拟辅助的数字PIM
- 分层架构:结合不同技术
- 精度分配:不同层使用不同精度
- 能效优化:详细分析
第9章:编程模型和编译器
- 抽象层:从PyTorch到PIM指令
- 内存分配:放置权重和激活
- 调度:重叠计算和数据搬移
- API和框架:行业示例
- 代码示例:注意力的简单内核
第10章:大模型优化
- 模型并行:跨PIM芯片分割Qwen-72B
- 流水线策略:隐藏芯片间通信
- 推测解码:用于草稿模型的PIM
- 稀疏模式:利用transformer稀疏性
- KV-Cache管理:PIM感知缓存
第11章:PIM上的专家混合模型
- MoE基础:200B参数模型,32B激活
- 专家放置:映射32个专家到内存
- 路由器实现:在哪计算门控
- 全对全优化:减少通信
- 负载均衡:动态专家分配
第12章:系统集成
- 主机-PIM接口:PCIe、CXL、自定义协议
- 内存层次:集成PIM与缓存
- 多芯片系统:扩展到多个PIM设备
- 软件栈:驱动、运行时、框架
- 部署场景:边缘vs数据中心
第13章:性能评估
- 指标:Tokens/秒/瓦、延迟、TCO
- 基准测试方法:公平比较
- Roofline分析:PIM vs传统架构
- 能耗分解:逐组件分析
- 面积效率:mm²/TOP/s
第14章:商业版图
- 三星HBM-PIM:产品和路线图
- UPMEM:实际部署
- 创业生态:Mythic、Syntiant等
- 成本分析:不同方案的$/token
- 市场采用:障碍和机遇
第15章:新兴技术
- CXL连接的PIM:分解式内存计算
- 光计算:光子矩阵乘法
- 3D集成:用于PIM的晶圆键合
- 新型存储:MRAM、FeRAM机遇
- 量子交叉:经典-量子混合
第16章:未来方向和研究
- 开放挑战:可靠性、可编程性、标准
- 研究机会:算法-硬件协同设计
- 标准化努力:OpenCAPI、CXL扩展
- 预测:5年展望
- 入门指南:构建你的第一个PIM系统
附录
- A:数学基础:矩阵运算、能耗方程
- B:参考架构:详细规格
- C:代码仓库:示例实现
- D:术语表:PIM/NMC术语
- E:延伸阅读:论文和资源
独特特点
- 以Transformer为中心:每个概念都与解码器负载相关
- 定量化:全程使用Qwen-72B的真实数据
- 实用性:面向工业,不仅是学术
- 全面性:数字和模拟、近存和存内
- 前瞻性:新兴技术和未来趋势
计算示例包括
- 交叉阵列中4x4注意力计算的逐步演示
- 能耗比较:DDR5 vs HBM vs PIM(72B模型)
- 不同序列长度的带宽计算
- 量化对困惑度的影响
- 多芯片扩展效率
- MoE全对全通信模式