面向Transformer的近存计算和存内计算教程大纲

教程概述

从基础到前沿,全面介绍PIM/NMC技术在transformer推理中的应用,重点关注解码器模型(7B-200B参数)及实际部署考量。

目标读者

  • 具有芯片设计背景的行业专业人士
  • 进入PIM/NMC领域的研究人员
  • 优化transformer推理的系统架构师

核心学习成果

  1. 理解transformer解码中的内存瓶颈
  2. 掌握面向AI负载的PIM架构
  3. 分析实际实现和权衡
  4. 为特定transformer模型设计PIM解决方案
  5. 评估新兴技术和未来方向

章节结构

第1章:为什么Transformer需要PIM?内存墙危机

  • 解码器瓶颈:单token生成与内存带宽
  • 量化问题:Qwen-72B的Roofline分析
  • 数据搬移成本:能耗分解(DRAM访问vs计算)
  • KV-Cache爆炸:随序列长度的扩展
  • 传统解决方案及局限:HBM、缓存层次结构

第2章:PIM/NMC基础

  • 历史背景:简述演进(1990年代逻辑存储器到现代PIM)
  • 分类体系:近数据vs存内、模拟vs数字
  • 基本操作:存储器内矩阵向量乘法
  • 简单示例:4x4矩阵计算详解
  • 能耗和性能模型:基本方程

第3章:PIM存储技术

  • 基于DRAM的PIM:三星HBM-PIM架构
  • SRAM解决方案:近bank计算
  • 新兴NVM:用于权重的ReRAM/PCM交叉阵列
  • 模拟计算:交叉阵列和ADC/DAC开销
  • 技术比较:密度、能耗、延迟权衡

第4章:Transformer负载分析

  • 注意力机制:QKV投影和softmax
  • FFN层:门控线性单元(SwiGLU)
  • 内存访问模式:顺序解码分析
  • 算术强度:逐层分解
  • 案例研究:Qwen-72B完整模型分析

第5章:面向PIM的量化

  • 权重量化:W4A16、FP4及更低
  • 离群值感知方法:处理激活尖峰
  • PIM特定约束:模拟噪声和数字精度
  • 量化-架构协同设计:匹配位宽与硬件
  • 性能影响:精度vs效率权衡

第6章:数字PIM架构

  • 近Bank计算:HBM-PIM深度剖析
  • DRAM内处理:UPMEM架构
  • 位串行vs位并行:transformer权衡
  • 多Bank协调:并行策略
  • 案例研究:在HBM-PIM上实现注意力

第7章:面向Transformer的模拟PIM

  • 交叉阵列基础:欧姆定律计算
  • 权重映射:从数字到电导
  • ADC/DAC设计:分辨率vs速度/能耗
  • 噪声和变化:对transformer精度的影响
  • 商业案例:Mythic、Syntiant架构

第8章:混合信号和混合方法

  • 两全其美:何时使用模拟vs数字
  • SRAM内计算:带模拟辅助的数字PIM
  • 分层架构:结合不同技术
  • 精度分配:不同层使用不同精度
  • 能效优化:详细分析

第9章:编程模型和编译器

  • 抽象层:从PyTorch到PIM指令
  • 内存分配:放置权重和激活
  • 调度:重叠计算和数据搬移
  • API和框架:行业示例
  • 代码示例:注意力的简单内核

第10章:大模型优化

  • 模型并行:跨PIM芯片分割Qwen-72B
  • 流水线策略:隐藏芯片间通信
  • 推测解码:用于草稿模型的PIM
  • 稀疏模式:利用transformer稀疏性
  • KV-Cache管理:PIM感知缓存

第11章:PIM上的专家混合模型

  • MoE基础:200B参数模型,32B激活
  • 专家放置:映射32个专家到内存
  • 路由器实现:在哪计算门控
  • 全对全优化:减少通信
  • 负载均衡:动态专家分配

第12章:系统集成

  • 主机-PIM接口:PCIe、CXL、自定义协议
  • 内存层次:集成PIM与缓存
  • 多芯片系统:扩展到多个PIM设备
  • 软件栈:驱动、运行时、框架
  • 部署场景:边缘vs数据中心

第13章:性能评估

  • 指标:Tokens/秒/瓦、延迟、TCO
  • 基准测试方法:公平比较
  • Roofline分析:PIM vs传统架构
  • 能耗分解:逐组件分析
  • 面积效率:mm²/TOP/s

第14章:商业版图

  • 三星HBM-PIM:产品和路线图
  • UPMEM:实际部署
  • 创业生态:Mythic、Syntiant等
  • 成本分析:不同方案的$/token
  • 市场采用:障碍和机遇

第15章:新兴技术

  • CXL连接的PIM:分解式内存计算
  • 光计算:光子矩阵乘法
  • 3D集成:用于PIM的晶圆键合
  • 新型存储:MRAM、FeRAM机遇
  • 量子交叉:经典-量子混合

第16章:未来方向和研究

  • 开放挑战:可靠性、可编程性、标准
  • 研究机会:算法-硬件协同设计
  • 标准化努力:OpenCAPI、CXL扩展
  • 预测:5年展望
  • 入门指南:构建你的第一个PIM系统

附录

  • A:数学基础:矩阵运算、能耗方程
  • B:参考架构:详细规格
  • C:代码仓库:示例实现
  • D:术语表:PIM/NMC术语
  • E:延伸阅读:论文和资源

独特特点

  1. 以Transformer为中心:每个概念都与解码器负载相关
  2. 定量化:全程使用Qwen-72B的真实数据
  3. 实用性:面向工业,不仅是学术
  4. 全面性:数字和模拟、近存和存内
  5. 前瞻性:新兴技术和未来趋势

计算示例包括

  • 交叉阵列中4x4注意力计算的逐步演示
  • 能耗比较:DDR5 vs HBM vs PIM(72B模型)
  • 不同序列长度的带宽计算
  • 量化对困惑度的影响
  • 多芯片扩展效率
  • MoE全对全通信模式