ai_compiler_tutorial

AI 编译器教程:从理论到 200T 规模实践

关于本教程

本教程面向资深程序员和 AI 科学家,系统介绍 AI 编译器的设计与实现,特别关注自动驾驶和具身智能场景下的 200T 参数级模型编译优化。教程采用理论与实践结合的方式,包含大量数学推导和工程实践案例。

学习路径建议

快速路径(2-3 周)

标准路径(6-8 周)

深度路径(3-4 个月)

目录

第一部分:基础架构

第 1 章:AI 编译器概述

第 2 章:中间表示(IR)设计

第 3 章:计算图表示与分析

第二部分:内存与数据管理

第 4 章:统一缓冲区设计

第 5 章:内存规划与分配

第 6 章:数据布局优化

第三部分:核心优化技术

第 7 章:算子融合

第 8 章:自动微分与梯度优化

第 9 章:并行化策略

第四部分:硬件适配层

第 10 章:协处理器设计原则

第 11 章:多维 Stride DMA 利用

第 13 章:GPU 编译优化

第 14 章:移动端与边缘设备优化

第五部分:高级专题

第 15 章:NUMA 架构优化(一)

第 16 章:NUMA 架构优化(二)

第 17 章:动态 Shape 编译(一)

第 18 章:动态 Shape 编译(二)

第 19 章:稀疏与变长数据支持

第 20 章:JIT 编译技术

第 21 章:高维张量别名分析

第 22 章:投机执行支持

第六部分:实战案例

第 23 章:自动驾驶场景优化

第 24 章:具身智能编译挑战

第 25 章:200T 模型编译实践

主流框架对比

框架 IR 设计 硬件支持 动态 Shape JIT 支持 主要应用场景
XLA HLO NVIDIA, TPU, CPU 有限 TensorFlow/JAX
TVM Relay/TIR 全平台 端到端优化
Triton Triton IR NVIDIA 有限 核函数开发
MLIR 多方言 可扩展 编译器基础设施
TorchScript Graph IR 多平台 PyTorch 部署
CoreML MIL Apple iOS/macOS
ONNX Runtime ONNX 全平台 部分 跨框架部署

硬件平台覆盖

硬件类型 代表产品 关键特性 编译重点
数据中心 GPU NVIDIA H100/H200 HBM3, Tensor Core 大批量并行, 混合精度
  AMD MI300X HBM3, Matrix Core ROCm 优化
AI 专用芯片 Google TPU v5 超大片上内存 XLA 优化
  Tesla Dojo 自定义互联 分布式编译
移动端 Qualcomm Snapdragon Hexagon DSP 功耗优化
  Apple M系列 Neural Engine CoreML 适配
  MediaTek Dimensity APU 异构调度
边缘设备 NVIDIA Jetson CUDA + DLA 实时性优化
  Intel Movidius VPU 视觉任务优化

数学符号约定

代码约定

本教程不包含具体代码实现,所有算法以伪代码或数学形式呈现。实际实现请参考各框架官方文档。

前置知识

建议读者具备以下基础:

如何使用本教程

  1. 循序渐进:建议按章节顺序学习,每章都建立在前序知识基础上
  2. 动手实践:完成每章练习题,巩固理解
  3. 查阅对照:对照实际框架源码加深理解
  4. 参与讨论:加入社区讨论,分享学习心得

版权与致谢

本教程采用 CC BY-SA 4.0 协议发布。感谢 AI 编译器社区的持续贡献。


开始学习:第 1 章:AI 编译器概述