第6章：量化设计（INT8/FP16）：从网络到标定/训练

1. 开篇与学习目标

在嵌入式自动驾驶计算平台（如 NVIDIA DRIVE Orin）上，量化（Quantization）不再是一个“可选的优化项”，而是必须的架构约束。 Orin 的标称算力（例如 Orin-X 的 254 TOPS）是基于 INT8 稀疏化算力计算的。如果你的模型完全运行在 FP32 模式下，你不仅只能利用 GPU 极小一部分的 CUDA Core 算力（FP32 TFLOPS 远低于 INT8 TOPS），还会因为 4倍的显存占用和带宽消耗，导致整个感知系统的帧率（FPS）只有理论值的几分之一。

然而，Vision Encoder（特别是 CNN）和 Transformer 在量化时的表现截然不同：

CNN：通常对量化比较鲁，权重和激活值分布相对均匀。
Transformer：由于 Attention 机制和 LayerNorm 的存在，激活值往往呈现严重的长尾分布（Heavy-tailed distribution）和离群点（Outliers）。如果不加干预地直接做 INT8 量化，精度（mAP/NDS）可能会下降 10% 以上，导致模型不可用。

本章的目标是帮助架构师建立“量化优先（Quantization-First）”的设计思维。我们将深入探讨：

混合精度策略：如何在计算密集型层（INT8）和敏感层（FP16）之间划定界限。
QAT 训练管线：为什么 PTQ 对 Transformer 不够用？如何在训练中模拟硬件噪声？
量化友好的算子设计：如何修改 RMSNorm、GELU 等结构，使其天生适合 INT8。
DLA 专有约束：Orin 的 DLA 与 GPU 在量化处理上的关键差异。

2. 核心概念论述

2.1 精度策略：Orin 上的混合精度法则

在 Orin 上部署“纯 INT8”网络是不现实且推荐的。最佳实践是 INT8 为主，FP16 为辅 的混合精度策略。

为什么是 INT8 + FP16？

Tensor Cores (GPU)：Orin 的 Ampere 架构 Tensor Cores 对 INT8 矩阵乘法有极高的吞吐量，但也支持 FP16 累加。
DLA：DLA 的卷积管道高度优化了 INT8，但其内部累加器通常有更高的位宽（如 INT32/FP16），且部分非线性层（Sigmoid/Tanh）可能通过查表或 FP16 运算器实现。

Rule of Thumb #1: 算力与敏感度的红线划分

设计网络拓扑时，应遵循以下层级划分：

组件类型	典型算子	推荐精度	理由
重算力层	Conv2d, Linear (Dense), MatMul	INT8	占据 95% FLOPs。量化带来的性能收益最大，且权重通常有规律可循。
激活函数	ReLU, ReLU6, SiLU (Swish)	INT8/FP16	有界激活（ReLU6）适合 INT8；无界激活（SiLU）可能需要截断或回退 FP16。
归一化层	LayerNorm, RMSNorm, BatchNorm	FP16/FP32	涉及均值、方差计算，对精度极敏感。FP16 是底线。
概率计算	Softmax, Sigmoid (in Head)	FP16	指数运算会指数级放大量化误差。Softmax 的输入和输出建议保持 FP16。
位置编码	Positional Embedding Add	FP16/FP32	位置信息是微小的扰动，INT8 量化极易将位置信息“抹平”或淹没在噪声中。

数据流视角：显式量化与反量化 (Q/DQ)

在 TensorRT 或 QAT 中，混合精度通过插入 Quantize (Q) 和 Dequantize (DQ) 节点实现。

[Transformer Block 混合精度数据流]

   Input (FP16/INT8)
       |
 [Residual Add (FP16)] <--- 建议高精度相加，避免溢出
       |
  [LayerNorm (FP16)]   <--- 保持高精度统计
       |
   [Quantize (Q)]      <--- 截断并映射到 [-127, 127]
       |
 [Linear: QKV (INT8)]  <--- 高吞吐计算核心 (Tensor Core)
       |
  [Dequantize (DQ)]    <--- 恢复成 FP16，加上 Scale 恢复数值
       |
 [Attention (FP16)]    <--- Softmax + MatMul(Score) 保持 FP16 防止崩塌
       |
   [Quantize (Q)]
       |
 [Linear: Proj (INT8)] <--- 再次进入 INT8 加速
       |
     Output

2.2 QAT (感知量化训练) vs. PTQ (训练后量化)

PTQ 的局限性

PTQ 是在 FP32 模型训练结束后，用少量校准数据（Calibration Data）统计 Scale。

CNN 的情况：ResNet 等网络通过 PTQ 通常只损失 <1% 的精度。
Transformer 的噩梦：ViT 的激活值分布极其不规则，常出现数值巨大的“离群通道”。PTQ 只能选择：
1. 保留最大值：Scale 很大，导致小数值部分的精度分辨率极低（所有细节归零）。
2. 截断最大值：Scale 较小，保留细节，但离群点被暴力截断，严重破坏特征语义。

QAT：让网络“学会”量化

QAT 在 PyTorch 训练阶段（通常是 Finetune 阶段）插入“伪量化”节点。

前向传播 (Forward)：模拟 INT8 的量化过程Round & Clip），让 Loss 计算包含量化误差。
反向传播 (Backward)：利用 STE (Straight-Through Estimator) 绕过量化的不可导特性，更新 FP32 权重。

Rule of Thumb #2：面向 Orin 的量产级 Transformer/BEV 网络，必须预留 QAT 的开发周期。不要指望 PTQ 能完美解决复杂的 Attention 结构。

2.3 量化友好的架构设计 (Quantization-Friendly Design)

这是架构师最能发挥作用的地方。与其在训练后修补，不如设计一个天生适合量化的网络。

1. 替换 LayerNorm 为 RMSNorm

LayerNorm: $y = \frac{x - \mu}{\sigma} \cdot \gamma + \beta$。计算 $\mu$（均值）需要全通道求和，减均值操作会改变数据的零点分布。
RMSNorm: $y = \frac{x}{\text{RMS}(x)} \cdot \gamma$。去掉了减均值操作。
收益: RMSNorm 计算更简单，且在 INT8 域下，数值稳定性通常优于 LayerNorm，对量化更鲁棒。

2. 驯服 GELU 与 Swish (SiLU)

GELU 和 SiLU 在 $x \to \infty$ 时是无界的。在某些 Transformer 中，激活值可能飙升至 100+。

对策 A (激进): 换回 ReLU 或 ReLU6。Orin 的 DLA 对 ReLU 有完美的硬件融合支持。
对策 B (折中): 使用 GELU + Clamp。在定义网络时，显式写入 x = clamp(gelu(x), min=-10, max=10)。这在训练时强迫网络在 -10 到 10 的范围内表达特征，为 INT8 量化设定了明确的边界。

3. 避免 "Cat" 后的剧烈分布差异

当两个来源不同的特征层（例如 Backbone 的 C3 层和 C4 层的上采样）进行 Concatenate 时：

问题: 如果 C3 的数值范围是 [0, 10]，C4 是 [0, 1000]。Concat 之后，为了适应 C4，整体 Scale 会变得很大，导致 C3 部分的数值在量化后全部变为 0 或 1。
对策: 在 Concat 之前，确保两路分支都经过了 BatchNormalization 或类似的归一化处理，使它们的数值分布处于同一数量级。

2.4 DLA 的特殊约束：Per-Tensor 与 Per-Channel

Orin 的 DLA (Deep Learning Accelerator) 是不同于 GPU 的独立 ASIC。

GPU (TensorRT): 支持 Per-Channel (Per-Axis) Quantization。即卷积核的每一个 Filter (Output Channel) 都有一个独立的 Scale。这能极大地容忍不同通道间的数值差异。
DLA (部分层级): 历史上 DLA 更倾向于 Per-Tensor Quantization（整层共享一个 Scale）。虽然现代 DLA 支持部分 Per-Channel，但如果网络权重在不同通道间差异过大（例如 100 倍），DLA 的性能和精度会剧烈退化。
Weight Equalization: 针对 DLA 部署，可能需要应用权重均衡化技术（将权重的 Scale 转移到偏置或下一层），或者在训练 loss 中加入正则项，惩罚过大的权重差异。

3. 本章小结

硬件现实：Orin 的峰值性能依赖于 INT8。混合精度（INT8 Compute + FP16 Data/Sensitive Ops）是标准解法。
QAT 必选项：对于 Vision Transformer 和复杂的 BEV 网络，PTQ 往往会导致不可接受的精度损失。必须在架构设计阶段规划 QAT 流程。
架构微调：为了量化精度，值得修改网络结构。RMSNorm 优于 LayerNorm，有界激活（ReLU6/Clamped GELU）优于无界激活。
对齐 DLA：DLA 对数值范围的敏感度高于 GPU。避免通道间剧烈的分布差异是 DLA 部署成功的关键。

4. 练习题

基础题 (巩固概念与流程)

Q1: 量化噪声的来源 量化过程本质上是将连续的浮点数 $x_f$ 映射到离散的整数 $x_q$：$x_q = \text{Round}(x_f / S + Z)$。请列举导致量化精度下降的三个主要数学原因。

点击展开答案

答案:

Rounding Error (取整误差): 将浮点数四舍五入到整数时引入的不可逆噪声。
Clipping Error (截断误差): 当浮点数超过了 Scale 覆盖的范围（例如大于 $127 \times S$），数值被强制截断为最大值，导致大值信息丢失（Saturation）。
Underflow (下溢): 当浮点数过小（小于 $1 \times S$ 的一部分），会被量化为 0，导致微小特征消失。

Q2: 敏感层识别 在一个标准的 Object Detection Head 中，通常包含分类分支（Classification）和回归分支（Bounding Box Regression）。在量化时，哪一个分支对 INT8 更敏感？为什么？应采用什么校准策略？

点击展开答案

答案:

敏感度: 回归分支 (Regression) 通常更敏感。
原因: 分类是概率问题，主要看 Logits 的相对大小，轻微的数值抖动通常不会改变 Argmax 的结果。回归分支输出的是精确的坐标偏移量（Offset），量化噪声会直接导致预测框的像素级抖动（Jitter），导致 IoU 下降。
策略:
- 分类分支: 可以使用 Entropy (KL Divergence) 校准，保留分布形态。
- 回归分支: 强烈建议使用 MinMax 校准（保留对值范围），或者干脆保持 FP16 不做量化，因为回归头的计算量通常很小，保留 FP16 性价比高。

Q3: 伪量化节点位置 在 Conv2d -> BatchNorm -> ReLU 这个经典序列中，QAT 的 Quantize 和 Dequantize 节点应该插入在哪里？为什么不能插在中间？

点击展开答案

答案: 位置: 应该插在整个序列的输入前和输出后，或者说这一组算子被视为一个“融合块”进行量化。原因: 在推理阶段（TensorRT），Conv + BN + ReLU 会被融合（Layer Fusion）成一个单一的 Kernel。中间的 BN 和 ReLU 并没有独立的内存读写，而是作为卷积核计算的一部分执行的。因此，在训练中插入中间的量化节点会模拟一个实际上不存在的“截断”过程，导致训练和推理不匹配。正确的做法是先做 BN Folding（将 BN 参数吸收到 Conv 权重中），再插入 Q/DQ 节点。

战题 (架构设计与调试)

Q4: Swin Transformer 的 Window Attention 量化 Swin Transformer 将特征图切分为多个 Window 进行 Attention。假设图像中有一半是天空（像素值平缓，数值小），一半是地面（纹理复杂，数值大）。如果使用标准的 TensorRT 量化（Per-Tensor for Activation），会发生什么问题？如何从架构或工程上解决？

点击展开答案

提示: 这是一个典型的“局部统计特性差异”问题。

答案: 问题: Per-Tensor 量化意味着整张 Feature Map 共用一个 Scale。由于“地面”部分的数值很大，Scale 会被拉大以适应地面特征。这会导致“天空”部分的数值在量化后被严重压缩（因为 Scale 太大，天空的小数值量化后都变成了 0），导致天空区域的小目标（如远处的鸟或红绿灯）漏检。解决:

工程解法 (高级): 开发支持 Block-wise Quantization 的自定义算子，每个 Window 或每个 Patch 动态分配 Scale（但这会降低 Tensor Core 效率）。
架构解法: 使用 LayerNorm / RMSNorm 对每个 Window 的输入做强归一化，确保不同 Window 的数值分布在送入 Attention 之前被拉齐到相似的范围。
QAT 策略: 在 QAT 中使用更激进的 Clipping 策略，宁可牺牲地面的一些高频纹理（截断大值），也要保住天空的检测能力（减小 Scale）。

Q5: DLA 的 Bias 溢出陷阱 在 DLA 上，卷积的累加器通常是 INT32。如果你的网络使用了非常大的 Kernel 或者通道数极多，且权重分布没有约束，可能会发生什么？如何在训练中预防？

点击展开答案

答案: 问题: Accumulator Overflow (累加器溢出)。虽然最终输出会 Quantize 回 INT8，但在中间的乘加运算（MAC）过程中，如果 Input(INT8) * Weight(INT8) 的累加和超过了 INT32 的表示范围，会发生数值转。预防:

L2 正则化: 训练时加强权重的 L2 Regularization，迫使权重值较小。
Clip Weights: 在 QAT 中，显式地限制权重的范围（不仅仅是 Scale，而是权重本身的绝对值）。
架构: 避免过宽的网络层（例如 2048 通道）直接在 DLA 上运行，或者拆分成多个小卷积相加。

Q6: 开放题 - "Zero-Overhead" 量化设计 设计一个用于 Orin 的 Encoder Block，要求它在 INT8 量化时，除了卷积计算外，几乎不引入额外的 Re-quantization 或 Re-formatting 开销。（提示：考虑 Residual 连接和 Activation 的位置）

点击展开答案

答案思路: 为了减少开销，关键是最大化算子融合并减少精度切换。 推荐结构: Pre-Activation ResNet-like Block 或 RepVGG-style。

RepVGG 风格: 训练时是多分支（3x3, 1x1, Identity），推理时重参数化为单一的 3x3 Conv + Bias + ReLU
- 优势: 推理时这就是一个单层卷积。输入 INT8 -> Conv(INT32累加) -> Bias -> ReLU -> Quantize -> 输出 INT8。全程无 FP16 转换，无 Element-wise Add，无 LayerNorm。这是 Orin DLA 上效率最高的结构。
Pre-Act ResNet: Input -> BN -> ReLU -> Conv -> BN -> ReLU -> Conv -> Add -> Output。
- 优势: 相比 Post-Act，Pre-Act 的 Add 操作后没有 ReLU，可以直接输出高精度结果给下一个 Block 的 BN，减少了一次量化损失（但可能有 FP16 开销）。
- 结论: 在 Orin 上，RepVGG 风格（重参数化）是极致效率的王者。

5. 常见陷阱与错误 (Gotchas)

5.1 校准集 (Calibration Set) 的“幸存者偏差”

现象：在高速公路场景表现完美，但在进出隧道或暴雨天时，检测框疯狂闪烁。
原因：PTQ 使用的校准集是从常规数据中随机抽样的，可能 99% 都是白天良好的光照。量化参数 Scale 适应了白天的据分布。隧道内的像素值（极暗）或过曝（极亮）导致激活值分布发生漂移（Distribution Shift），超出了 Scale 覆盖的有效范围。
对策：校准集必须是精心挑选的 (Curated)，而不是随机抽取的。必须按比例包含所有 ODD (Operational Design Domain) 场景：白天、夜晚、雨雾、隧道、强逆光等。

5.2 忽略了 "Explicit Quantization" 标志

现象：辛辛苦苦跑了 QAT，导出了带有 Q/DQ 节点的 ONNX，扔进 TensorRT 发现精度还是很差，或者性能没变快。
原因：
1. 精度差：TensorRT 构建引擎时，没有开启“读取 Q/DQ”标志，导致它忽略了训练好的 Scale，自己又做了一次粗糙的 PTQ。
2. 没变快：TensorRT 发现 Q/DQ 节点位置不符合融合规则（例如插在了 Softmax 中间），导致无法生成 INT8 Kernel，只能回退到 FP32 甚至插入大量 Reformat 算子，反而变慢。
Checklist：检查 TensorRT Log，搜索 "Run computation in INT8"，并确认关键层（Conv/MatMul）是否真的被选为了 INT8 实现。

5.3 错误的 Scale 传播

现象：MaxPool 层或 Reshape 层的输出精度异常。
原因：MaxPool 和 Reshape 本身不改变数值，只改变位置或形状。理论上它们不应该有独立的 Scale，应该继承上一层的 Scale。如果在这些层强行重新统计 Scale，可能会引入不必要的 Re-quantization 误差。
对策：在 QAT 或 TensorRT 设置中，确保无计算层（Pass-through layers）共享输入张量的 Scale。

5.4 FP16 的溢出 (Overflow)

现象：虽然没用 INT8，但用了 FP16 混合精度，Loss 突然变成 NaN 或者检测框消失。
原因：FP16 的最大值只有 65504。在某些未归一化的 Transformer 中，或者计算 loss 时的方差累加中，中间值很容易超过 65504。
对策：在 Softmax 前的 Logits 也就是 Attention Score 计算中，或者在计算 Loss 时，务必强转回 FP32。

< 上一章：CUDA 侧优化 | 下一章：2:4 结构化稀疏 >