第2章：神经网络压缩基础

本章深入探讨神经网络压缩技术在低功耗AI推理芯片中的应用。我们将系统分析量化、剪枝、知识蒸馏等核心压缩方法，理解它们如何降低计算复杂度和存储需求，从而实现功耗优化。通过学习本章，读者将掌握如何在精度与能效之间进行权衡，并了解这些技术在实际硬件实现中的考量。

章节大纲

量化技术：从FP32到INT8/INT4/二值网络的演进
剪枝策略：结构化与非结构化剪枝的硬件影响
知识蒸馏：大模型指导小模型的推理优化
混合精度推理：动态精度分配策略
工业界案例：Qualcomm Hexagon DSP的量化实践
高级话题：量化感知训练与后训练量化的硬件考量

2.1 量化技术：INT8/INT4/二值网络

2.1.1 量化的数学基础

量化是将高精度浮点数映射到低比特定点数的过程，是降低AI芯片功耗最有效的技术之一。对于权重 $w$ 和激活值 $x$，量化过程可表示为：

$$q = \text{round}\left(\frac{r}{s}\right) + z$$ 其中 $r$ 是实数值，$s$ 是缩放因子(scale)，$z$ 是零点(zero-point)，$q$ 是量化后的整数值。

反量化过程为： $$r = s \cdot (q - z)$$

2.1.2 INT8量化

INT8量化将32位浮点数压缩为8位整数，理论上可以实现4倍的存储压缩和显著的计算加速。

对称量化：零点 $z=0$，量化范围对称于零

量化范围: [-127, 127] 或 [-128, 127]
缩放因子: s = max(|r_max|, |r_min|) / 127

对称量化的优势在于简化了硬件实现：无需在每次计算时处理零点偏移，这对于大规模矩阵运算尤其重要。在实际部署中，对称量化常用于权重，因为训练后的权重通常呈现近似对称的分布（均值接近零）。

非对称量化：允许非零的零点，更好地利用量化范围

量化范围: [0, 255]
缩放因子: s = (r_max - r_min) / 255
零点: z = round(-r_min / s)

非对称量化更适合激活值，特别是经过ReLU后的激活值（非负），可以充分利用量化范围。例如，ReLU6的输出范围是[0, 6]，使用非对称量化可以将255个量化级别全部用于表示有效范围，而对称量化会浪费一半的表示能力。

量化粒度的选择：

逐张量(Per-tensor): 整个张量共享一组(s, z)

- 硬件成本: 最低，仅需存储2个参数
- 精度损失: 最大，无法适应通道间差异
- 适用场景: 激活值量化

逐通道(Per-channel): 每个输出通道独立(s, z)

- 硬件成本: 中等，需要C组参数(C为通道数)
- 精度损失: 较小，可处理通道间方差差异
- 适用场景: 卷积权重量化（推荐）

逐组(Per-group): 将通道分组，组内共享参数

- 硬件成本: 可控，在精度和开销间平衡
- 精度损失: 介于per-tensor和per-channel之间
- 适用场景: Transformer中的大矩阵

硬件实现优势：

INT8乘法器面积约为FP32的1/27
INT8加法器功耗约为FP32的1/30
缓存带宽需求降低75%
SIMD指令集支持：AVX-512 VNNI、ARM SVE2等原生支持INT8运算

实际量化流程示例：

# 权重量化（离线完成）
def quantize_weights(W, num_bits=8):
    if symmetric:
        alpha = W.abs().max()
        scale = alpha / (2**(num_bits-1) - 1)
        zero_point = 0
    else:
        alpha = W.max()
        beta = W.min()
        scale = (alpha - beta) / (2**num_bits - 1)
        zero_point = round(-beta / scale)

    W_int = round(W / scale) + zero_point
    W_int = clip(W_int, 0, 2**num_bits - 1)
    return W_int, scale, zero_point

2.1.3 INT4与超低比特量化

INT4量化进一步将精度压缩到4比特，适用于边缘设备的极低功耗场景。随着大语言模型的兴起，INT4量化成为在资源受限设备上部署LLM的关键技术。

典型INT4配置：

- 权重: 4-bit (16个量化级别)
- 激活: 4-bit 或 8-bit
- 累加器: 16-bit 或 32-bit

INT4量化方案对比：

均匀量化(Uniform Quantization) - 量化级别均匀分布 - 硬件实现简单，易于流水线 - 适合权重分布均匀的层
非均匀量化(Non-uniform Quantization) - 基于数据分布优化量化级别 - 常用对数量化或k-means聚类 - 需要查找表(LUT)，增加硬件复杂度
混合符号量化

INT4配置选择：

- 有符号: [-8, 7] 适合权重
- 无符号: [0, 15] 适合ReLU后激活
- 非对称: [-6, 9] 自适应数据分布

分组量化技术(Group-wise Quantization)：将权重矩阵划分为多个组，每组独立量化参数：

原始矩阵: W ∈ R^{M×N}
分组大小: G (典型值: 128)
组数: K = (M×N) / G
量化参数: {s_k, z_k} for k = 1...K

分组量化的硬件设计：

     输入权重流
         ↓
    ┌─────────┐
    │组ID解码器│ ← 组索引ROM
    └────┬────┘
         ↓
    ┌─────────┐
    │量化参数  │ ← (s,z)查找表
    │  选择器  │
    └────┬────┘
         ↓
    ┌─────────┐
    │INT4 MAC  │
    │   阵列   │
    └─────────┘

关键挑战与解决方案：

精度损失： - 问题：4-bit表示能力有限，量化误差大 - 解决：分组量化降低组内方差；使用GPTQ等高级量化算法 - 硬件影响：需要额外存储组参数(~3%开销)
量化噪声累积： - 问题：深层网络中误差逐层放大 - 解决：关键层保持INT8；残差连接使用更高精度 - 硬件影响：需要混合精度计算单元
溢出风险： - 问题：INT4乘累加容易溢出 - 解决：动态范围监控；插入缩放操作 - 硬件影响：累加器位宽需16-bit以上

实际部署效果（以LLaMA-7B为例）：

精度对比：
FP16 (baseline): Perplexity = 5.68
INT8 (RTN): Perplexity = 5.70 (+0.35%)
INT4 (GPTQ): Perplexity = 5.85 (+3.0%)
INT4 (AWQ): Perplexity = 5.78 (+1.8%)

资源节省：
模型大小: 13GB → 3.5GB (3.7×)
内存带宽: 104GB/s → 28GB/s
功耗: ~45W → ~12W (3.75×)

2.1.4 二值与三值网络

二值神经网络(BNN)和三值神经网络(TNN)代表了量化的极限形式，通过将权重和激活限制在极少的离散值上实现超低功耗计算。

二值神经网络(BNN)

二值化函数： $$\text{sign}(x) = \begin{cases} +1 & \text{if } x \geq 0 \\ -1 & \text{if } x < 0 \end{cases}$$ 训练时的梯度近似（直通估计器）： $$\frac{\partial \text{sign}(x)}{\partial x} \approx \begin{cases} 1 & \text{if } |x| \leq 1 \\ 0 & \text{otherwise} \end{cases}$$ 三值神经网络(TNN)

三值量化包含零值，提供更好的表达能力： $$\text{ternarize}(x) = \begin{cases} +1 & \text{if } x > \Delta \\ 0 & \text{if } |x| \leq \Delta \\ -1 & \text{if } x < -\Delta \end{cases}$$ 其中阈值$\Delta$可以是固定值或学习参数。典型选择：$\Delta = 0.7 \times \text{mean}(|x|)$

硬件实现架构

二值MAC单元设计：
     ┌──────────────────────────┐
     │   输入: x[63:0] (1-bit×64) │
     │   权重: w[63:0] (1-bit×64) │
     └────────────┬───────────────┘
                  ↓
     ┌──────────────────────────┐
     │      XNOR阵列 (64个)      │
     │   out[i] = ~(x[i]⊕w[i])   │
     └────────────┬───────────────┘
                  ↓
     ┌──────────────────────────┐
     │    Popcount树形加法器      │
     │  cnt = Σout[i] (6-bit输出)  │
     └────────────┬───────────────┘
                  ↓
     ┌──────────────────────────┐
     │      格式转换单元          │
     │   result = 2×cnt - 64      │
     └──────────────────────────┘

三值MAC单元需要额外处理零值：

三值编码方案：

- 2-bit编码: {-1:10, 0:00, +1:01}
- 掩码方案: 符号位 + 有效位

三值乘法真值表：
x  | w  | x×w | 实现
---+----+-----+----------
+1 | +1 | +1  | AND(x_v,w_v) & ~XOR(x_s,w_s)
+1 | 0  | 0   | 0
+1 | -1 | -1  | AND(x_v,w_v) & XOR(x_s,w_s)
0  | *  | 0   | 0
-1 | +1 | -1  | AND(x_v,w_v) & XOR(x_s,w_s)
-1 | 0  | 0   | 0
-1 | -1 | +1  | AND(x_v,w_v) & ~XOR(x_s,w_s)

功耗与面积分析

              面积(μm²)  动态功耗(pJ)  静态功耗(nW)
              @7nm       @1GHz         @1V
FP32 MAC      450        3.7           120
INT8 MAC      35         0.15          15
二值MAC       8          0.003         2
三值MAC       12         0.006         3

能效提升：

- 二值 vs FP32: 1200× 
- 三值 vs FP32: 600×
- 二值 vs INT8: 50×

精度恢复技术

多基二值化(Multiple Binary Bases)： $$W \approx \sum_{i=1}^{M} \alpha_i B_i$$ 其中$B_i \in \{-1,+1\}^n$，$\alpha_i$为缩放系数
组归一化补偿：每N个二值操作后插入归一化，恢复激活分布
知识蒸馏增强：使用全精度教师网络指导二值学生网络训练

实际应用案例

XNOR-Net (ImageNet):

- 架构: AlexNet二值化
- Top-1准确率: 44.2% (vs 57.2% FP32)
- 存储: 压缩32×
- 速度: CPU上加速58×

Bi-Real Net (改进版):

- 架构: ResNet-18结构
- Top-1准确率: 56.4% (vs 69.6% FP32)
- 技巧: 跳跃连接保持FP32
- 功耗: <5mW @28nm

工业部署(始终开启语音唤醒):

- 模型: 二值化的小型CNN
- 功耗: 10μW @1.8V
- 准确率: 95%+ (10个唤醒词)
- 芯片: 专用ASIC实现

2.1.5 量化粒度选择

不同的量化粒度对硬件实现有重要影响：

逐层量化(Per-layer) - 每层共享一组量化参数 - 硬件实现简单，但精度损失较大
逐通道量化(Per-channel) - 每个输出通道独立量化参数 - 权重存储开销增加<1% - 精度提升显著
逐组量化(Per-group) - 将通道分组，组内共享参数 - 平衡精度与硬件复杂度

2.2 剪枝策略：结构化vs非结构化

2.2.1 非结构化剪枝

非结构化剪枝移除单个权重连接，产生随机稀疏模式：

稀疏度定义：
sparsity = #零权重 / #总权重

典型稀疏度：

- ResNet-50: 70-90%
- BERT: 80-95%
- GPT模型: 60-80%

硬件挑战：

不规则内存访问：破坏缓存局部性
索引开销：需要存储非零元素位置
负载不均衡：PE利用率降低

稀疏存储格式比较：

CSR (Compressed Sparse Row):

- 存储: values[], col_idx[], row_ptr[]
- 开销: ~2× (索引+数据)

COO (Coordinate):

- 存储: values[], row_idx[], col_idx[]
- 开销: ~3× (双索引+数据)

2.2.2 结构化剪枝

结构化剪枝移除整个滤波器、通道或层，保持规则计算模式：

滤波器剪枝：

原始: Conv2d(Cin=256, Cout=256, K=3×3)
剪枝: Conv2d(Cin=256, Cout=128, K=3×3)
效果: 计算量降低50%, 无需特殊硬件

通道剪枝算法：

计算每个通道的重要性分数（如L1/L2范数）
移除低重要性通道
微调恢复精度

硬件友好性分析：

优势:
✓ 保持密集矩阵运算
✓ 无需修改数据流
✓ 缓存效率高
✓ PE利用率100%

劣势:
✗ 压缩率受限(典型30-50%)
✗ 精度损失较大
✗ 剪枝粒度粗

2.2.3 半结构化稀疏(2:4稀疏)

NVIDIA Ampere引入的2:4稀疏模式，在每4个连续元素中恰好有2个为零：

2:4稀疏模式示例：
[0.5, 0, 0, 0.3]  ✓ 有效
[0.2, 0, 0.7, 0]  ✓ 有效
[0.1, 0.2, 0, 0]  ✗ 无效(只有1个零)

硬件实现：

稀疏张量核心架构：

- 输入: 压缩的2:4稀疏矩阵
- 索引: 2-bit掩码per 4元素
- 计算: 跳过零元素乘法
- 吞吐量: 2× vs 密集计算

能效提升：

乘法操作减少50%
数据传输减少~40%
实测功耗降低: 30-45%

2.2.4 动态稀疏与条件计算

动态稀疏根据输入自适应地跳过计算：

# 伪代码：动态稀疏推理
if magnitude(activation) < threshold:
    skip_computation()
else:
    perform_mac_operation()

硬件设计考虑：

预测器设计：低功耗的激活值预筛选
控制流开销：分支预测与流水线效率
数据相关性：处理不规则的计算模式

2.3 知识蒸馏在推理芯片中的应用

2.3.1 蒸馏原理与硬件映射

知识蒸馏通过大模型(Teacher)指导小模型(Student)训练，产生适合部署的紧凑模型。

蒸馏损失函数： $$L = \alpha L_{CE}(y_s, y_{true}) + (1-\alpha) L_{KL}(y_s/T, y_t/T)$$ 其中：

$L_{CE}$: 交叉熵损失
$L_{KL}$: KL散度
$T$: 温度参数
$\alpha$: 平衡系数

2.3.2 硬件友好的学生网络设计

设计原则：

规则结构：避免不规则连接和动态图
硬件对齐：通道数为硬件SIMD宽度的倍数
深度优化：平衡层数与单层计算量

示例：MobileNet学生网络
Teacher: ResNet-152 (60M参数)
Student: MobileNetV3-Small (2.5M参数)
压缩比: 24×
精度保持: 92% (vs Teacher 95%)
推理功耗: 18mW @1GHz (vs 450mW)

2.3.3 在线蒸馏与边缘适应

在线蒸馏允许在推理芯片上进行轻量级适应：

边缘适应流程：

1. 部署时: Student模型 + 少量Teacher输出
2. 运行时: 收集困难样本
3. 空闲时: 使用Teacher输出微调Student
4. 功耗预算: <5% 额外功耗

硬件支持需求：

片上SRAM缓存Teacher logits
低功耗反向传播单元
梯度累积缓冲区

2.4 混合精度推理

2.4.1 层级精度分配

不同层对量化的敏感度不同，混合精度充分利用这一特性：

典型ResNet-50混合精度配置：

- 第一层: INT8 (输入量化敏感)
- 中间层: INT4 (可承受更多量化)
- 最后层: INT8 (输出精度关键)
- 残差连接: INT16 (累积误差)

精度分配算法：

敏感度分析：测量每层量化对精度的影响
帕累托优化：在精度-功耗曲线上寻找最优点
硬件约束：考虑可用的计算单元类型

2.4.2 动态精度切换

根据输入复杂度动态调整精度：

动态精度决策树：
if input_entropy > threshold_high:
    use_precision = INT8
elif input_entropy > threshold_low:
    use_precision = INT4  
else:
    use_precision = INT2

硬件实现架构：

     ┌─────────────┐
     │ 精度预测器  │
     └──────┬──────┘
            ▼
    ┌───────────────┐
    │  可重构MAC阵列 │
    ├───────────────┤
    │ INT2 │INT4│INT8│
    └───────────────┘

功耗效益分析：

平均精度: 4.5 bits
峰值性能: INT8等效
功耗降低: 35-40%

2.4.3 混合精度的存储优化

存储格式设计以支持高效的混合精度访问：

打包存储方案：
┌────────────────────────┐
│ Header (8B): 精度映射表 │
├────────────────────────┤
│ INT2 weights (packed)   │
├────────────────────────┤
│ INT4 weights (packed)   │
├────────────────────────┤
│ INT8 weights           │
└────────────────────────┘

内存控制器优化：

突发传输对齐：不同精度数据的地址对齐
预取策略：基于精度模式的自适应预取
缓存分区：为不同精度分配独立缓存行

2.5 工业界案例：Qualcomm Hexagon DSP的量化策略

2.5.1 Hexagon架构概览

Qualcomm Hexagon DSP是移动AI推理的代表性架构：

Hexagon V68架构特性：

- 4个标量执行单元
- 4个向量执行单元(HVX)
- 专用张量加速器(HTA)
- 支持INT8/INT16混合精度
- 峰值性能: 15 TOPS @INT8

2.5.2 量化流程实现

Hexagon的量化优化流程：

1. 模型分析阶段：
   - 收集各层激活值分布
   - 计算最优量化参数
   - 生成量化配置文件

2. 图优化阶段：
   - 算子融合(Conv+BN+ReLU)
   - 量化参数传播
   - 死代码消除

3. 代码生成阶段：
   - HVX向量化
   - 数据排布优化
   - 预取指令插入

2.5.3 HVX向量单元的INT8优化

HVX向量处理单元专门优化了INT8运算：

// HVX INT8点积指令示例
vdmpy  v3:2, v1:0, r5:4  // 32个INT8×INT8→INT32
vadd   v5, v3, v2        // 累加到32-bit
vsat   v6, v5, #8        // 饱和到INT8

性能特征：

INT8 MAC吞吐量: 1024 ops/cycle
向量寄存器: 32×1024 bits
能效: 2 TOPS/W @INT8

2.5.4 实际部署效果

模型: MobileNetV3
原始精度(FP32): 75.2% Top-1
INT8量化精度: 74.8% Top-1
推理延迟: 0.9ms
功耗: 15mW
能效提升: 8.5× vs FP32

2.6 高级话题：量化感知训练与后训练量化的硬件影响

2.6.1 量化感知训练(QAT)

QAT在训练时模拟量化效果，产生对量化更鲁棒的模型：

前向传播： $$y = Q(W) \cdot Q(x)$$ 反向传播(直通估计器)： $$\frac{\partial L}{\partial W} = \frac{\partial L}{\partial y} \cdot x$$ 硬件优势：

更好的精度保持：INT4下精度损失<1%
规则的量化参数：简化硬件设计
可预测的动态范围：减少溢出处理

QAT的训练开销：

训练时间: 1.5-2× vs 常规训练
GPU内存: 1.2× (存储量化参数)
收敛速度: 略慢于常规训练

2.6.2 后训练量化(PTQ)

PTQ在已训练模型上直接应用量化：

# PTQ流程伪代码
for layer in model:
    # 1. 收集统计信息
    stats = collect_statistics(layer, calibration_data)

    # 2. 计算量化参数
    scale, zero_point = compute_quant_params(stats)

    # 3. 量化权重和偏置
    layer.weight = quantize(layer.weight, scale, zero_point)

硬件设计影响：

校准需求：需要代表性数据集
离群值处理：硬件需支持饱和运算
精度补偿：可能需要偏置校正单元

2.6.3 硬件量化器设计

专用量化硬件单元设计：

量化器流水线：
      ┌─────────┐
      │FP32输入 │
      └────┬────┘
           ▼
    ┌──────────────┐
    │ 范围检测器   │ <- 动态范围统计
    └──────┬───────┘
           ▼
    ┌──────────────┐
    │ 缩放单元     │ <- scale参数
    └──────┬───────┘
           ▼
    ┌──────────────┐
    │ 舍入单元     │ <- 随机/确定性
    └──────┬───────┘
           ▼
    ┌──────────────┐
    │ 饱和单元     │ <- 溢出处理
    └──────┬───────┘
           ▼
      ┌─────────┐
      │INT8输出 │
      └─────────┘

功耗分解(@7nm)：

范围检测: 0.5 pJ
缩放乘法: 1.2 pJ
舍入逻辑: 0.3 pJ
饱和处理: 0.2 pJ
总计: ~2.2 pJ/量化操作

2.6.4 量化误差补偿技术

高级补偿技术减少量化损失：

1. 学习型舍入(AdaRound)： $$\tilde{w} = s \cdot \left( \lfloor \frac{w}{s} \rfloor + h(\mathbf{V}) \right)$$ 其中 $h(\mathbf{V}) \in [0,1]$ 是学习的舍入函数

2. 偏置校正： $$bias_{corrected} = bias_{original} + \mathbb{E}[\Delta W \cdot x]$$ 补偿量化误差的期望值

3. 通道均衡化：重新分配不同通道的动态范围： $$W^{(l)}_{eq} = W^{(l)} \cdot diag(s), \quad W^{(l+1)}_{eq} = diag(1/s) \cdot W^{(l+1)}$$

硬件实现考虑：

额外存储: <5% (补偿参数)
计算开销: <10% (运行时校正)
功耗增加: 8-12%
精度提升: 0.5-1.5%

本章小结

本章系统介绍了神经网络压缩的核心技术及其在低功耗AI推理芯片中的应用：

关键概念：

量化技术：从FP32到INT8/INT4/二值的精度压缩，实现存储4-32倍压缩，功耗降低10-1000倍
剪枝策略：结构化剪枝保持硬件友好性，2:4半结构化稀疏平衡了压缩率与硬件效率
知识蒸馏：通过大模型指导产生紧凑的学生模型，压缩比可达20×以上
混合精度：动态分配不同层的计算精度，在保持精度的同时降低35-40%功耗

关键公式：

量化映射：$q = \text{round}(r/s) + z$
蒸馏损失：$L = \alpha L_{CE} + (1-\alpha) L_{KL}$
2:4稀疏：每4个元素恰好2个为零

设计权衡：

精度vs能效：INT8通常是最佳平衡点
压缩率vs硬件复杂度：结构化方法更硬件友好
QAT vs PTQ：QAT精度更好但需要重新训练

练习题

基础题

练习2.1：计算INT8量化的理论压缩比给定一个包含1M个FP32参数的全连接层，量化为INT8后： a) 权重存储减少多少？ b) 如果采用对称量化，需要额外存储什么参数？ c) 计算实际的存储压缩比

答案

a) 原始存储：1M × 32 bits = 32 Mbits INT8存储：1M × 8 bits = 8 Mbits 减少：24 Mbits (75%)

b) 对称量化需要存储：

缩放因子s：1个FP32值 (32 bits)
无需存储零点（z=0）

c) 实际压缩比：原始：32 Mbits 量化后：8 Mbits + 32 bits ≈ 8.000032 Mbits 压缩比：32 / 8.000032 ≈ 3.99998 ≈ 4×

练习2.2：2:4稀疏模式识别判断以下权重矩阵哪些行满足2:4稀疏模式：

Row 1: [0.5, 0, 0.3, 0]
Row 2: [0, 0, 0, 0.1]  
Row 3: [0.2, 0.1, 0, 0]
Row 4: [0, 0.7, 0, 0.4]

答案

Row 1: ✓ 满足（4个元素中恰好2个零）
Row 2: ✗ 不满足（4个元素中3个零，需要恰好2个）
Row 3: ✓ 满足（4个元素中恰好2个零）
Row 4: ✓ 满足（4个元素中恰好2个零）

满足2:4稀疏的行：1, 3, 4

练习2.3：混合精度存储计算一个卷积层有如下配置：

25%的权重使用INT2
50%的权重使用INT4
25%的权重使用INT8 总共100K个权重，计算总存储需求（bits）。

答案

INT2权重：25K × 2 bits = 50K bits INT4权重：50K × 4 bits = 200K bits INT8权重：25K × 8 bits = 200K bits

总存储：50K + 200K + 200K = 450K bits 平均每权重：450K / 100K = 4.5 bits

相比全INT8（800K bits）节省：43.75%

挑战题

练习2.4：量化误差分析考虑将范围[-1.0, 1.0]的FP32值量化为INT8（范围[-128, 127]）： a) 推导最优的缩放因子s b) 计算最大量化误差 c) 如果激活值服从均匀分布，计算期望量化误差

Hint：量化误差 = |原始值 - 反量化值|

答案

a) 最优缩放因子： s = 2.0 / 255 ≈ 0.00784 （将[-1.0, 1.0]映射到[-128, 127]）

b) 最大量化误差：发生在两个量化级别中间最大误差 = s/2 = 0.00392

c) 期望量化误差（均匀分布）：量化误差在[0, s/2]均匀分布 E[error] = s/4 = 0.00196

相对误差：0.196%（相对于2.0的范围）

练习2.5：剪枝效率分析给定一个1024×1024的权重矩阵： a) 非结构化剪枝90%后，使用CSR格式存储，计算存储开销 b) 结构化剪枝50%的滤波器，计算实际计算量减少 c) 哪种方案在嵌入式设备上更实用？为什么？

Hint：CSR需要存储values、column_indices、row_pointers

答案

a) 非结构化剪枝90%：

剩余非零元素：1024×1024×0.1 = 104,858
Values: 104,858 × 32 bits
Column indices: 104,858 × 16 bits
Row pointers: 1024 × 32 bits
总存储：104,858×48 + 1024×32 ≈ 5.06 Mbits
原始：1024×1024×32 = 33.55 Mbits
压缩比：6.6×

b) 结构化剪枝50%滤波器：

计算量：精确减少50%
存储：减少50%
无额外索引开销

c) 嵌入式设备更适合结构化剪枝：

无需特殊硬件支持
内存访问规则，缓存友好
计算负载均衡
虽然压缩率低，但实际推理效率更高

练习2.6：知识蒸馏压缩比估算 Teacher模型：ResNet-101（45M参数） Student模型：MobileNetV3-Small（2.5M参数）两者都量化为INT8。

a) 计算参数压缩比 b) 如果Teacher模型FLOPs为7.8G，Student为56M，计算计算量压缩比 c) 假设功耗正比于FLOPs×位宽，估算功耗降低比例

答案

a) 参数压缩比： 45M / 2.5M = 18×

b) 计算量压缩比： 7.8G / 56M = 139.3×

c) 功耗降低估算： Teacher (FP32): 7.8G × 32 = 249.6G bit-ops Student (INT8): 56M × 8 = 448M bit-ops 功耗降低：249.6G / 448M = 557×

实际功耗降低会低于此值（考虑其他开销），典型实测值：100-200×

练习2.7：混合精度优化策略设计一个5层CNN的混合精度方案，满足：

总平均位宽不超过4.5 bits
第一层和最后一层至少INT8
中间层可以是INT2/4/8
最大化模型容量的同时满足位宽约束

答案

优化方案： Layer 1 (输入层): INT8 - 对输入量化敏感 Layer 2: INT4 - 早期特征可承受更多量化 Layer 3: INT2 - 中间层压缩最激进 Layer 4: INT4 - 逐渐恢复精度 Layer 5 (输出层): INT8 - 保证输出精度

验证平均位宽： (8 + 4 + 2 + 4 + 8) / 5 = 5.2 bits

调整方案（假设层3权重更多）：如果层权重分布为[10%, 20%, 40%, 20%, 10%]：加权平均：0.1×8 + 0.2×4 + 0.4×2 + 0.2×4 + 0.1×8 = 4.0 bits

满足约束且最大化了大权重层的压缩

常见陷阱与错误 (Gotchas)

量化相关

零点漂移：INT8非对称量化的零点在硬件中可能因舍入产生漂移 - 调试技巧：定期校准零点，使用对称量化避免
溢出累积：低比特MAC运算的累加器容易溢出 - 调试技巧：使用更宽的累加器（如INT32），插入饱和逻辑
批归一化融合错误：量化后BN融合可能引入额外误差 - 调试技巧：在量化前完成BN融合，重新计算融合参数

剪枝相关

稀疏索引开销：高稀疏度时索引可能超过数据本身 - 调试技巧：设置稀疏度阈值（如>70%才启用稀疏）
负载不均衡：非结构化稀疏导致PE利用率低 - 调试技巧：使用结构化或半结构化稀疏模式
精度断崖：某些层剪枝过度导致精度急剧下降 - 调试技巧：逐层分析敏感度，设置层特定的剪枝率

混合精度相关

精度不匹配：相邻层精度差异过大导致信息损失 - 调试技巧：限制相邻层精度差异在2bits以内
动态范围失配：不同精度的动态范围不一致 - 调试技巧：插入范围调整层，使用per-channel量化

硬件实现相关

缓存抖动：混合精度/稀疏模式导致缓存频繁失效 - 调试技巧：数据重排优化局部性，增加预取深度
流水线气泡：动态精度切换导致流水线停顿
- 调试技巧：批处理相同精度的操作，减少切换频率

最佳实践检查清单

算法设计阶段

[ ] 完成各层量化敏感度分析
[ ] 选择合适的量化粒度（per-layer/channel/group）
[ ] 确定目标稀疏度和稀疏模式
[ ] 设计混合精度策略
[ ] 准备校准数据集（代表性、覆盖边界情况）

模型优化阶段

[ ] 先进行剪枝，再进行量化（顺序很重要）
[ ] 使用QAT而非PTQ（如果精度要求高）
[ ] 验证量化模型的数值稳定性
[ ] 测试不同batch size下的精度
[ ] 检查是否有异常的激活值分布

硬件映射阶段

[ ] 确认硬件支持的量化格式
[ ] 优化数据排布以匹配硬件架构
[ ] 最小化精度转换开销
[ ] 平衡不同精度操作的流水线
[ ] 验证累加器位宽足够

部署验证阶段

[ ] 对比浮点和量化模型输出
[ ] 测量实际推理延迟和功耗
[ ] 验证边界输入的鲁棒性
[ ] 监控运行时的溢出/下溢
[ ] 建立精度监控和告警机制

持续优化阶段

[ ] 收集部署后的真实数据分布
[ ] 定期重新校准量化参数
[ ] 分析功耗瓶颈并针对性优化
[ ] 跟踪新压缩技术的发展
[ ] 保持模型版本管理和回滚能力