llm_edge_inference

第20章:硬件特定优化

边缘侧大语言模型推理的性能很大程度上取决于如何充分利用特定硬件的架构特性。本章将深入探讨主流边缘计算平台的硬件架构,包括ARM处理器、高通Hexagon DSP、移动GPU以及专用NPU,并详细分析针对各平台的优化策略。通过理解底层硬件的计算特性、内存层次结构和指令集特点,我们可以设计出充分发挥硬件潜力的推理方案。

本章大纲

20.1 ARM架构优化(Cortex-A/X系列)

20.2 Qualcomm Hexagon DSP编程

20.3 移动GPU优化(Mali/Adreno)

20.4 端侧NPU编程(NNAPI/CoreML)

20.1 ARM架构优化(Cortex-A/X系列)

ARM处理器在边缘设备中占据主导地位,从智能手机到嵌入式系统广泛应用。理解ARM架构的特性对于优化LLM推理至关重要。

20.1.1 ARM架构演进与关键特性

Armv8-A到Armv9-A的演进

Armv8-A引入了64位架构(AArch64),显著提升了寻址能力和寄存器数量:

Armv9-A的关键改进:

微架构特性

以Cortex-X3为例的性能核心特点:

20.1.2 NEON SIMD指令集优化

NEON是ARM的SIMD扩展,对于矩阵运算至关重要。

基本NEON优化原则

  1. 数据对齐:确保16字节对齐以最大化内存带宽
    对齐访问:LDR Q0, [X0]  // X0必须16字节对齐
    
  2. 向量化策略
    • INT8量化:每个Q寄存器可处理16个元素
    • FP16:每个Q寄存器可处理8个元素
    • FP32:每个Q寄存器可处理4个元素

GEMM优化示例

对于矩阵乘法C = A × B,优化策略:

  1. 寄存器分块
    • 使用8×8或4×4的寄存器块
    • 最大化寄存器重用
  2. 内存访问模式
    优化前:逐行访问导致cache miss
    优化后:分块访问,提高cache命中率
    
  3. 指令级并行
    FMLA V0.4S, V16.4S, V20.S[0]  // 乘加融合
    FMLA V1.4S, V17.4S, V20.S[0]  // 可并行执行
    

20.1.3 SVE/SVE2可扩展向量扩展

SVE是ARM的革命性创新,支持向量长度无关(VLA)编程。

SVE编程模型

  1. 可扩展向量
    向量长度 = svcntb() × 8  // 运行时确定
    
  2. 预测寄存器
    • 16个预测寄存器(P0-P15)
    • 支持细粒度的元素级控制
  3. 关键优化模式

    模式1:向量长度自适应

    处理任意长度数据:
    whilelt p0.s, x0, x1  // 生成预测掩码
    ld1w z0.s, p0/z, [x2, x0, lsl #2]  // 条件加载
    

    模式2:横向归约

    faddv s0, p0, z0.s  // 向量元素求和
    

20.1.4 内存访问模式优化

Cache优化策略

  1. 预取指令使用
    PRFM PLDL1KEEP, [X0]  // 预取到L1 cache
    PRFM PLDL2KEEP, [X0, #256]  // 预取到L2 cache
    
  2. 非时序存储
    STNP Q0, Q1, [X0]  // 绕过cache的存储
    
  3. 内存屏障优化
    • DMB:数据内存屏障
    • DSB:数据同步屏障
    • ISB:指令同步屏障

内存带宽优化

对于Cortex-X3,典型内存带宽:

优化原则:

  1. 数据复用:最大化L1/L2 cache中的数据复用
  2. 流式访问:利用硬件预取器
  3. 避免伪共享:cache line大小通常为64字节

20.1.5 大小核调度策略

现代ARM SoC采用big.LITTLE或DynamIQ架构:

调度策略

  1. 计算密集型任务
    • 调度到大核(Cortex-X/A7x)
    • 矩阵乘法、注意力计算
  2. 内存密集型任务
    • 可以调度到小核(Cortex-A5x)
    • KV cache读取、后处理
  3. 动态迁移: ``` 性能监控指标:
    • IPC(每周期指令数)
    • Cache miss率
    • 内存带宽利用率 ```

能效优化

功耗模型:

P = C × V² × f
其中:C为电容,V为电压,f为频率

优化策略:

  1. DVFS(动态电压频率调节):根据负载调整
  2. 任务打包:将相关任务调度到同一簇
  3. 避免频繁迁移:减少上下文切换开销

20.1.6 Armv9架构新特性

矩阵乘法指令(SMMLA)

Armv9引入了专门的矩阵乘法指令,这些指令能够在单个周期内完成多个乘累加操作:

SMMLA:8位有符号整数矩阵乘法
UMMLA:8位无符号整数矩阵乘法  
USMMLA:混合有符号/无符号矩阵乘法
BFMMLA:BFloat16矩阵乘法(Armv8.6+)

SMMLA指令工作原理

输入:
- Vn.16B:2×8 INT8矩阵A
- Vm.16B:8×2 INT8矩阵B
- Vd.4S:2×2 INT32累加器C

操作:
C[i,j] += Σ(k=0 to 7) A[i,k] × B[k,j]

单条指令完成32个INT8乘法和28个INT32加法

性能分析

传统NEON实现2×2矩阵乘法:
- SMULL指令:8个周期(4条指令×2周期延迟)
- SMLAL指令:8个周期(4条指令×2周期延迟)
- 总计:16个周期

SMMLA实现:
- 单条SMMLA:1个周期
- 性能提升:16倍理论提升,实际2-4倍(考虑内存瓶颈)

优化GEMM内核示例

对于M×K×N的INT8矩阵乘法:
1. 寄存器分块:8×8块(使用32个向量寄存器)
2. 计算核心:
   - 8个SMMLA指令处理8×8块
   - 每个核心每周期:256个INT8 MAC操作
3. 内存访问模式:
   - A矩阵:行主序,预取下8行
   - B矩阵:列主序,转置后访问
   - C矩阵:块累加,最后写回

可扩展矩阵扩展(SME)

Armv9.2引入的SME是革命性的矩阵计算扩展:

架构特点

ZA寄存器:二维矩阵存储
- 大小:SVL×SVL位(SVL=128到2048)
- 对于512位SVL:可存储64×64 INT8矩阵
- 支持分片访问和流式处理

关键指令

LD1W:流式加载到ZA切片
ST1W:从ZA切片流式存储
FMOPA:外积累加(FP32/FP16)
SMOPA:整数外积累加(INT8/INT16)

性能潜力

理论峰值(SVL=512):
- INT8:512×512×频率 OPS
- FP16:256×256×频率 FLOPS
- FP32:128×128×频率 FLOPS

相比传统SIMD:
- 数据重用率提升64倍
- 内存带宽需求降低8倍

内存标记扩展(MTE)

虽然MTE主要用于内存安全,但对性能优化也有重要影响:

MTE工作原理

内存标记:
- 每16字节物理内存关联4位标记
- 指针高位存储4位标记
- 访问时硬件自动检查标记匹配

性能影响分析

开销来源:
1. 标记存储:6.25%额外内存(1/16)
2. 标记检查:每次加载/存储+1周期
3. 缓存影响:标记占用部分缓存空间

优化策略:
1. 大块内存分配:减少标记数量
2. 对齐访问:利用标记缓存
3. 批量操作:摊薄检查开销

MTE辅助性能调试

使用场景:
1. 检测内存访问模式:
   - 为不同数据结构分配不同标记
   - 统计跨标记访问识别伪共享

2. 识别内存泄漏:
   - 释放后立即更改标记
   - 使用后访问立即触发异常

3. 缓存行为分析:
   - 不同缓存层使用不同标记
   - 追踪数据在层次间的移动

20.1.7 针对LLM的ARM优化最佳实践

Prefill阶段优化策略

Prefill阶段的计算特征是批量矩阵运算,计算密度高,是优化的重点:

1. 计算优化

Attention计算分解(序列长度S,隐藏维度D):
Q = XWq: [S, D] × [D, D] → [S, D]
K = XWk: [S, D] × [D, D] → [S, D]  
V = XWv: [S, D] × [D, D] → [S, D]

计算量:3 × S × D² FLOPs
内存访问:3 × D² + 3 × S × D(权重+激活)
算术强度:≈ S(当S >> 1时)

SVE2优化策略

1. 向量长度自适应分块:
   VL = svcntw() // 获取向量长度(words)
   块大小 = min(VL, D/头数)

2. 外积累加模式:
   for i in range(0, S, VL):
     for j in range(0, D, VL):
       // 使用SVE外积指令
       累加器 += outer_product(Q[i:i+VL], K[j:j+VL])

3. 预取策略:
   - L1预取距离:当前块+1
   - L2预取距离:当前块+4
   - 使用PRFM指令显式预取

2. 调度优化

大核配置(Cortex-X3为例):
- 频率:最高3.0GHz
- 功耗:~5W峰值
- 持续时间:<100ms(热限制)

调度策略:
1. 将所有Prefill计算调度到大核
2. 设置性能调控器到最高档
3. 监控温度,必要时降频

3. 内存带宽优化

带宽需求分析(D=4096, S=2048):
- 权重读取:3 × 4096² × 2 = 96MB(FP16)
- 激活读写:2048 × 4096 × 2 × 2 = 32MB
- 总带宽需求:128MB / 计算时间

优化措施:
1. 权重常驻L3:减少DRAM访问
2. 激活分块:适配L2大小
3. 使用NC4HW4布局:提高缓存命中率

Decode阶段优化策略

Decode阶段是逐token生成,计算量小但延迟敏感:

1. KV Cache优化

Cache更新计算(批大小B,缓存长度L):
新K = XWk: [B, D] × [D, D] → [B, D]
新V = XWv: [B, D] × [D, D] → [B, D]
追加到Cache: [B, L, D] → [B, L+1, D]

内存访问模式:
- 顺序写入:利用写合并缓冲
- 分页管理:避免大块内存移动

NEON向量化实现

KV更新核心(INT8量化):
1. 加载新KV(使用vld1q_s8)
2. 量化参数计算(使用vcvtq_f32_s32)
3. 写入缓存(使用vst1q_s8)
4. 更新页表指针

2. 功耗优化

能耗模型:
E = C × V² × f × t
其中:C=电容,V=电压,f=频率,t=时间

Decode阶段特点:
- 计算量小:~4×D²每token
- 时间长:可能持续数秒
- 功耗敏感:影响续航

优化策略:
1. 降频运行:
   - 大核:1.5GHz(50%频率)
   - 功耗降低:~75%(V²f效应)
   
2. 迁移到小核:
   - Cortex-A510:1.8GHz
   - 功耗:<1W
   - 性能足够:延迟增加<20%

3. 动态负载均衡

token复杂度分类:
- 简单token:高频词,预测概率>0.9
- 复杂token:低频词,需要更多计算

调度策略:
if token_probability > 0.9:
    schedule_to_little_core()
else:
    schedule_to_big_core()
    
收益:平均功耗降低40%,延迟增加<10%

量化推理深度优化

1. INT8 GEMM优化

使用SMMLA的优化内核:
输入:A[M,K], B[K,N](INT8)
输出:C[M,N](INT32)

寄存器分配(32个向量寄存器):
- V0-V7:存储A的8行
- V8-V15:存储B的8列
- V16-V31:存储8×8结果块

内循环(处理8×8块):
for k in range(0, K, 8):
    // 加载A和B的8个元素
    LD1 {V0.16B-V7.16B}, [A_ptr]
    LD1 {V8.16B-V15.16B}, [B_ptr]
    
    // 8×8矩阵乘法(8条SMMLA)
    SMMLA V16.4S, V0.16B, V8.16B
    SMMLA V17.4S, V0.16B, V9.16B
    ... // 总共64条SMMLA
    
性能:每周期512个INT8 MAC操作

2. 混合精度策略

层级精度分配(基于敏感度分析):
1. Embedding层:INT8(词表查找)
2. Attention QKV投影:INT8
3. Attention计算:FP16(数值稳定)
4. FFN第一层:INT8
5. FFN第二层:INT8
6. 层归一化:FP16
7. 输出层:FP16

内存节省:~75%(相比FP32)
性能提升:2-3倍(硬件加速)
精度损失:<0.5% perplexity增加

3. 动态量化优化

Per-token量化流程:
1. 统计激活范围:
   min_val = reduce_min(activations)
   max_val = reduce_max(activations)
   
2. 计算量化参数:
   scale = (max_val - min_val) / 255
   zero_point = round(-min_val / scale)
   
3. 量化激活:
   q_act = clamp(round(act/scale) + zero_point, 0, 255)
   
4. 使用SMMLA计算

NEON实现关键:
- 使用vminmaxq同时计算min/max
- 使用vcvtq_n_s32_f32进行定点转换
- 使用vqmovn饱和转换到INT8

内存布局深度优化

1. 权重布局转换

原始布局:[out_channels, in_channels]
优化布局:[out_channels/4, in_channels/4, 4, 4]

转换算法:
for oc in range(0, OC, 4):
    for ic in range(0, IC, 4):
        for oc_i in range(4):
            for ic_i in range(4):
                new[oc/4][ic/4][oc_i][ic_i] = old[oc+oc_i][ic+ic_i]

优势:
1. NEON vld4指令可直接加载4×4块
2. 缓存行利用率提高4倍
3. 避免跨缓存行访问

2. 激活缓存优化

分块策略(考虑L2=1MB):
块大小计算:
tile_m = tile_n = sqrt(L2_size / (3 × sizeof(dtype)))

对于FP16:tile_size ≈ 362
对于INT8:tile_size ≈ 512

多级分块:
L3块:2048×2048
L2块:512×512  
L1块:64×64
寄存器块:8×8

3. 预取优化模式

软件流水线(3级):
Stage 0: 计算当前块
Stage 1: 预取下一块到L1
Stage 2: 预取下下块到L2

实现:
// 计算块[i,j]
compute_block(i, j)

// 同时预取
PRFM PLDL1KEEP, [next_block_addr]      // 到L1
PRFM PLDL2KEEP, [next_next_block_addr] // 到L2

// 使用非阻塞预取避免停顿

性能监控与分析

1. 硬件性能计数器

关键指标监控:
- 周期数:总执行周期
- 指令数:已退休指令
- L1 D-Cache未命中率
- L2 Cache未命中率
- 分支误预测率
- NEON/SVE利用率

计算公式:
IPC = 指令数 / 周期数
CPI = 周期数 / 指令数
Cache命中率 = 1 - (未命中数 / 访问数)

2. 功耗分析

功耗分解:
- 动态功耗:P_dynamic = α × C × V² × f
- 静态功耗:P_static = V × I_leakage
- 总功耗:P_total = P_dynamic + P_static

测量方法:
1. 使用功耗监控API
2. 计算能效比:Tokens/Joule
3. 温度监控:避免过热降频

3. 优化效果评估

基准测试指标:
1. 首Token延迟(TTFT):< 100ms
2. Token生成速率:> 20 tokens/s
3. 功耗效率:> 5 tokens/Joule
4. 内存占用:< 2GB(INT8模型)

优化前后对比:
指标         优化前    优化后    提升
TTFT        250ms     95ms     62%
吞吐量      8 t/s     22 t/s   175%
功耗        8W        3W       62%
内存        4GB       1.5GB    62%

20.2 Qualcomm Hexagon DSP编程

Hexagon DSP是高通Snapdragon平台的核心计算引擎之一,专门设计用于高效的信号处理和AI工作负载。其独特的VLIW架构和向量处理能力使其成为边缘AI推理的理想选择。

20.2.1 Hexagon架构概述

核心架构特性

Hexagon DSP采用超长指令字(VLIW)架构,每个指令包可包含多达4条指令:

  1. 执行单元
    • 4个标量执行单元
    • 2个64位加载/存储单元
    • 2个向量执行单元(HVX)
  2. 寄存器资源
    • 32个32位通用寄存器
    • 32个1024位向量寄存器(HVX)
    • 4个向量预测寄存器
  3. 硬件线程
    • 支持最多6个硬件线程
    • 零开销上下文切换

内存层次结构

L1 I-Cache: 32KB,4路组相联
L1 D-Cache: 32KB,8路组相联  
L2 Cache: 256KB-1MB(统一)
TCM: 256KB-1MB(紧耦合内存)

TCM(Tightly Coupled Memory)特性:

20.2.2 HVX向量处理单元

HVX(Hexagon Vector eXtensions)是Hexagon的SIMD扩展,提供强大的向量处理能力。

HVX编程模型

  1. 向量宽度
    • 标准模式:512位(64字节)
    • 宽模式:1024位(128字节)
  2. 数据类型支持
    • INT8/UINT8:64/128元素并行
    • INT16/UINT16:32/64元素并行
    • INT32:16/32元素并行
  3. 向量操作类型
    算术运算:vadd, vsub, vmpy
    饱和运算:vaddsat, vsubsat
    打包/解包:vpack, vunpack
    置换:vdeal, vshuff
    

向量化矩阵乘法优化

对于INT8 GEMM操作,HVX优化策略:

  1. 数据布局转换
    输入布局:[M, K] × [K, N]
    HVX友好布局:
    A: [M/32, K, 32] (32行分块)
    B: [K, N/64, 64] (64列分块)
    
  2. 内积计算
    V0 = vmemu(A_ptr)     // 加载A的32个INT8
    V1 = vmemu(B_ptr)     // 加载B的64个INT8
    V2:3 = vmpyie(V0, V1) // INT8×INT8→INT16
    V4:5 = vaddw(V4:5, V2:3) // 累加到INT32
    
  3. 寄存器分块策略
    • 使用8个向量寄存器存储部分和
    • 4个寄存器用于数据加载
    • 实现4×8的寄存器块计算

20.2.3 张量加速器(HTA)

Hexagon张量加速器是专门为深度学习设计的硬件单元。

HTA架构特点

  1. 计算能力
    • 1024 INT8 MAC/周期
    • 支持INT8/INT16混合精度
    • 硬件支持深度卷积
  2. 内存子系统
    • 专用DMA引擎
    • 支持张量数据流
    • 自动处理padding

HTA编程模型

张量操作抽象:

输入张量:[N, H, W, C]
权重张量:[K, R, S, C]
输出张量:[N, P, Q, K]

优化策略:

  1. 通道优先布局:利用HTA的通道并行性
  2. 深度分离卷积:HTA原生支持
  3. 激活函数融合:ReLU/ReLU6硬件加速

20.2.4 内存管理与DMA优化

DMA编程模式

Hexagon提供灵活的DMA引擎:

  1. 双缓冲策略
    Buffer A: 当前计算使用
    Buffer B: DMA预取下一批数据
    计算与数据传输重叠
    
  2. 2D/3D DMA传输
    2D传输:矩阵行/列提取
    3D传输:张量切片操作
    支持stride和padding
    

内存带宽优化

  1. VTCM利用
    权重预载入:常用权重常驻VTCM
    Ping-pong缓冲:激活值双缓冲
    
  2. 内存访问模式
    • 连续访问:充分利用128字节总线
    • 避免bank冲突:交错地址映射
    • 预取优化:提前16-32周期预取

20.2.5 低功耗推理策略

动态电压频率调节

Hexagon支持细粒度的功耗控制:

  1. 性能等级
    Turbo: 1.2GHz, 适合批量推理
    Nominal: 800MHz, 平衡性能功耗
    SVS: 500MHz, 低功耗模式
    
  2. 功耗优化技术
    • 时钟门控:自动关闭空闲单元
    • 电源门控:深度睡眠模式
    • 动态负载平衡:CPU-DSP协同

计算精度与功耗权衡

功耗比较(相对值):
INT8运算: 1.0x
INT16运算: 2.5x
FP16运算: 4.0x
FP32运算: 8.0x

20.2.6 Hexagon NN框架集成

算子映射策略

  1. HVX优化算子
    • Conv2D:利用HVX向量化
    • MatMul:寄存器分块优化
    • Pooling:向量化最大/平均池化
  2. HTA加速算子
    • DepthwiseConv:原生支持
    • 1×1卷积:转换为矩阵乘法
    • 组卷积:多通道并行

图优化技术

  1. 算子融合
    Conv → BatchNorm → ReLU
    融合为单个HTA操作
    
  2. 量化优化
    Per-channel量化:HTA硬件支持
    动态量化:运行时调整scale
    
  3. 内存规划
    • 静态内存分配
    • 重用中间缓冲区
    • 最小化DDR访问

20.2.7 LLM推理的Hexagon优化

Attention计算优化

Hexagon DSP的向量处理能力特别适合加速Transformer的注意力机制:

1. Q/K/V投影优化

投影计算分析(头数H,维度D):
Q = XWq: [B, S, D] × [D, D] → [B, S, D]
K = XWk: [B, S, D] × [D, D] → [B, S, D]
V = XWv: [B, S, D] × [D, D] → [B, S, D]

HVX优化策略:
- 分块大小:32×128(匹配HVX寄存器宽度)
- 内存布局:[B, S/32, H, 32, D/H](向量友好)

VTCM权重管理

权重分配策略(VTCM=512KB):
1. 常驻权重:
   - QKV投影矩阵:3×D×D×sizeof(INT8) ≈ 48MB(D=4096)
   - 只能缓存部分:512KB / 48MB ≈ 1%
   
2. 分块加载:
   - 块大小:128×128 INT8 = 16KB
   - VTCM可存储:32个块
   - 采用LRU替换策略

3. 预取流水线:
   while (computing_block_i):
       DMA_prefetch(block_i+1 → VTCM)
       compute(block_i)
       DMA_evict(block_i-1)

2. Softmax向量化实现

数值稳定Softmax算法:
1. 找最大值:max_val = max(scores)
2. 计算exp:exp_scores = exp(scores - max_val)
3. 求和:sum_exp = sum(exp_scores)
4. 归一化:softmax = exp_scores / sum_exp

HVX优化实现:
// 步骤1:向量化max reduction
V_max = vmem(scores_ptr)
for i in range(1, N/64):
    V_temp = vmem(scores_ptr + i*64)
    V_max = vmax(V_max, V_temp)
// 水平reduction
max_val = vreduce_max(V_max)

// 步骤2:查表近似exp
// 使用8位查表:256项,精度±0.1%
for i in range(0, N, 64):
    V_score = vmem(scores_ptr + i)
    V_shifted = vsub(V_score, V_max)
    V_exp = vlut32(exp_table, V_shifted)
    vmem(exp_ptr + i) = V_exp

// 步骤3&4:求和与归一化
sum_exp = vreduce_add(V_exp_all)
V_inv_sum = vrecip(sum_exp)  // 倒数近似
for i in range(0, N, 64):
    V_exp = vmem(exp_ptr + i)
    V_softmax = vmpy(V_exp, V_inv_sum)
    vmem(output_ptr + i) = V_softmax

3. 注意力矩阵计算

Flash Attention在Hexagon上的适配:
块大小选择(考虑VTCM=512KB):
- Q块:[Br, d] = [32, 128]
- K块:[Bc, d] = [32, 128]
- V块:[Bc, d] = [32, 128]
- S块:[Br, Bc] = [32, 32]

内存需求:
Q块:32×128×1 = 4KB(INT8)
K块:32×128×1 = 4KB
V块:32×128×1 = 4KB
S块:32×32×2 = 2KB(FP16)
O块:32×128×2 = 8KB(FP16)
总计:22KB << 512KB(充裕)

计算流程:
for j in range(0, N, Bc):
    // 加载K[j:j+Bc]和V[j:j+Bc]到VTCM
    DMA_load(K_block, V_block)
    
    for i in range(0, N, Br):
        // 加载Q[i:i+Br]到VTCM
        DMA_load(Q_block)
        
        // 计算S = Q @ K^T(使用HVX)
        for qi in range(Br):
            for kj in range(Bc):
                S[qi,kj] = vdot(Q[qi], K[kj])
        
        // Softmax(分块稳定版本)
        row_max = vmax_reduce(S, axis=1)
        S_stable = S - row_max
        S_exp = vexp_approx(S_stable)
        row_sum = vsum_reduce(S_exp, axis=1)
        S_norm = S_exp / row_sum
        
        // 更新O = S @ V
        for oi in range(Br):
            for vj in range(d):
                O[oi,vj] += vdot(S_norm[oi], V[:,vj])

KV Cache管理优化

1. 分层存储架构

存储层次设计:
┌─────────────┐
│   VTCM      │ 512KB,2周期延迟
├─────────────┤ ↕ DMA
│  L2 Cache   │ 1MB,10周期延迟  
├─────────────┤ ↕ DMA
│    DDR      │ 8GB,100+周期延迟
└─────────────┘

数据放置策略:
1. VTCM(最热):
   - 最近16个token的KV
   - 大小:16×2×D×sizeof(INT8) = 128KB(D=4096)
   
2. L2 Cache(温):
   - 最近128个token的KV
   - 大小:128×2×D×sizeof(INT8) = 1MB
   
3. DDR(冷):
   - 其余所有历史KV
   - 使用压缩存储

2. 高效压缩算法

多级压缩策略:
Level 1 - INT8量化(VTCM/L2):
- Scale计算:scale = (max - min) / 255
- Zero point:zp = -min / scale
- 量化:q = round(x / scale + zp)
- 压缩率:4倍(FP32→INT8)

Level 2 - Top-K稀疏化(L2/DDR边界):
- 保留每行top-32个最大值
- 稀疏率:32/S(S=序列长度)
- 存储格式:CSR(压缩稀疏行)

Level 3 - 分组量化(DDR):
- 每64个token共享scale/zp
- 进一步压缩元数据开销
- 总压缩率:~16倍

解压缩流水线:
DDR → L2:分组反量化 + 稀疏恢复
L2 → VTCM:INT8直接拷贝
VTCM → HVX:向量加载 + 即时反量化

3. 动态剪枝策略

注意力权重剪枝算法:
阈值设定:threshold = mean(attention) × 0.1

HVX实现:
// 计算注意力权重均值
V_sum = vreduce_add(V_attention)
mean_val = V_sum / seq_length

// 设置剪枝阈值
V_threshold = vsplat(mean_val × 0.1)

// 向量化剪枝
for i in range(0, seq_length, 64):
    V_att = vmem(attention_ptr + i)
    V_mask = vcmp_gt(V_att, V_threshold)
    V_pruned = vand(V_att, V_mask)
    vmem(pruned_ptr + i) = V_pruned

剪枝效果:
- 平均保留20-30%的连接
- 精度损失<0.1% perplexity
- 计算加速3-4倍

解码阶段深度优化

1. 投机解码的DSP实现

双模型架构:
- 草稿模型:在Hexagon DSP运行
  - 参数量:~100M(高度量化)
  - 延迟:2ms/token
  
- 验证模型:在CPU运行
  - 参数量:~7B
  - 延迟:50ms/token

投机解码流程:
1. DSP生成K个草稿token(K=4):
   for i in range(K):
       draft_token[i] = draft_model(context)
       context.append(draft_token[i])
   
2. CPU并行验证:
   logits = target_model(context[:-K])
   for i in range(K):
       if verify(draft_token[i], logits[i]):
           accept_token(draft_token[i])
       else:
           break
   
3. 性能分析:
   平均接受率:~80%(相似领域)
   加速比:3.2倍(考虑验证开销)
   DSP利用率:~90%

2. 批处理优化策略

动态批处理算法:
批大小选择因素:
1. 内存约束:KV_cache_size × batch_size < VTCM_size
2. 计算效率:batch_size ≥ HVX_width / token_dim
3. 延迟要求:batch_latency < SLA

优化决策树:
if memory_pressure > 0.8:
    batch_size = min(4, available_memory / kv_size)
elif compute_utilization < 0.5:
    batch_size = min(16, optimal_compute_batch)
else:
    batch_size = adaptive_size(latency_target)

性能特征:
批大小  延迟(ms)  吞吐量(tokens/s)  内存(MB)
1       10        100               64
4       15        267               256  
8       22        364               512
16      38        421               1024

3. 硬件线程调度

Hexagon 6线程优化分配:
Thread 0-1:主计算线程
- 执行矩阵乘法
- 向量运算

Thread 2-3:DMA管理线程  
- 预取权重
- 移动KV cache

Thread 4:控制线程
- 调度协调
- 同步管理

Thread 5:辅助线程
- Softmax/LayerNorm
- 后处理

线程间通信:
使用硬件邮箱(零开销):
// Thread 0发送
write_mailbox(THREAD_2, PREFETCH_NEXT_WEIGHT)

// Thread 2接收
if (read_mailbox() == PREFETCH_NEXT_WEIGHT):
    DMA_start(weight_addr, VTCM_addr)

能效优化深度分析

1. 指令级能耗建模

Hexagon指令能耗(相对值):
- 标量ALU:1.0×
- 标量乘法:1.5×
- HVX向量加法:8.0×(64路并行)
- HVX向量乘法:12.0×
- HVX点积:15.0×
- DMA传输:20.0×/KB
- VTCM访问:2.0×
- L2访问:5.0×
- DDR访问:50.0×

优化原则:
1. 最大化向量化(摊薄控制开销)
2. 最小化内存访问(特别是DDR)
3. 平衡计算与数据移动

2. 动态电压频率优化

DVFS状态与LLM推理:
┌──────────┬────────┬────────┬─────────┐
│  状态    │ 频率   │ 电压   │ 功耗    │
├──────────┼────────┼────────┼─────────┤
│ TURBO    │ 1.2GHz │ 1.1V   │ 3.0W    │
│ NOMINAL  │ 800MHz │ 0.9V   │ 1.5W    │
│ SVS      │ 500MHz │ 0.8V   │ 0.8W    │
│ LOW_SVS  │ 300MHz │ 0.7V   │ 0.4W    │
└──────────┴────────┴────────┴─────────┘

自适应策略:
if prefill_phase:
    set_dvfs(TURBO)  # 最大性能
elif decode_phase:
    if queue_depth > threshold:
        set_dvfs(NOMINAL)  # 平衡模式
    else:
        set_dvfs(SVS)  # 省电模式

能效分析:
- Prefill:10 tokens/焦耳@TURBO
- Decode:50 tokens/焦耳@SVS
- 混合:30 tokens/焦耳(典型)

3. 热管理优化

温度监控与调节:
温度阈值:
- 警告:70°C
- 降频:80°C
- 关闭:90°C

热缓解策略:
1. 预测性降频:
   if temp_trend > 2°C/秒:
       preemptive_throttle()
       
2. 任务迁移:
   if core_temp > 75°C:
       migrate_to_cooler_core()
       
3. 计算分散:
   insert_idle_cycles(duty_cycle=0.8)

实测效果:
- 峰值温度降低:15°C
- 性能损失:<10%
- 持续运行时间:延长3倍

20.3 移动GPU优化(Mali/Adreno)

移动GPU作为并行计算的重要加速器,在边缘AI推理中扮演着关键角色。Mali和Adreno分别是ARM和高通的GPU解决方案,两者在架构设计上有显著差异,需要针对性的优化策略。

20.3.1 Mali GPU架构特点

Bifrost/Valhall架构演进

ARM Mali GPU经历了从Midgard到Bifrost,再到Valhall的架构演进:

  1. Valhall架构核心特性(Mali-G77及以后):
    • 执行引擎:双发射架构,支持FMA和CVT并行
    • Warp大小:16线程(相比NVIDIA的32)
    • 寄存器文件:64个32位寄存器/线程
    • 共享内存:16-32KB/核心
  2. 计算单元组织: ``` 着色器核心布局:
    • 1-16个着色器核心(取决于具体型号)
    • 每核心2-3个执行引擎
    • 共享L2 cache(256KB-4MB) ```
  3. 内存层次结构
    寄存器 → L1 cache(16KB) → L2 cache → 系统内存
    延迟:    1周期      4-6周期    20-40周期   100+周期
    

Mali GPU计算特性

  1. 浮点性能: ``` Mali-G710(旗舰):
    • FP32: ~1 TFLOPS
    • FP16: ~2 TFLOPS
    • INT8: ~4 TOPS ```
  2. 内存带宽
    • 理论带宽:依赖于系统内存(LPDDR5可达51.2GB/s)
    • 有效带宽:通常为理论值的60-80%
    • 带宽优化至关重要
  3. 功耗特性: ``` 典型功耗(Mali-G78):
    • 峰值:5-8W
    • 持续:2-4W
    • 空闲:<100mW ```

20.3.2 Adreno GPU计算能力

Adreno架构特点

高通Adreno GPU采用独特的架构设计:

  1. 统一着色器架构
    • SP(Shader Processor):标量处理单元
    • TP(Texture Processor):纹理处理单元
    • RB(Render Backend):渲染后端
  2. Adreno 7系列特性(Adreno 730/740):
    计算单元:6个SP(Adreno 740)
    ALU配置:1024个ALU(64 ALU/EU × 16 EU)
    Wave大小:64线程(2倍于Mali)
    
  3. FlexRender技术
    • 可变速率着色(VRS)
    • 动态分辨率渲染
    • AI工作负载优化

Adreno计算性能

  1. 理论性能: ``` Adreno 740:
    • FP32: 2.0 TFLOPS
    • FP16: 4.0 TFLOPS
    • INT8: 8.0 TOPS ```
  2. AI专用指令
    • QSEED:专用INT8点积指令
    • Tensor指令:4×4矩阵运算
    • 混合精度:FP16累加到FP32

20.3.3 OpenCL与Vulkan Compute

OpenCL优化策略

  1. 工作组配置: ``` Mali最优配置:
    • 工作组大小:64-128线程
    • 使用local_size_hint优化

    Adreno最优配置:

    • 工作组大小:128-256线程
    • 考虑wave大小对齐 ```
  2. 内存访问模式
    合并访问模式:
    thread[i] → memory[base + i * stride]
    stride应为1以获得最佳性能
    
  3. 向量化操作
    // 标量操作
    float a = in[idx];
    float b = weight[idx];
    float c = a * b;
       
    // 向量化操作(4倍吞吐量)
    float4 a = vload4(idx/4, in);
    float4 b = vload4(idx/4, weight);
    float4 c = a * b;
    

Vulkan Compute优势

  1. 更低的驱动开销
    • 预编译着色器
    • 显式内存管理
    • 多队列提交
  2. 精确的同步控制: ``` Pipeline屏障:
    • 执行依赖
    • 内存依赖
    • 图像布局转换 ```
  3. 子组操作(Vulkan 1.1+):
    subgroupAdd():子组内归约
    subgroupBroadcast():广播
    subgroupShuffle():数据交换
    

20.3.4 Shader优化技术

计算着色器优化

  1. 寄存器压力管理
    优化前:32个float变量 → 溢出到内存
    优化后:重用寄存器,保持在16个以内
    
  2. 共享内存使用
    // 矩阵乘法tile优化
    __local float tileA[TILE_SIZE][TILE_SIZE];
    __local float tileB[TILE_SIZE][TILE_SIZE];
       
    // 协同加载
    tileA[ly][lx] = A[gy * TILE_SIZE + ly][bx * TILE_SIZE + lx];
    barrier(CLK_LOCAL_MEM_FENCE);
    
  3. 循环展开
    #pragma unroll 4
    for(int i = 0; i < N; i += 4) {
        sum += a[i] * b[i];
        sum += a[i+1] * b[i+1];
        sum += a[i+2] * b[i+2];
        sum += a[i+3] * b[i+3];
    }
    

特定优化技巧

  1. Mali优化
    • 使用FP16计算:2倍性能提升
    • 避免分支:使用select()代替if-else
    • 纹理缓存利用:适合权重存储
  2. Adreno优化
    • 利用标量/向量双路径
    • 使用relative addressing
    • 启用编译器自动向量化

20.3.5 内存带宽优化

带宽瓶颈分析

  1. 算术强度计算
    算术强度 = FLOPs / 内存访问字节数
       
    矩阵乘法:O(n³) / O(n²) = O(n)
    逐元素操作:O(n) / O(n) = O(1)
    
  2. 带宽需求估算
    GEMM带宽需求:
    M×K×sizeof(A) + K×N×sizeof(B) + M×N×sizeof(C)
       
    对于1024×1024×1024 FP16 GEMM:
    需求:6GB/s(假设完美缓存)
    

优化技术

  1. 数据重用: ``` 分块策略:
    • L2 cache大小:2MB
    • 块大小:sqrt(2MB / 3 / sizeof(float)) ≈ 256 ```
  2. 纹理缓存利用
    // 权重通过纹理访问
    __read_only image2d_t weights;
    float4 w = read_imagef(weights, sampler, (int2)(x, y));
    
  3. 压缩技术
    • 使用FP16代替FP32:带宽减半
    • 权重量化到INT8:带宽减少75%
    • 稀疏存储:只传输非零值

20.3.6 GPU-CPU协同计算

任务划分策略

  1. 计算密集型 → GPU
    • 矩阵乘法
    • 卷积操作
    • 批量归一化
  2. 控制密集型 → CPU
    • 动态形状处理
    • 条件分支
    • 小批量操作

异步执行模型

  1. 双缓冲模式
    时间线:
    CPU: 准备batch[0] | 准备batch[1] | 准备batch[2]
    GPU:              | 计算batch[0] | 计算batch[1]
    
  2. 命令队列管理
    队列0:计算队列(矩阵运算)
    队列1:传输队列(数据拷贝)
    实现计算与传输重叠
    

统一内存架构(UMA)优化

  1. 零拷贝技术
    // 避免CPU-GPU数据拷贝
    cl_mem buffer = clCreateBuffer(
        context,
        CL_MEM_USE_HOST_PTR,
        size,
        host_ptr,
        NULL
    );
    
  2. 缓存一致性
    • Mali:ACE(AXI Coherency Extensions)
    • Adreno:系统缓存参与
    • 需要适当的内存屏障

20.3.7 LLM推理的GPU优化实践

Attention层GPU实现

  1. Flash Attention适配: ``` 分块大小选择:
    • Mali:32×32(适配16线程warp)
    • Adreno:64×64(适配64线程wave)

    共享内存使用:

    • Q, K块:各8KB
    • 部分和:4KB
    • 总计:20KB(within限制) ```
  2. Softmax优化: ``` // 数值稳定的softmax
    1. 找最大值(reduction)
    2. 计算exp(x - max)
    3. 求和(reduction)
    4. 归一化

    使用子组操作加速reduction ```

KV Cache GPU管理

  1. 分页存储
    页大小:16KB(适配GPU cache line)
    页表:存储在constant memory
    动态分配:使用内存池
    
  2. 压缩策略: ``` FP16存储:标准选择 INT8量化:
    • Per-channel scale
    • 动态范围调整 块稀疏:保留top-k注意力 ```

混合精度推理

  1. 精度分配: ``` 计算精度:
    • GEMM累加:FP32
    • 激活函数:FP16
    • Softmax:FP32(数值稳定性)

    存储精度:

    • 权重:INT8/FP16
    • 激活:FP16
    • KV Cache:INT8/FP16 ```
  2. 自动混合精度: ``` 基于层敏感度分析:
    • Attention层:保持FP16
    • FFN层:可降至INT8
    • 最后几层:保持高精度 ```

20.3.8 性能分析与调优

性能指标

  1. GPU利用率
    计算利用率 = 实际FLOPS / 理论FLOPS
    目标:> 70%
       
    内存利用率 = 实际带宽 / 理论带宽
    目标:> 60%
    
  2. 能效比
    tokens/焦耳 = 生成tokens数 / 能量消耗
    优化目标:最大化能效比
    

调优工具

  1. Mali工具
    • Streamline:性能分析
    • Graphics Analyzer:着色器调试
    • Offline Compiler:预编译优化
  2. Adreno工具
    • Snapdragon Profiler:全面分析
    • Adreno GPU Inspector:深度调试
    • PerfLock:性能锁定

20.4 端侧NPU编程(NNAPI/CoreML)

专用神经网络处理器(NPU)代表了边缘AI计算的未来方向。通过专门的硬件设计,NPU能够以极高的能效比执行深度学习工作负载。本节将深入探讨Android NNAPI和iOS Core ML/ANE的编程模型与优化策略。

20.4.1 Android NNAPI架构

NNAPI概述

Android神经网络API(NNAPI)是Android 8.1引入的硬件加速框架,提供统一的接口访问各种AI加速器。

  1. 架构层次
    应用层(TensorFlow Lite等)
            ↓
    NNAPI C API
            ↓
    NNAPI Runtime
            ↓
    HAL(硬件抽象层)
            ↓
    驱动程序(厂商实现)
            ↓
    硬件加速器(DSP/GPU/NPU)
    
  2. 支持的操作类型
    • 卷积类:CONV_2D、DEPTHWISE_CONV_2D、GROUPED_CONV_2D
    • 激活类:RELU、RELU6、TANH、LOGISTIC
    • 池化类:MAX_POOL_2D、AVERAGE_POOL_2D
    • 归一化:BATCH_NORM、LAYER_NORM
    • 注意力:支持部分Transformer操作
  3. 设备能力查询: ``` 设备特性:
    • getCapabilities():查询支持的操作
    • getPerformanceInfo():获取性能特征
    • getSupportedOperations():检查模型兼容性 ```

NNAPI编程模型

  1. 模型构建流程: ```
    1. 创建模型:ANeuralNetworksModel_create()
    2. 添加操作数:ANeuralNetworksModel_addOperand()
    3. 设置操作数值:ANeuralNetworksModel_setOperandValue()
    4. 添加操作:ANeuralNetworksModel_addOperation()
    5. 标识输入输出:ANeuralNetworksModel_identifyInputsAndOutputs()
    6. 完成模型:ANeuralNetworksModel_finish() ```
  2. 编译优化: ``` 编译选项:
    • 优先级:PREFER_LOW_POWER / PREFER_FAST_SINGLE_ANSWER / PREFER_SUSTAINED_SPEED
    • 缓存:启用编译缓存加速启动
    • 设备选择:指定特定加速器 ```
  3. 执行模式: ``` 同步执行:
    • ANeuralNetworksExecution_compute()
    • 阻塞直到完成

    异步执行:

    • ANeuralNetworksExecution_startCompute()
    • 使用事件或回调 ```

内存管理策略

  1. 内存类型
    ANEURALNETWORKS_TENSOR_FLOAT32:32位浮点
    ANEURALNETWORKS_TENSOR_INT32:32位整数
    ANEURALNETWORKS_TENSOR_QUANT8_ASYMM:非对称量化INT8
    ANEURALNETWORKS_TENSOR_QUANT8_SYMM:对称量化INT8
    
  2. 共享内存优化: ``` 使用AHardwareBuffer:
    • 零拷贝在CPU/GPU/NPU间共享
    • 减少内存占用
    • 提高数据传输效率 ```
  3. 内存池管理: ``` 创建内存池:
    • 预分配大块内存
    • 减少动态分配开销
    • 支持多个执行共享 ```

20.4.2 iOS CoreML与ANE

CoreML框架架构

CoreML是苹果的机器学习框架,与Apple Neural Engine(ANE)紧密集成:

  1. 框架组件
    Vision/Natural Language/Speech
               ↓
          Core ML API
               ↓
      Core ML Compiler
               ↓
    Metal Performance Shaders / ANE
               ↓
         硬件(CPU/GPU/ANE)
    
  2. 模型格式
    • .mlmodel:标准CoreML格式
    • .mlpackage:支持更复杂模型
    • 支持动态形状和灵活输入
  3. ANE特性: ``` Apple Neural Engine(A14及以后):
    • 16个神经核心(A14/A15)
    • 32个神经核心(M1 Pro/Max)
    • 11 TOPS(A14)到15.8 TOPS(A15) ```

CoreML编程接口

  1. 模型加载与配置: ``` 配置选项: MLModelConfiguration:
    • computeUnits:.all / .cpuOnly / .cpuAndGPU / .cpuAndNeuralEngine
    • parameters:自定义参数
    • modelDisplayName:模型标识 ```
  2. 批处理优化: ``` MLBatchProvider协议:
    • 支持批量推理
    • 自动优化批次执行
    • 减少调度开销 ```
  3. 异步预测: ``` prediction(from:options:completionHandler:)
    • 非阻塞执行
    • 后台队列处理
    • 适合实时应用 ```

ANE优化技术

  1. 支持的层类型: ``` 高效层:
    • 卷积(1x1、3x3、5x5)
    • 深度卷积
    • 全连接
    • 池化(最大、平均)
    • 激活(ReLU、Sigmoid、Tanh)

    条件支持:

    • 自注意力(需要特定模式)
    • LSTM/GRU(展开后) ```
  2. 精度与性能: ``` ANE精度模式:
    • Float16:默认精度
    • Float32:回退到GPU/CPU
    • INT8:通过量化工具

    性能特征:

    • 固定延迟:批大小不影响延迟
    • 高吞吐量:充分利用并行性 ```
  3. 内存布局优化: ``` ANE偏好布局:
    • NCHW格式
    • 16字节对齐
    • 连续内存块 ```

20.4.3 NPU编程模型

通用NPU特性

  1. 计算模式: ``` 数据流架构:
    • 无指令获取开销
    • 流水线并行
    • 确定性延迟

    脉动阵列:

    • 规则的数据流动
    • 高度并行MAC单元
    • 适合矩阵运算 ```
  2. 内存层次: ``` 片上SRAM:~MB级别
    • 权重缓存
    • 激活缓存
    • 中间结果

    DMA引擎:

    • 预取权重
    • 流式激活
    • 双缓冲 ```
  3. 量化支持: ``` 硬件量化:
    • INT8/INT4计算
    • 动态定点
    • 非对称量化

    量化参数:

    • Per-tensor
    • Per-channel
    • Per-layer自适应 ```

NPU特定优化

  1. 算子融合
    常见融合模式:
    Conv + BN + ReLU → 单个NPU指令
    MatMul + Add + Activation → 融合操作
       
    好处:
    - 减少内存访问
    - 提高计算密度
    - 降低功耗
    
  2. 数据布局转换
    NPU友好布局:
    输入:NHWC → NC/32HWC32(32通道分块)
    权重:OIHW → O/32I/32HW32(双向分块)
       
    转换时机:
    - 离线:模型转换时
    - 在线:首次加载时
    
  3. 流水线优化: ``` 三级流水线:
    1. DMA读取下一层权重
    2. NPU计算当前层
    3. DMA写回上一层结果

    关键:平衡各级时间 ```

20.4.4 算子映射策略

映射决策

  1. 算子分类: ``` NPU原生支持:
    • 标准卷积
    • 矩阵乘法
    • 基本激活

    部分支持:

    • 需要分解的复杂算子
    • 特殊padding模式

    回退CPU/GPU:

    • 自定义算子
    • 动态形状
    • 条件执行 ```
  2. 分割策略: ``` 子图划分原则:
    • 最大化NPU利用率
    • 最小化数据传输
    • 避免频繁切换

    启发式规则:

    • 连续NPU算子聚合
    • 考虑内存占用
    • 平衡延迟与吞吐 ```
  3. 动态调度: ``` 运行时决策:
    • 基于输入大小
    • 基于系统负载
    • 基于功耗预算 ```

LLM特定映射

  1. Attention机制
    分解策略:
    Q、K、V投影 → NPU矩阵乘法
    注意力分数 → NPU矩阵乘法
    Softmax → CPU/GPU(数值精度)
    值聚合 → NPU矩阵乘法
    
  2. FFN层: ``` 优化映射:
    • 第一个线性层:NPU执行
    • 激活函数:根据类型决定
    • 第二个线性层:NPU执行
    • 残差连接:NPU支持 ```
  3. KV Cache处理: ``` 存储位置:
    • 热cache:NPU SRAM
    • 温cache:系统内存
    • 冷cache:压缩存储

    更新策略:

    • 增量更新
    • 批量搬迁 ```

20.4.5 混合精度推理

精度策略

  1. 层级精度分配: ``` 敏感层(FP16/FP32):
    • 第一层和最后一层
    • Attention计算
    • 层归一化

    容忍层(INT8/INT4):

    • 中间FFN层
    • 深层卷积
    • 投影层 ```
  2. 动态量化: ``` 校准过程:
    1. 收集激活统计
    2. 计算量化参数
    3. 验证精度损失
    4. 调整量化策略 ```
  3. 混合执行: ``` 执行流程:
    • INT8计算 → INT32累加
    • FP16反量化
    • FP32关键操作
    • INT8重量化 ```

量化感知训练适配

  1. QAT for NPU: ``` 训练策略:
    • 模拟NPU量化行为
    • 插入伪量化节点
    • 学习量化参数

    NPU特定约束:

    • 支持的量化粒度
    • 硬件舍入模式
    • 饱和行为 ```
  2. 后训练优化: ``` PTQ流程:
    1. 原始模型分析
    2. 敏感度评估
    3. 逐层量化
    4. 精度恢复 ```

20.4.6 跨平台兼容性

统一抽象层

  1. 中间表示: ``` 通用IR设计:
    • 算子定义标准化
    • 数据类型统一
    • 属性规范化

    平台映射:

    • NNAPI:通过NDK
    • CoreML:通过转换器
    • 自定义NPU:厂商SDK ```
  2. 性能可移植性: ``` 自适应策略:
    • 运行时能力检测
    • 动态算子选择
    • 性能模型预测 ```
  3. 回退机制
    多级回退:
    NPU不支持 → GPU加速 → CPU执行
       
    保证:
    - 功能完整性
    - 精度一致性
    - 性能可接受
    

部署最佳实践

  1. 模型准备: ``` 优化步骤:
    1. 模型剪枝/压缩
    2. 算子融合/重写
    3. 量化/格式转换
    4. 平台特定优化 ```
  2. 测试验证: ``` 验证维度:
    • 功能正确性
    • 性能指标
    • 功耗特性
    • 内存占用 ```
  3. 持续优化: ``` 监控指标:
    • 推理延迟分布
    • 能效比趋势
    • 热点分析
    • 用户体验反馈 ```

20.4.7 NPU上的LLM优化

架构适配

  1. 模型分片: ``` 垂直分片:
    • 按层分割
    • NPU处理计算密集层
    • CPU处理控制逻辑

    水平分片:

    • 按通道/头分割
    • 并行处理
    • 结果聚合 ```
  2. 内存优化: ``` 策略组合:
    • 权重压缩:4-bit量化
    • KV缓存:8-bit存储
    • 激活:混合精度
    • 梯度:不需要(推理) ```
  3. 调度优化: ``` 批处理策略:
    • 连续批处理
    • 动态批大小
    • 优先级调度

    延迟隐藏:

    • 预取下一层
    • 异步后处理
    • 流水线并行 ```

能效优化

  1. 功耗感知调度: ``` 动态策略:
    • 低功耗模式:降频+小批量
    • 均衡模式:适中配置
    • 性能模式:满频+大批量 ```
  2. 热管理: ``` 温控策略:
    • 温度监控
    • 动态降频
    • 任务迁移
    • 主动散热 ```
  3. 电池优化: ``` 省电技术:
    • 批量处理请求
    • 空闲时深度睡眠
    • 避免频繁唤醒
    • 预测性关闭 ```