第31章：ISP与视频编解码器架构对比

ISP（图像信号处理器）和视频编解码器作为多媒体处理系统中的两大核心组件，虽然处理对象和目标不同，但在架构设计上存在诸多相似之处。本章将深入对比分析两者的架构特点，探讨硬件资源复用的可能性，为融合型多媒体处理器设计提供理论基础。通过理解两者的共性与差异，工程师可以更好地进行跨领域的架构创新，实现更高效的硬件资源利用。

31.1 ISP与Video Codec处理流水线对比

31.1.1 处理目标的本质差异

ISP和视频编解码器虽然都处理图像数据，但其根本目标存在显著差异：

ISP的核心目标：

将原始传感器数据转换为高质量的可视图像
补偿光学和传感器缺陷
增强图像质量和视觉效果
实时处理，低延迟要求（通常<100ms）
保真度优先：尽可能还原真实场景

Video Codec的核心目标：

压缩视频数据，减少存储和传输带宽
在给定码率下最大化重建质量
支持随机访问和错误恢复
延迟要求因应用而异（直播vs离线编码）
率失真优化：在质量和压缩率间权衡

31.1.2 数据流特征对比

ISP和Codec的数据流组织呈现不同特点：

ISP数据流特征：
输入：Bayer Raw → 线性流处理 → RGB/YUV输出

- 单向处理流水线
- 像素级或行缓冲处理
- 空间局部性强
- 实时流处理，不可逆

Codec数据流特征：
输入：YUV → 块划分 → 预测/变换/量化 → 码流

- 迭代优化结构
- 块级处理（8x8, 16x16, 64x64等）
- 时空相关性利用
- 支持多遍处理和率失真优化

31.1.3 处理流水线架构对比

两种处理器的典型流水线结构展现出不同的设计理念：

ISP典型流水线：

Sensor → BPC → Demosaic → Denoise → CCM → Gamma → Output
         ↓       ↓          ↓         ↓      ↓
      统计收集  3A反馈   质量监控  色彩调整  格式转换

H.265/HEVC编码器流水线：

Input → 块划分 → 帧内/帧间预测 → 变换量化 → 熵编码 → 码流
          ↓           ↓              ↓          ↓
       CTU分析    运动估计/补偿   率失真优化  CABAC

31.1.4 硬件资源需求对比

两种处理器对硬件资源的需求呈现不同特点：

| 资源类型 | ISP需求 | Video Codec需求 |

资源类型	ISP需求	Video Codec需求
计算单元	大量MAC（滤波）	大量SAD/SATD（预测）
片上存储	Line Buffer为主	参考帧缓存+重建缓存
外部带宽	输入输出流式访问	参考帧随机访问
控制复杂度	相对简单的流控	复杂的模式决策
并行度	像素级并行	块级+流水线并行

31.2 块处理架构：MB/CTU vs ISP Tile

31.2.1 视频编码的块划分策略

现代视频编码标准采用层次化的块划分结构：

H.264/AVC宏块（MB）结构：

16x16 MB → 划分模式：

- 16x16（1个块）
- 16x8（2个块）  
- 8x16（2个块）
- 8x8（4个块）→ 继续细分至4x4

H.265/HEVC编码树单元（CTU）结构：

64x64 CTU → 四叉树递归划分：

- 64x64 CU
- 32x32 CU（4个）
- 16x16 CU（16个）
- 8x8 CU（64个）
每个CU可进一步划分为PU和TU

31.2.2 ISP的Tile处理模式

ISP采用Tile处理主要出于内存带宽和缓存优化考虑：

ISP Tile组织特点：

固定大小分块（如64x64, 128x128）
重叠区域处理（Overlap）用于边界滤波
简单的光栅扫描顺序
主要目的：减少片外内存访问

Tile处理示例（128x128 tiles，16像素重叠）：
┌─────────────┬─────────────┐
│   Tile 0    │   Tile 1    │
│  128x128    │  128x128    │
├─────────────┼─────────────┤
│   Tile 2    │   Tile 3    │
│  128x128    │  128x128    │
└─────────────┴─────────────┘
         ↑ 16像素重叠区域

31.2.3 块处理的硬件实现差异

Video Codec块处理硬件：

特点：

- 多种块大小并存
- 需要块大小决策逻辑
- 变换单元需支持多种尺寸（4x4到32x32）
- 预测单元需处理不规则划分

硬件挑战：

- 不规则内存访问模式
- 复杂的控制状态机
- 多模式并行处理单元

ISP Tile处理硬件：

特点：

- 固定块大小
- 规则的处理顺序
- 简化的地址生成
- 流水线友好

硬件优势：

- 简单的控制逻辑
- 规则的内存访问
- 易于并行化

31.2.4 边界处理策略对比

块/Tile边界处理是两种架构都需要解决的关键问题：

Codec去块滤波（Deblocking）：

自适应滤波强度
基于量化参数和运动矢量
需要重建像素参与
计算复杂度高

ISP Tile边界融合：

重叠区域加权融合
简单的线性混合
不需要迭代处理
计算复杂度低

31.3 运动估计硬件：ME vs ISP光流计算

31.3.1 运动估计在Video Codec中的应用

视频编码中的运动估计（ME）是压缩的核心技术：

运动估计算法层次：

整像素ME → 分像素ME → 运动矢量优化
   ↓          ↓           ↓
 全搜索    1/2像素精度  率失真优化
 快速算法   1/4像素精度  运动矢量预测

典型ME硬件架构：

参考帧缓存 → 搜索窗口缓存 → SAD/SATD阵列 → 比较树 → MV输出
                   ↓              ↓
              当前块缓存      分像素插值

31.3.2 ISP中的光流计算应用

ISP使用光流主要用于：

视频稳定（EIS）
运动自适应降噪
HDR帧对齐
超分辨率

光流计算方法：

金字塔光流：
Level 3 (1/8分辨率) → 粗略估计
         ↓
Level 2 (1/4分辨率) → 细化
         ↓  
Level 1 (1/2分辨率) → 细化
         ↓
Level 0 (全分辨率) → 最终光流场

Lucas-Kanade光流硬件实现：

梯度计算 → 光流方程构建 → 最小二乘求解
   Ix,Iy,It     IxIx,IxIy,IyIy    矩阵求逆

31.3.3 运动估计硬件复用可能性分析

ME和光流计算存在硬件复用潜力：

可复用组件：

SAD/SSD计算阵列 - ME：块匹配度量 - 光流：块相似性初始估计
插值单元 - ME：分像素精度 - 光流：亚像素精度
搜索控制逻辑 - ME：搜索模式（全搜索、菱形、六边形） - 光流：迭代优化控制

复用设计示例：

统一运动处理单元（UME）：
        模式选择
           ↓
    ┌──────┴──────┐
    │             │
  ME模式      光流模式
    │             │
    └──────┬──────┘
           ↓
     共享计算核心
    （SAD/梯度/插值）

31.3.4 精度与性能权衡

| 参数 | Video Codec ME | ISP光流 |

参数	Video Codec ME	ISP光流
搜索范围	±64~±256像素	±16~±32像素
精度要求	1/4像素	1/8~1/16像素
块大小	4x4~64x64可变	8x8~16x16固定
实时性	30~60fps	必须实时
迭代次数	多次RDO	3~5次迭代

31.4 变换域处理：DCT/DST vs ISP频域滤波

31.4.1 视频编码的变换处理

离散余弦变换（DCT）在编码中的作用：

空域残差 → DCT → 频域系数 → 量化 → 熵编码
                      ↓
                  能量集中
                  去相关性

H.265/HEVC变换类型：

4x4 DST（用于帧内4x4亮度）
4x4, 8x8, 16x16, 32x32 DCT
非方形变换（用于非方形PU）

DCT硬件实现优化：

蝶形运算结构（8点DCT）：
x[0] ─┬─⊕───C0────┬─ X[0]
      └─⊖───C4────┼─ X[4]
x[1] ─┬─⊕───C1────┼─ X[1]
      └─⊖───C5────┼─ X[5]
...（省略）

31.4.2 ISP中的频域处理应用

ISP使用频域处理主要用于：

降噪应用：

空域 → FFT → 频域滤波 → IFFT → 空域
             ↓
        噪声功率谱估计
        自适应阈值处理

细节增强：

高频增强：
H(u,v) = 1 + α·Hhigh(u,v)
其中Hhigh为高通滤波器

31.4.3 变换单元硬件对比

Codec变换单元特点：

多种变换大小支持
正变换和反变换
定点实现（16位精度典型）
流水线深度：3~5级

ISP频域处理单元特点：

固定大小FFT（64x64, 128x128）
复数运算支持
浮点或高精度定点
更深的流水线（8~12级）

31.4.4 统一变换处理架构

可重构变换引擎设计：
┌─────────────────────────┐
│   配置寄存器            │
│  (模式/大小/精度)       │
└───────┬─────────────────┘
        ↓
┌───────────────────────┐
│  可重构蝶形网络       │
│  - DCT/DST模式        │
│  - FFT模式            │
│  - Hadamard模式       │
└───────────────────────┘
        ↓
┌───────────────────────┐
│  系数处理单元         │
│  - 量化（Codec）      │
│  - 滤波（ISP）        │
└───────────────────────┘

31.5 帧间预测与ISP时域降噪的相似性

31.5.1 帧间预测技术原理

视频编码的帧间预测利用时间冗余：

参考帧 → 运动补偿 → 预测块 → 残差 = 当前块 - 预测块
           ↓
      运动矢量指导
      分像素插值

预测模式：

单向预测（P帧）
双向预测（B帧）
多参考帧预测
加权预测

31.5.2 ISP时域降噪机制

时域降噪流程：
前帧 → 运动对齐 → 加权融合 → 降噪输出
          ↓          ↓
     运动检测    噪声估计
     SAD/光流    时域一致性

融合权重计算：

w = f(运动量, 噪声水平, 场景变化)
out = w·current + (1-w)·previous

31.5.3 硬件架构相似性分析

共同需求：

帧缓存管理
运动补偿/对齐
像素融合/残差计算
亚像素插值

统一时域处理单元：

┌────────────────────────┐
│   帧缓存控制器         │
├────────────────────────┤
│   运动处理单元         │
│  - ME（Codec）         │
│  - 光流（ISP）         │
├────────────────────────┤
│   补偿/对齐单元        │
│  - MC（Codec）         │
│  - Warping（ISP）      │
├────────────────────────┤
│   融合/残差单元        │
│  - 差值（Codec）       │
│  - 加权（ISP）         │
└────────────────────────┘

31.5.4 性能指标对比

| 指标 | 帧间预测 | 时域降噪 |

指标	帧间预测	时域降噪
参考帧数	1~4帧	3~5帧
运动精度	1/4像素	像素级
块处理	可变大小	固定窗口
延迟	可容忍	低延迟
质量指标	PSNR/SSIM	SNR提升

31.6 熵编码与ISP压缩：统计建模对比

31.6.1 视频编码中的熵编码技术

熵编码是视频压缩的最后一步，将量化系数转换为比特流：

H.264/AVC CAVLC（基于上下文的自适应变长编码）：

量化系数 → 游程编码 → 查表 → 比特流
             ↓
         零游程统计
         非零系数统计

H.265/HEVC CABAC（基于上下文的自适应二进制算术编码）：

语法元素 → 二值化 → 上下文建模 → 算术编码 → 比特流
              ↓          ↓           ↓
          固定/自适应  概率更新    区间细分

CABAC硬件实现挑战：

高度串行化处理
复杂的上下文依赖
概率模型实时更新
吞吐量限制（1-2 bins/cycle）

31.6.2 ISP中的数据压缩需求

ISP压缩主要用于减少内存带宽：

无损压缩应用场景：

帧缓存压缩（减少DDR带宽）
Tile间数据传输
统计信息压缩

典型ISP压缩算法：

简单预测编码：
P(x,y) = f(左, 上, 左上)
残差 = 原始 - P(x,y)
编码(残差) → 霍夫曼/算术编码

帧缓冲压缩（FBC）：

固定压缩率方案（如4:1）：

- 块划分（16x4像素）
- 预测（平面、DC、方向）
- 残差量化
- 定长编码

31.6.3 统计建模方法对比

Video Codec统计模型：

复杂度：高

- 多种上下文模型（300+）
- 自适应概率更新
- 语法元素相关性建模

目标：最大压缩率

ISP压缩统计模型：

复杂度：低

- 简单预测模型
- 固定概率表
- 局部相关性利用

目标：固定压缩率、低延迟

31.6.4 硬件实现对比

| 特性 | Codec熵编码 | ISP压缩 |

特性	Codec熵编码	ISP压缩
压缩率	可变（高）	固定（2:1~4:1）
延迟	高（ms级）	低（μs级）
硬件复杂度	高	低
内存需求	大（上下文表）	小
功耗	高	低

31.7 内存带宽优化：参考帧缓存vs Line Buffer

31.7.1 Video Codec参考帧管理

参考帧缓存架构：

DDR → L2 Cache → L1 Cache → 处理单元
         ↓           ↓
    帧级缓存    CTU级缓存
    (MB级)      (64x64)

参考帧访问特点：

随机访问模式（由运动矢量决定）
多参考帧并发访问
大容量需求（4K: ~12MB/帧）
带宽密集（4K@60fps: >10GB/s）

带宽优化技术：

参考帧压缩 - 4:1~8:1压缩率 - 快速解压硬件
智能预取 - 基于运动矢量预测 - 自适应预取窗口
层次化缓存

三级缓存结构：
L3: DDR中完整参考帧
L2: 片上SRAM（搜索窗口）
L1: 寄存器阵列（当前处理块）

31.7.2 ISP Line Buffer设计

Line Buffer组织：

典型5x5滤波器的Line Buffer：
┌─────────────────────┐
│  Line N-2 (oldest)  │ → 移出
├─────────────────────┤
│  Line N-1           │
├─────────────────────┤
│  Line N (center)    │ → 处理
├─────────────────────┤
│  Line N+1           │
├─────────────────────┤
│  Line N+2 (newest)  │ ← 移入
└─────────────────────┘

Line Buffer优化策略：

复用设计 - 多个处理模块共享 - 动态分配
双缓冲/乒乓结构

Buffer A: 读取当前行
Buffer B: 写入下一行
交替切换

分块Line Buffer - 减少片上存储 - 支持Tile处理

31.7.3 内存访问模式对比

Codec参考帧访问：

特征：

- 2D块访问（8x8, 16x16等）
- 不规则地址模式
- 跨页访问频繁
- Cache命中率低（运动场景）

ISP Line Buffer访问：

特征：

- 顺序行访问
- 规则地址模式
- 高局部性
- Cache友好

31.7.4 统一内存架构设计

融合内存子系统：
┌──────────────────────────┐
│    模式配置寄存器        │
├──────────────────────────┤
│    地址生成单元          │
│  - 2D块地址（Codec）     │
│  - 行地址（ISP）         │
├──────────────────────────┤
│    可重构缓存            │
│  - 参考帧模式            │
│  - Line Buffer模式       │
├──────────────────────────┤
│    带宽仲裁器            │
│  - QoS控制              │
│  - 优先级调度           │
└──────────────────────────┘

31.8 硬件加速器复用：ISP与Codec共享单元设计

31.8.1 可复用硬件单元识别

高复用潜力单元：

插值单元 - Codec：分像素ME/MC - ISP：图像缩放、畸变校正
滤波单元 - Codec：环路滤波、去块效应 - ISP：降噪、锐化
变换单元 - Codec：DCT/DST - ISP：频域处理
统计单元 - Codec：率失真计算 - ISP：直方图、3A统计

31.8.2 统一加速器架构设计

多模式处理引擎（MPE）：
┌────────────────────────────┐
│      控制接口              │
│   (模式/参数配置)          │
├────────────────────────────┤
│    共享计算核心            │
├──────────┬─────────────────┤
│  插值    │    滤波         │
│  引擎    │    引擎         │
├──────────┼─────────────────┤
│  变换    │    统计         │
│  引擎    │    引擎         │
├──────────┴─────────────────┤
│    本地存储器              │
│  (可重构SRAM)              │
├────────────────────────────┤
│    DMA控制器               │
└────────────────────────────┘

31.8.3 资源共享的挑战与解决方案

挑战1：性能需求冲突

问题：ISP需要实时，Codec可容忍延迟
解决：优先级调度、时分复用

挑战2：精度要求差异

问题：ISP通常需要更高精度
解决：可配置位宽、动态精度调整

挑战3：控制复杂度

问题：两种模式切换开销
解决：快速上下文切换、影子寄存器

31.8.4 实际设计案例分析

高通Hexagon DSP共享架构：

特点：

- HVX向量单元同时服务ISP和Codec
- 512位SIMD宽度
- 可编程架构
- 动态负载均衡

Apple Neural Engine集成：

特点：

- CNN加速器服务多种图像任务
- ISP中的语义分割
- 视频编码的智能决策
- 统一内存访问

本章小结

本章深入对比了ISP与视频编解码器的架构设计，揭示了两者在处理流水线、内存架构、计算单元等方面的相似性与差异性。主要发现包括：

架构共性：尽管处理目标不同，ISP和Codec在块处理、运动估计、变换域处理、时域处理等方面存在显著的架构相似性，为硬件复用提供了理论基础。
性能权衡差异：ISP强调实时性和图像质量，Codec注重压缩效率和率失真优化，这导致了不同的设计优先级和实现策略。
内存架构对比：Codec的参考帧管理需要处理随机访问和大容量缓存，而ISP的Line Buffer设计更适合流式处理，两者的内存优化策略存在互补性。
硬件复用潜力：插值单元、滤波单元、变换单元和统计单元等核心组件具有高度的复用潜力，通过可重构设计可以实现资源共享。
融合架构趋势：现代SoC设计越来越倾向于统一的多媒体处理架构，通过共享硬件加速器和统一内存子系统，实现更高的资源利用率和能效比。

关键公式总结：

运动估计匹配准则：$SAD = \sum_{i,j}|f(i,j) - g(i+dx, j+dy)|$
光流约束方程：$I_x u + I_y v + I_t = 0$
DCT变换：$F(u,v) = \sum_{x,y} f(x,y) \cos\frac{(2x+1)u\pi}{2N} \cos\frac{(2y+1)v\pi}{2N}$
时域融合权重：$w = \exp(-\frac{|\Delta|^2}{2\sigma^2})$

练习题

基础理解题

练习31.1 ISP和Video Codec的处理目标有何本质区别？这些区别如何影响它们的架构设计？

提示

考虑实时性要求、质量目标、压缩需求等方面。

答案

ISP和Codec的本质区别：

处理目标： - ISP：提升图像质量，补偿硬件缺陷 - Codec：压缩数据，减少带宽
实时性： - ISP：严格实时，延迟<100ms - Codec：可容忍延迟，支持多遍处理
质量优化： - ISP：保真度优先，还原真实场景 - Codec：率失真优化，压缩率与质量平衡
架构影响： - ISP采用流水线架构，单向处理 - Codec采用迭代架构，支持反馈优化

练习31.2 计算一个4K视频（3840×2160）在60fps下，如果每个像素需要访问3×3邻域进行滤波处理，理论上需要的内存带宽是多少？假设每个像素是12位。

提示

考虑读取和写入带宽，以及邻域重叠。

答案

计算过程：

像素总数：3840 × 2160 = 8,294,400 像素/帧
每像素数据量：12位 = 1.5字节
3×3滤波需要读取9个像素，但考虑行缓存，实际新读取约3个像素/输出像素
读带宽：8,294,400 × 3 × 1.5 × 60 = 2.24 GB/s
写带宽：8,294,400 × 1.5 × 60 = 747 MB/s
总带宽：2.24 + 0.747 ≈ 2.99 GB/s

练习31.3 在H.265/HEVC中，一个64×64的CTU最多可以划分成多少个8×8的CU？如果允许划分到4×4，最多是多少个？

提示

计算面积比例。

答案

8×8 CU的情况： - 64×64 = 4096 像素 - 8×8 = 64 像素 - 最多CU数：4096 ÷ 64 = 64个
4×4 CU的情况： - 4×4 = 16 像素 - 最多CU数：4096 ÷ 16 = 256个

设计分析题

练习31.4 设计一个统一的插值单元，能够同时支持Video Codec的1/4像素精度运动补偿和ISP的任意倍率图像缩放。描述主要的设计考虑和硬件架构。

提示

考虑不同的插值滤波器需求、精度要求和访问模式。

答案

统一插值单元设计：

滤波器库： - 6-tap滤波器（H.264 1/2像素） - 8-tap滤波器（HEVC） - Lanczos滤波器（高质量缩放） - 双线性滤波器（快速模式）
架构组件：

输入缓存 → 系数ROM → 可配置FIR → 输出格式化
             ↓           ↓
        模式选择    精度控制

关键特性： - 可变tap数支持（2~8 tap） - 可编程系数 - 分离式处理（水平+垂直） - 多种舍入模式
性能优化： - 并行处理多个像素 - 系数对称性利用 - 流水线设计

练习31.5 如果要设计一个同时支持ISP Line Buffer和Codec参考帧缓存的统一内存系统，需要考虑哪些关键因素？给出一个可行的架构方案。

提示

考虑访问模式、带宽需求、存储容量的差异。

答案

统一内存系统设计：

关键考虑因素： - 访问粒度：行 vs 块 - 访问模式：顺序 vs 随机 - 容量需求：KB级 vs MB级 - 实时性：严格 vs 宽松
架构方案：

分区SRAM设计：
┌─────────────────┐
│  Bank 0-3       │ ← ISP Line Buffer模式
│  (各2KB)        │   (快速行访问)
├─────────────────┤
│  Bank 4-7       │ ← Codec缓存模式
│  (各8KB)        │   (块缓存)
├─────────────────┤
│  可重构区域     │ ← 动态分配
│  (16KB)         │
└─────────────────┘

访问仲裁： - ISP高优先级（实时） - Codec批量访问 - 交织访问调度
地址映射： - 模式相关的地址译码 - 避免bank冲突

深度思考题

练习31.6 在AI驱动的视频处理中，如何设计一个三方共享的硬件架构，同时支持ISP处理、视频编解码和神经网络推理？讨论主要的设计权衡。

提示

考虑不同工作负载的计算特征、内存访问模式和实时性要求。

答案

三方共享架构设计：

计算核心统一： - MAC阵列：CNN卷积、ISP滤波、Codec变换 - 向量单元：激活函数、像素运算 - 专用单元：熵编码、特殊函数
内存层次设计：

L3: DDR (GB级) - 模型权重、参考帧
L2: SRAM (MB级) - 特征图、图像块
L1: RegFile (KB级) - 内核、滤波系数

调度策略： - 时分复用：ISP优先（实时） - 空分复用：并行处理单元 - 任务级并行：流水线化
设计权衡： - 通用性 vs 效率 - 面积 vs 性能 - 功耗 vs 灵活性
实现挑战： - 复杂的控制逻辑 - 多模式切换开销 - 资源竞争管理

练习31.7 随着视频分辨率向8K甚至16K发展，传统的ISP和Codec架构面临哪些挑战？提出可能的架构创新方向。

提示

从带宽、存储、计算复杂度、功耗等多个维度分析。

答案

超高分辨率挑战与创新：

主要挑战： - 带宽墙：16K@60fps需要>100GB/s - 存储爆炸：单帧>500MB - 计算复杂度：O(n²)增长 - 功耗限制：移动设备难以承受
架构创新方向：

a) 分层处理：

多分辨率并行处理
感兴趣区域（ROI）优先
自适应质量分配

b) 近数据计算：

存算一体架构
3D堆叠内存
智能缓存预取

c) AI辅助处理：

超分辨率替代原生高分辨率
智能跳帧和插帧
内容感知压缩

d) 新型编码范式：

基于机器学习的编码
语义编码
端到端优化

系统级优化： - 分布式处理 - 边缘-云协同 - 自适应码率

练习31.8 比较分析ISP的3A（AE/AF/AWB）统计收集和Video Codec的率失真统计计算，能否设计一个统一的统计引擎？

提示

分析两种统计的数学本质和硬件需求。

答案

统一统计引擎分析：

3A统计特征： - 直方图计算（亮度分布） - 区域加权平均（测光） - 色彩统计（白平衡） - 对比度计算（对焦）
率失真统计特征： - SAD/SSD计算 - 比特率估计 - 拉格朗日代价 - 概率模型更新
共同硬件需求： - 累加器阵列 - 比较器树 - 直方图单元 - 查找表
统一架构设计：

可配置统计引擎：
┌────────────────┐
│  区域选择器    │
├────────────────┤
│  统计核心      │
│  - 累加器×N    │
│  - 直方图×M    │
│  - 比较器树    │
├────────────────┤
│  后处理单元    │
│  - 归一化      │
│  - 加权        │
└────────────────┘

实现挑战： - 精度要求差异 - 更新频率不同 - 配置复杂度高

常见陷阱与错误（Gotchas）

1. 架构设计陷阱

陷阱：盲目追求硬件复用而忽视性能影响

错误示例：强制ISP和Codec共享所有计算单元
正确做法：识别关键路径，选择性复用非关键单元

陷阱：忽视模式切换开销

错误示例：频繁切换ISP/Codec模式
正确做法：批量处理，减少切换频率

2. 内存系统陷阱

陷阱：简单合并不同的缓存需求

错误示例：用大容量SRAM同时满足Line Buffer和参考帧缓存
正确做法：分层设计，不同访问模式使用不同优化策略

陷阱：忽视带宽竞争

错误示例：ISP和Codec同时访问DDR
正确做法：带宽预算和QoS管理

3. 性能优化陷阱

陷阱：过度优化局部而损害全局

错误示例：为Codec优化的变换单元不适合ISP频域处理
正确做法：平衡各方需求，可配置设计

陷阱：忽视实时性差异

错误示例：用Codec的迭代优化思路设计ISP
正确做法：明确实时性边界，分别优化

4. 功耗设计陷阱

陷阱：共享单元始终全功率运行

错误示例：统一加速器无法部分关断
正确做法：细粒度电源门控，按需激活

最佳实践检查清单

架构设计阶段

[ ] 明确识别可复用和专用组件
[ ] 评估不同工作负载的性能需求
[ ] 设计灵活的模式切换机制
[ ] 考虑未来扩展性（新编码标准、新ISP功能）

硬件实现阶段

[ ] 实现可配置的数据通路宽度
[ ] 设计高效的仲裁和调度机制
[ ] 优化关键路径时序
[ ] 实现细粒度的时钟和电源门控

内存子系统设计

[ ] 分析并优化访问模式
[ ] 实现多级缓存层次
[ ] 设计带宽分配和QoS策略
[ ] 考虑数据预取和压缩

验证和测试

[ ] 覆盖所有模式组合
[ ] 验证模式切换的正确性
[ ] 压力测试带宽和延迟
[ ] 评估最坏情况功耗

系统集成

[ ] 定义清晰的软硬件接口
[ ] 实现高效的驱动和中间件
[ ] 支持动态资源分配
[ ] 提供性能监控和调试接口

性能优化

[ ] Profile关键工作负载
[ ] 识别性能瓶颈
[ ] 优化数据布局和访问模式
[ ] 平衡延迟、吞吐量和功耗