第12章：ISP存储架构与数据流

存储架构是ISP设计的核心挑战之一。现代图像传感器产生的数据量巨大——4K@60fps视频流的原始数据带宽可达12Gbps，8K视频更是高达50Gbps。如何在有限的片上存储资源和内存带宽约束下，实现高效的数据流处理，直接决定了ISP的性能、功耗和成本。本章深入探讨ISP存储架构的设计原理、优化策略和工程实践，涵盖从Line Buffer到DDR带宽优化的完整存储层次。

12.1 Line Buffer设计与优化策略

12.1.1 Line Buffer基本原理

Line Buffer是ISP中最基础也是最关键的存储结构。大多数图像处理算法需要访问像素的邻域信息，比如3×3、5×5甚至更大的滤波窗口。由于图像数据以光栅扫描顺序（raster scan）到达，直接存储整帧图像需要巨大的片上存储（一帧4K图像需要24MB），这在成本和功耗上都不可接受。

Line Buffer通过只存储必要的图像行数来解决这个问题。对于一个N×N的滤波器，理论上只需要存储N-1行数据：

对于3×3滤波器：
当前输入行: [正在输入的像素流]
Line Buffer 1: [前一行的完整数据]
Line Buffer 2: [前两行的完整数据]

滑动窗口:
┌─────┬─────┬─────┐
│ P00 │ P01 │ P02 │ ← Line Buffer 2
├─────┼─────┼─────┤
│ P10 │ P11 │ P12 │ ← Line Buffer 1
├─────┼─────┼─────┤
│ P20 │ P21 │ P22 │ ← 当前输入
└─────┴─────┴─────┘

12.1.2 存储需求最小化

Line Buffer的存储需求计算公式：

$$\text{Memory}_{LB} = (N-1) \times W \times BPP$$ 其中：

N: 滤波器高度
W: 图像宽度
BPP: 每像素位数（Bits Per Pixel）

实际设计中的优化策略：

共享Line Buffer：多个处理模块可以共享Line Buffer，通过精心的调度避免冲突。例如，去噪模块和锐化模块都需要5×5窗口，可以共用同一组Line Buffer。
分段处理：将图像分成多个垂直条带（vertical strips），每个条带独立处理，减少Line Buffer宽度： $$\text{Memory}_{strip} = (N-1) \times \frac{W}{S} \times BPP$$ 其中S是条带数量。但这会在条带边界引入额外的重叠区域。
压缩存储：对Line Buffer数据进行简单压缩，如差分编码或简单的游程编码，可减少30-50%的存储需求。

12.1.3 循环缓冲区管理

Line Buffer通常实现为循环缓冲区（circular buffer），避免数据移动的开销：

物理地址映射：
Line 0: Buffer[0]
Line 1: Buffer[1]
Line 2: Buffer[2]
...
Line n: Buffer[n mod N]

读写指针管理：
Write Pointer = Current_Line mod N
Read Pointer[i] = (Current_Line - i) mod N, i ∈ [1, N-1]

这种设计的关键是地址生成逻辑的优化，使用简单的模运算或位操作来计算地址，避免复杂的乘法运算。

12.1.4 多窗口并行访问

现代ISP需要支持多个滤波窗口的并行访问，这要求Line Buffer具有高带宽的读取能力：

多端口SRAM：使用多端口SRAM实现并行读取，但成本和功耗较高。
Bank分割：将Line Buffer分成多个Bank，不同窗口访问不同Bank：

Bank分配策略（4 Bank示例）：
Bank 0: 像素 0, 4, 8, 12, ...
Bank 1: 像素 1, 5, 9, 13, ...
Bank 2: 像素 2, 6, 10, 14, ...
Bank 3: 像素 3, 7, 11, 15, ...

时分复用：在更高的时钟频率下运行Line Buffer，时分复用实现多个逻辑访问端口。

12.2 Tile-based处理：分块策略与边界处理

12.2.1 Tiling的动机与挑战

Tile-based处理将大图像分割成小块（tiles）独立处理，这种方法的主要优势：

减少片上存储：只需存储当前tile的数据，而非整行
提高缓存局部性：数据重用率更高
便于并行处理：多个tile可以同时处理
降低延迟：不需要等待整帧完成

挑战在于tile边界的处理，需要额外的overlap区域来保证滤波的正确性。

12.2.2 Overlap计算与管理

对于级联的多个处理阶段，overlap会累积增长： $$\text{Overlap}_{total} = \sum_{i=1}^{n} \frac{K_i - 1}{2}$$ 其中$K_i$是第i个阶段的滤波器尺寸。

优化策略：

Overlap最小化：重新排序处理阶段，将大滤波器放在前面
Overlap复用：相邻tile之间共享overlap区域
动态Overlap：根据实际处理需求动态调整overlap大小

12.2.3 Tile大小优化

Tile大小的选择需要平衡多个因素： $$\text{Tile_Size}_{opt} = \arg\min_{T} \left( \alpha \cdot \text{Memory}(T) + \beta \cdot \text{Overhead}(T) + \gamma \cdot \text{Bandwidth}(T) \right)$$ 其中：

Memory(T): 片上存储需求
Overhead(T): Overlap带来的计算开销
Bandwidth(T): 外部内存带宽需求

典型的tile大小选择：

小型ISP：64×64 到 128×128
中型ISP：256×256 到 512×512
高端ISP：512×512 到 1024×1024

12.2.4 边界处理策略

Tile边界的处理方法：

镜像扩展（Mirror Extension）：

原始: [a b c d | e f g h]
镜像: [d c b a | a b c d | e f g h | h g f e]

复制扩展（Replicate Extension）：

原始: [a b c d | e f g h]
复制: [a a a a | a b c d | e f g h | h h h h]

环绕扩展（Wrap Extension）：

原始: [a b c d | e f g h]
环绕: [e f g h | a b c d | e f g h | a b c d]

零填充（Zero Padding）：

原始: [a b c d | e f g h]
零填充: [0 0 0 0 | a b c d | e f g h | 0 0 0 0]

选择依据算法特性和图像内容。

12.3 多级缓存架构：L1/L2设计考虑

12.3.1 ISP缓存层次结构

现代ISP采用多级缓存架构来优化数据访问：

寄存器文件 (RF)
    ↓ 1-2 cycles
L1 Cache (per module)
    ↓ 3-5 cycles
L2 Cache (shared)
    ↓ 10-20 cycles
On-chip SRAM
    ↓ 20-50 cycles
External DDR
    ↓ 100-200 cycles

每一级缓存的设计考虑：

L1 Cache： - 容量：2KB - 8KB per module - 组织：Direct-mapped 或 2-way set associative - 优化：针对特定访问模式（如2D block access）
L2 Cache： - 容量：64KB - 256KB shared - 组织：4-way 或 8-way set associative - 特性：支持多个模块并发访问

12.3.2 缓存命中率优化

提高缓存命中率的技术：

预取（Prefetching）：

硬件预取策略：

- 步长预取：检测固定步长的访问模式
- 2D块预取：预取整个2D块
- 自适应预取：根据历史访问模式调整

数据布局优化：

传统布局（行优先）：
[R0,G0,B0, R1,G1,B1, R2,G2,B2, ...]

优化布局（平面分离）：
R plane: [R0,R1,R2,...]
G plane: [G0,G1,G2,...]
B plane: [B0,B1,B2,...]

缓存分区（Cache Partitioning）：为关键数据预留缓存空间，避免被其他数据驱逐。

12.3.3 一致性维护

ISP中的缓存一致性相对简单，因为数据流主要是单向的：

Write-through策略：适用于统计数据等需要立即可见的数据
Write-back策略：适用于中间处理结果，减少带宽消耗
Cache bypass：对于流式数据，直接绕过缓存避免污染

12.4 SRAM分配与bank冲突避免

12.4.1 Bank组织策略

多Bank SRAM设计可以提供更高的访问带宽： $$\text{Bandwidth}_{total} = N_{banks} \times \text{Bandwidth}_{per_bank} \times (1 - P_{conflict})$$ 其中$P_{conflict}$是bank冲突概率。

常见的Bank组织方式：

交织式（Interleaved）：

Bank_ID = Address mod N_banks
优点：简单，负载均衡好
缺点：固定步长访问容易冲突

XOR映射：

Bank_ID = XOR(Address[high], Address[low]) mod N_banks
优点：减少规律性访问的冲突
缺点：地址计算略复杂

质数映射：

Bank_ID = (Address × Prime) mod N_banks
优点：对各种访问模式都有较好表现
缺点：需要乘法运算

12.4.2 冲突检测与仲裁

Bank冲突处理机制：

静态调度：编译时确定访问顺序，保证无冲突
动态仲裁：运行时检测并解决冲突
缓冲重排：使用小缓冲区重排访问请求

仲裁策略的优先级设计：

实时性要求高的模块优先
Round-robin保证公平性
基于QoS的动态优先级

12.4.3 SRAM功耗优化

SRAM是ISP功耗的主要来源之一，优化技术包括：

分段激活：只激活当前访问的SRAM段
低功耗模式：空闲时进入retention或shutdown模式
电压调节：根据性能需求动态调整SRAM供电电压

功耗模型： $$P_{SRAM} = P_{static} + P_{dynamic} = V_{dd}^2 \times I_{leak} + \alpha \times C \times V_{dd}^2 \times f$$

12.5 DDR带宽优化：burst访问、预取

12.5.1 DDR访问特性与挑战

DDR内存的访问特性对ISP性能有重要影响：

高延迟：首次访问延迟（tRCD + tCL）可达15-20个时钟周期
Burst传输：连续地址访问效率高，随机访问效率低
Bank冲突：访问同一Bank的不同行需要precharge和activate
读写切换开销：读写方向切换需要额外的总线周转时间

DDR效率模型： $$\eta_{DDR} = \frac{T_{data}}{T_{data} + T_{overhead}}$$ 其中：

$T_{data}$：实际数据传输时间
$T_{overhead}$：命令、等待、切换等开销

12.5.2 Burst优化策略

提高DDR burst效率的关键技术：

访问模式重组：

原始访问（随机）：
Read A[0], Read B[0], Read A[1], Read B[1], ...
效率: ~30%

优化后（批量）：
Read A[0:63], Read B[0:63], ...
效率: ~85%

数据预取与缓冲：

预取策略：

- 线性预取：预取下一个burst长度的数据
- 跨步预取：根据访问步长预取
- 自适应预取：基于历史访问模式

缓冲设计：
Double Buffer: Buf_A ←→ Buf_B
当处理Buf_A时，预取数据到Buf_B

访问调度优化：

调度算法：

1. 收集访问请求到队列
2. 按Bank和Row地址排序
3. 批量处理同一Row的访问
4. 最小化Bank冲突和读写切换

12.5.3 带宽分配与QoS

ISP中不同模块对DDR带宽的需求差异很大：

带宽需求示例（4K@60fps）：

- 原始数据写入：~1.5 GB/s
- 中间结果读写：~3.0 GB/s
- 最终输出：~1.0 GB/s
- 参考帧读取：~2.0 GB/s
总需求：~7.5 GB/s

QoS机制设计：

优先级分配： - 紧急（Urgent）：实时显示输出 - 高（High）：传感器数据输入 - 中（Medium）：中间处理结果 - 低（Low）：统计数据、日志
带宽预留： $$BW_{reserved} = \sum_{i} BW_{min,i} + BW_{margin}$$
动态调节：根据实际使用情况动态调整分配策略

12.5.4 DDR功耗优化

DDR是系统功耗的主要组成部分，优化策略：

自刷新管理：

空闲检测 → 进入Self-Refresh → 唤醒
节省功耗：60-80%（空闲时）

频率调节（DFS）：

场景感知的频率调整：

- 预览模式：400 MHz
- 拍照模式：800 MHz
- 视频录制：600 MHz
- 待机模式：200 MHz

数据压缩：简单的无损压缩可减少30-50%的带宽需求

12.6 数据重排与格式转换单元

12.6.1 像素格式多样性

ISP需要处理多种像素格式：

输入格式：

- RAW8/10/12/14/16: 原始传感器数据
- YUV422/420: 压缩视频格式
- RGB888/565: 显示格式

内部处理格式：

- 定点数：Q8.8, Q12.4等
- 浮点数：FP16（高端ISP）

输出格式：

- YUV420/NV12: 视频编码
- RGB888: 显示输出
- RAW: 专业应用

12.6.2 数据打包与解包

高效的数据打包可以优化带宽利用：

像素打包策略：

RAW10打包（4像素 → 5字节）：
P0[9:2] | P0[1:0],P1[9:6] | P1[5:0],P2[9:8] | P2[7:0] | P3[9:2] | P3[1:0],xx

效率提升：20%（相比16-bit对齐）

SIMD友好的数据布局：

AoS (Array of Structures):
[R0,G0,B0, R1,G1,B1, R2,G2,B2, ...]

SoA (Structure of Arrays):
R: [R0,R1,R2,R3,...]
G: [G0,G1,G2,G3,...]
B: [B0,B1,B2,B3,...]

SIMD效率：SoA > AoS（3-4倍）

12.6.3 对齐处理与填充

数据对齐对性能影响显著：

缓存行对齐：

对齐要求：64字节（典型缓存行大小）
填充计算：
Padding = (64 - (Width × BPP) mod 64) mod 64

SIMD对齐：

128-bit SIMD: 16字节对齐
256-bit SIMD: 32字节对齐
512-bit SIMD: 64字节对齐

Tile对齐：

GPU互操作要求：

- Width对齐到32或64像素
- Height对齐到16或32行

12.6.4 格式转换优化

高效的格式转换实现：

查找表（LUT）加速：

Gamma校正：
Out = LUT[In]  // 预计算的查找表

色彩空间转换：
组合多个小LUT比一个大LUT更高效

SIMD优化的矩阵运算：

RGB to YUV转换：
Y = 0.299R + 0.587G + 0.114B
U = -0.169R - 0.331G + 0.500B + 128
V = 0.500R - 0.419G - 0.081B + 128

使用定点数和SIMD指令可加速4-8倍

流水线化的格式转换：将复杂转换分解为多个简单阶段，每个阶段可以并行处理多个像素。

本章小结

本章系统介绍了ISP存储架构的核心设计要素。从最基础的Line Buffer设计开始，我们探讨了如何在有限的片上存储资源下实现高效的邻域访问。Tile-based处理策略通过将大图像分块处理，在减少存储需求的同时提高了数据局部性。多级缓存架构借鉴了通用处理器的设计理念，通过L1/L2缓存层次减少了对外部存储的访问。

在SRAM管理方面，我们分析了bank组织策略和冲突避免机制，这对于实现高带宽并发访问至关重要。DDR带宽优化部分深入讨论了burst访问、预取策略和QoS机制，这些技术可以将DDR效率从30%提升到85%以上。最后，数据格式转换单元确保了不同处理阶段之间的高效数据交换。

关键要点：

Line Buffer是ISP存储架构的基础，需要仔细优化以最小化存储开销
Tile-based处理在存储需求和处理效率之间取得平衡
多Bank SRAM设计和智能仲裁机制是实现高带宽的关键
DDR访问模式优化可以带来3倍以上的效率提升
数据格式和对齐对系统性能有显著影响

练习题

基础题

12.1 对于一个5×5的高斯滤波器，处理4096×3072分辨率的图像，计算所需的最小Line Buffer存储量（假设每像素12位）。如果采用4条带（strip）处理，每条带需要多少额外的overlap像素？

答案

Line Buffer存储量：

需要存储4行（5-1=4）
每行4096像素，每像素12位
总存储：4 × 4096 × 12 = 196,608 bits = 24,576 bytes = 24 KB

条带处理：

每条带宽度：4096/4 = 1024像素
Overlap：(5-1)/2 = 2像素（每侧）
额外像素：2×2 = 4像素/条带（除了边界条带）

12.2 一个ISP模块需要访问8×8的像素块。如果采用4-bank SRAM，请设计一种bank映射方案，使得整个8×8块可以无冲突地并行访问。画出bank分配图。

答案

棋盘式（Checkerboard）映射：

Bank分配（0-3表示bank编号）：
0 1 2 3 0 1 2 3
2 3 0 1 2 3 0 1
0 1 2 3 0 1 2 3
2 3 0 1 2 3 0 1
0 1 2 3 0 1 2 3
2 3 0 1 2 3 0 1
0 1 2 3 0 1 2 3
2 3 0 1 2 3 0 1

这种分配保证：

每2×2子块使用全部4个bank
任意4×4窗口均匀分布在4个bank
支持多种访问模式的并行化

12.3 DDR4-3200的理论带宽是25.6 GB/s。如果实际测得的持续带宽只有15 GB/s，可能的原因有哪些？如何优化？

答案

可能原因：

随机访问模式：导致频繁的row activation
读写切换：bus turnaround开销
Bank冲突：访问集中在少数bank
小burst长度：命令开销比例高
刷新开销：定期刷新占用带宽

优化方法：

重组访问模式，增加顺序访问
批量处理读/写操作，减少切换
交织数据分布到多个bank
使用更长的burst（BL16或BL32）
在刷新间隙集中处理

效率：15/25.6 = 58.6%，通过优化可提升到75-85%

挑战题

12.4 设计一个自适应的Line Buffer共享机制，支持3个处理模块：

模块A：需要3×3窗口
模块B：需要5×5窗口
模块C：需要7×7窗口要求最小化总存储量，并避免访问冲突。描述你的调度策略。

答案

共享Line Buffer设计：

存储分配： - 总共需要6个Line Buffer（7-1=6） - Line Buffer编号：LB0-LB5
时分复用调度：

时钟周期分配（4相时钟）：
Phase 0: 模块C读取LB0-LB5（7×7窗口）
Phase 1: 模块B读取LB2-LB5+当前行（5×5窗口）
Phase 2: 模块A读取LB4-LB5+当前行（3×3窗口）
Phase 3: 写入新数据，更新指针

指针管理：

循环指针（每处理完一行）：
LB_ptr = (LB_ptr + 1) mod 6
各模块的读指针相应调整

冲突避免： - 使用双端口SRAM或时钟倍频 - 预取机制减少实时访问压力 - 流水线化减少关键路径

存储节省：

独立设计：2+4+6=12个Line Buffer
共享设计：6个Line Buffer
节省：50%

12.5 某ISP需要处理多种分辨率的切换（1080p/4K/8K），设计一个动态可重构的存储架构，包括：

Line Buffer的动态分配
Tile大小的自适应调整
DDR带宽的动态分配给出具体的重构策略和性能分析。

答案

动态可重构存储架构：

Line Buffer动态分配：

总SRAM: 256 KB

1080p模式：

- Line Buffer: 32 KB (1920×2×8行)
- Tile Buffer: 224 KB

4K模式：

- Line Buffer: 64 KB (3840×2×8行)
- Tile Buffer: 192 KB

8K模式：

- Line Buffer: 128 KB (7680×2×8行)
- Tile Buffer: 128 KB

Tile大小自适应：

1080p: 256×256 tiles (低延迟优先)
4K: 512×512 tiles (平衡)
8K: 1024×512 tiles (带宽优先)

DDR带宽动态分配：

总带宽: 25.6 GB/s

1080p@60fps: 

- 需求: 3 GB/s
- 分配: 4 GB/s (留余量)

4K@60fps:

- 需求: 12 GB/s
- 分配: 16 GB/s

8K@30fps:

- 需求: 24 GB/s
- 分配: 24 GB/s (几乎满载)

重构策略： - 检测分辨率切换信号 - 等待当前帧处理完成 - 重新配置存储分配表 - 更新DMA和地址生成器 - 恢复处理流水线
性能分析： - 切换延迟: <100μs - 资源利用率: >85% - 功耗缩放: 与分辨率成正比

12.6 分析并比较以下三种ISP存储架构的优劣： a) 全帧缓存架构 b) Line Buffer流式架构
c) Tile-based混合架构

从延迟、带宽、存储开销、扩展性等多个维度进行定量比较。

答案

架构比较分析：

指标	全帧缓存	Line Buffer	Tile-based
片上存储	24MB(4K)	24-96KB	256KB-1MB
DDR带宽	2×	1×	1.1-1.3×
处理延迟	1帧(16.7ms)	<1ms	2-5ms
随机访问	支持	不支持	部分支持
算法灵活性	最高	最低	中等
功耗	最高	最低	中等
成本	$$$$	$	$$
扩展到8K	极难	容易	可行

定量分析（4K@60fps）：

全帧缓存：

优势：算法无限制，可多次迭代
劣势：96MB SRAM成本>$50
适用：高端专业设备

Line Buffer：

优势：最小硬件开销，流式处理
劣势：只支持局部算法
适用：入门级ISP

Tile-based：

优势：平衡各项指标
劣势：设计复杂度高
适用：主流移动/汽车ISP

结论：Tile-based架构在多数应用场景下提供最佳平衡

12.7 设计一个支持HDR视频的存储架构，需要同时处理3个不同曝光的帧。考虑：

帧间对齐的存储需求
运动补偿的参考数据访问
实时融合的带宽需求给出详细的存储分配和带宽预算。

答案

HDR存储架构设计：

帧缓存配置：

3曝光帧 @ 4K分辨率：

- 短曝光帧(S): 12MB (12-bit RAW)
- 中曝光帧(M): 12MB
- 长曝光帧(L): 12MB
- 运动矢量: 1MB
- 融合权重图: 4MB
总计: 41MB DDR

片上缓存：

- 3× Line Buffer组: 3×64KB = 192KB
- 运动搜索缓存: 128KB
- 权重LUT: 16KB
- 融合缓冲: 64KB
总计: 400KB SRAM

带宽分析：

读取带宽：

- 3帧输入: 3×1.5GB/s = 4.5GB/s
- 运动搜索参考: 2GB/s
- 权重图读取: 0.5GB/s

写入带宽：

- 中间结果: 1GB/s
- 最终HDR输出: 1.5GB/s

总带宽需求: 9.5GB/s
带宽余量: 25%
实际需求: 12GB/s

访问调度：

时间片分配(每ms)：
0-0.3ms: 读取短曝光块
0.3-0.6ms: 读取中曝光块
0.6-0.9ms: 读取长曝光块
0.9-1.0ms: 写入融合结果

优化策略： - 使用YUV420采样减少带宽 - 对运动区域优先处理 - 静态区域跳过运动补偿 - 分层融合减少中间数据

效果：

延迟: <5ms
带宽效率: 75%
鬼影抑制: 有效

常见陷阱与错误（Gotchas）

存储架构设计陷阱

Line Buffer深度估算错误 - 错误：只考虑单个滤波器的需求 - 正确：考虑级联滤波器的累积需求 - 示例：3×3后接5×5需要6行而非4行
Bank冲突被忽视 - 错误：假设多bank就能实现完全并行 - 正确：仔细分析访问模式，设计无冲突映射 - 工具：使用冲突矩阵分析
DDR效率过度乐观 - 错误：使用理论带宽进行设计 - 正确：假设60-70%的实际效率 - 验证：早期进行实际测试
Tile边界处理不当 - 错误：忽略overlap的存储和带宽开销 - 正确：精确计算overlap，优化tile大小 - 经验：overlap通常占10-20%额外开销

性能优化误区

过度缓存 - 错误：增大缓存一定提升性能 - 正确：分析访问模式，优化缓存策略 - 平衡：缓存miss代价vs缓存大小
忽视数据对齐 - 错误：任意的数据布局 - 正确：严格的对齐要求（32/64/128字节） - 影响：未对齐访问性能下降50%+
预取策略过于激进 - 错误：预取越多越好 - 正确：平衡预取收益和带宽浪费 - 度量：预取准确率>80%

功耗相关错误

SRAM常开 - 错误：所有SRAM bank始终开启 - 正确：细粒度的时钟门控和电源门控 - 节省：可减少40-60%的静态功耗
DDR频率固定 - 错误：始终运行在最高频率 - 正确：场景感知的动态频率调节 - 效果：平均功耗降低30-50%

最佳实践检查清单

架构设计阶段

[ ] 完成详细的带宽预算分析
[ ] 确定关键路径的存储需求
[ ] 评估不同架构方案的成本/性能比
[ ] 考虑未来分辨率升级的扩展性
[ ] 规划多种使用场景的配置

Line Buffer设计

[ ] 最小化存储深度
[ ] 实现高效的地址生成逻辑
[ ] 支持灵活的窗口大小配置
[ ] 考虑多模块共享策略
[ ] 添加边界处理逻辑

缓存优化

[ ] 分析实际访问模式
[ ] 选择合适的替换策略
[ ] 实现有效的预取机制
[ ] 监控缓存命中率
[ ] 支持cache bypass模式

DDR接口设计

[ ] 优化burst长度和访问模式
[ ] 实现智能的请求调度器
[ ] 支持QoS和带宽预留
[ ] 添加性能计数器
[ ] 设计紧急通道机制

功耗管理

[ ] 实现多级时钟门控
[ ] 支持动态电压频率调节
[ ] 优化SRAM分区策略
[ ] 添加低功耗模式
[ ] 监控功耗分布

验证与调试

[ ] 建立存储访问模型
[ ] 仿真最坏情况的带宽需求
[ ] 验证bank冲突处理
[ ] 测试边界条件
[ ] 准备性能分析工具

系统集成

[ ] 定义清晰的接口协议
[ ] 提供灵活的配置接口
[ ] 支持在线重配置
[ ] 考虑多媒体子系统集成
[ ] 规划调试和profiling接口