随着Chiplet技术的兴起,Die-to-Die(D2D)互联成为突破单片芯片限制的关键技术。不同于传统的芯片间通信,D2D接口需要在极短的距离内实现超高带宽、超低延迟和极低功耗的数据传输。本章深入剖析当前主流的D2D接口标准,包括UCIe、BoW、OpenHBI和XSR,理解它们的设计理念、技术特点和应用场景。通过学习本章,您将掌握选择和实现D2D接口的关键考量因素。
UCIe联盟成立于2022年3月,由Intel、AMD、ARM、TSMC、Samsung等行业巨头共同发起。其目标是建立开放的Chiplet互联标准,实现不同厂商芯片的互操作性。UCIe 1.0规范于2022年3月发布,1.1版本于2023年更新,增加了更多高级特性。
UCIe的设计理念:
UCIe采用分层架构设计,包含三个主要层次:
┌─────────────────────────────────────┐
│ Protocol Layer (协议层) │
│ PCIe | CXL | Streaming | Custom │
├─────────────────────────────────────┤
│ Die-to-Die Adapter (D2D适配层) │
│ - Arbitration & Mux │
│ - Link Management │
│ - Parameter Negotiation │
├─────────────────────────────────────┤
│ Physical Layer (物理层) │
│ - Electrical PHY │
│ - Logical PHY │
│ - Sideband Channel │
└─────────────────────────────────────┘
协议层特性:
D2D适配层功能:
物理层实现:
标准封装(Standard Package)适用于传统的有机基板封装,特点是:
电气参数:
时钟架构:
┌──────────┐ ┌──────────┐
│ Die A │ │ Die B │
│ │ │ │
│ TX CLK ─┼──────┼─> RX CLK │
│ │ │ │
│ TX Data─┼──────┼─> RX Data│
│ │ │ │
└──────────┘ └──────────┘
转发时钟(Forwarded Clock)架构
功耗优化:
先进封装(Advanced Package)用于2.5D/3D封装,如CoWoS、EMIB:
增强特性:
信号完整性优化:
眼图要求(32GT/s):
↑ 电压
│ ╱────────╲
│ ╱ ╲
│ │ 有效眼高 │ > 50mV
│ ╲ ╱
│ ╲────────╱
└───────────────────→ 时间
有效眼宽 > 0.3 UI
D2D适配层是UCIe的核心创新,提供协议无关的链路管理:
链路初始化流程:
重试缓冲区(Retry Buffer):
虚拟通道映射:
Protocol Layer VCs D2D Adapter Physical Layer
┌──────────────┐ ┌─────────┐ ┌──────────┐
│ PCIe VC0 ├────>│ │ │ │
│ PCIe VC1 ├────>│ VC ├───>│ Physical │
│ CXL.io VC0 ├────>│ Arbiter │ │ Channel │
│ CXL.cache ├────>│ │ │ │
└──────────────┘ └─────────┘ └──────────┘
PCIe模式:
CXL模式:
流模式(Streaming):
Advanced Interface Bus (AIB)最初由Intel开发,用于FPGA的die-to-die互联。
AIB 1.0特性(2017年):
AIB 2.0改进(2019年):
BoW简化了传统SerDes的复杂性,适合短距离互联:
传统SerDes架构: BoW架构:
┌────────────┐ ┌────────────┐
│Serializer │ │ │
│ PLL │ │ Simple │
│ CDR │ │ Driver │
│ Equalizer │ │ │
└────────────┘ └────────────┘
复杂度:高 复杂度:低
功耗:>5 pJ/bit 功耗:<1 pJ/bit
关键简化:
IO单元设计:
┌─────────────────────┐
TX───│ Driver │
│ - Impedance: 50Ω │───> Bump
│ - Slew Rate Control│
└─────────────────────┘
┌─────────────────────┐
RX<──│ Receiver │<─── Bump
│ - Comparator │
│ - Hysteresis: 20mV │
└─────────────────────┘
时钟分发网络:
转发时钟 vs 嵌入式时钟:
转发时钟(AIB/BoW选择):
嵌入式时钟:
多时钟域处理:
Die A (1GHz) Die B (1.5GHz)
│ │
├──> Async FIFO <──────┤
│ │
└──> Clock Domain ─────┘
Crossing (CDC)
OpenHBI由OIF(Optical Internetworking Forum)开发,目标是超短距离的高带宽互联:
应用场景:
通道组织:
┌─────────────────────────────┐
│ Logical Channel (1.6T) │
├──────────┬─────────┬─────────┤
│ PHY Lane │PHY Lane │PHY Lane │
│ (50G) │ (50G) │ (50G) │
│ x32 lanes = 1.6 Tbps │
└─────────────────────────────┘
Lane绑定:
FEC(前向纠错)选项:
Gray映射优化:
PAM4 Gray码:
Symbol Binary Gray 电平
0 00 00 -3
1 01 01 -1
2 10 11 +1
3 11 10 +3
优势:相邻电平仅1bit差异
XSR专注于极短距离(<10cm)的高速互联:
关键指标:
发送端规范:
接收端要求:
光模块应用:
ASIC XSR 光引擎
┌──────┐ ┌────────┐ ┌──────────┐
│ │───>│ 28G x4 │───>│ QSFP-DD │
│Switch│ │ XSR │ │ 400G │
│ Chip │<───│ Link │<───│ Module │
└──────┘ └────────┘ └──────────┘
距离:5cm
标准 带宽密度 凸点间距 适用封装
UCIe Std 2 Gbps/bump 110μm Organic
UCIe Adv 4 Gbps/bump 55μm Silicon
AIB 2.0 4 Gbps/bump 55μm EMIB
BoW 2 Gbps/bump 45μm Generic
OpenHBI 8 Gbps/bump 45μm CPO
XSR N/A N/A PCB级
不同标准的能效对比(pJ/bit):
功耗 (pJ/bit)
│
10 ──┤ PCIe SerDes
│
5 ──┤ XSR
│
2 ──┤
│ UCIe Std
1 ──┤ BoW
│ UCIe Adv
0.5──┤ AIB 2.0
│ OpenHBI
0 ──└──────────────────────
1 10 100 1000
距离 (mm)
端到端延迟分解:
组件 UCIe BoW OpenHBI
物理层编码 2ns 0.5ns 1ns
SerDes (如有) 5ns N/A 3ns
链路传播 1ns 1ns 2ns
接收处理 2ns 0.5ns 1ns
总计 10ns 2ns 7ns
决策矩阵:
| 场景 | 推荐标准 | 关键考虑 |
|---|---|---|
| CPU-GPU Chiplet | UCIe | 生态系统、协议支持 |
| FPGA Tiles | AIB/BoW | 低延迟、简单性 |
| 光电集成 | OpenHBI | 带宽密度、距离 |
| 机架内互联 | XSR | 成本、功耗 |
| 内存扩展 | UCIe/CXL | 一致性、带宽 |
实现成本因素:
TCO模型:
总成本 = IP成本 + 硅片面积成本 + 封装成本 +
验证成本 + 功耗运营成本
示例(相对值):
UCIe Standard: 1.0x (基准)
UCIe Advanced: 1.5x
AIB 2.0: 0.8x
BoW: 0.6x
XSR SerDes: 2.0x
通道建模:
S参数模型(典型2.5D封装):
插入损耗 @ 16GHz: -3dB
回波损耗 @ 16GHz: -15dB
串扰 (NEXT): -30dB
串扰 (FEXT): -35dB
设计规则:
- 差分对内偏斜: <5ps
- 差分阻抗: 100Ω ±10%
- 过孔残桩: <50μm
PDN设计要求:
电源噪声预算:
- Die内噪声: 30mV
- 封装噪声: 20mV
- 板级噪声: 50mV
- 总预算: 100mV (10% Vdd)
去耦策略:
- Die上电容: 100nF/mm²
- 封装电容: 10μF (total)
- 板级电容: 100μF (total)
DFT特性对比:
| 特性 | UCIe | AIB | BoW | OpenHBI |
|---|---|---|---|---|
| BIST | ✓ | ✓ | 选配 | ✓ |
| 环回测试 | ✓ | ✓ | ✓ | ✓ |
| 眼图监控 | ✓ | - | - | ✓ |
| PRBS生成 | ✓ | ✓ | 选配 | ✓ |
| 边界扫描 | ✓ | 选配 | - | 选配 |
Die-to-Die接口标准是实现Chiplet愿景的关键技术基础。本章深入分析了主流D2D标准的技术特点:
关键要点:
设计决策框架:
未来展望:
练习7.1:计算UCIe Standard Package在16 GT/s、256位宽配置下的总带宽。考虑8b/10b编码开销。
练习7.2:某Chiplet系统需要800 GB/s的die-to-die带宽,功耗预算为2W。请选择合适的D2D标准并说明理由。
练习7.3:解释为什么BoW不需要CDR而传统SerDes需要?这带来什么优势和限制?
练习7.4:设计一个混合D2D系统,CPU die通过UCIe连接到IO die,IO die通过OpenHBI连接到光引擎。画出系统架构图并分析关键设计挑战。
练习7.5:某AI加速器公司计划采用Chiplet架构,包含4个计算die和1个IO die。每个计算die需要200GB/s到IO die的带宽,以及die间50GB/s的直接通信。请设计D2D互联方案,包括拓扑选择、标准选择、引脚分配。
练习7.6:分析UCIe和CXL.io over UCIe相比传统PCIe over SerDes的延迟优势。假设:PCIe 5.0 x16,传输64B数据包,SerDes延迟100ns,UCIe物理层延迟10ns。
练习7.7:开放性思考:随着Chiplet生态系统的发展,你认为D2D接口标准会如何演进?考虑光电集成、3D堆叠、异构集成等趋势。
下一章预告:第8章将深入探讨Chiplet物理层设计,包括PHY架构、信号完整性、电源设计等关键实现细节。