2.5D封装技术作为传统2D封装与全3D堆叠之间的过渡方案,通过硅中介层(Silicon Interposer)或嵌入式多芯片互联桥(EMIB)实现多个芯片的高密度互联。本章深入探讨2.5D封装的核心技术、主流方案对比、以及在高性能计算和AI加速器中的应用。我们将重点分析TSMC CoWoS和Intel EMIB两大技术路线的设计权衡,并讨论信号完整性、热管理等关键挑战。
学习目标:
Silicon Interposer是一种采用成熟硅工艺制造的中介层,作为多个芯片之间的高密度互联平台。其核心价值在于提供远超传统PCB的布线密度,实现芯片间的高带宽、低延迟通信。
典型2.5D封装结构:
┌─────────────────────────────────┐
│ Package Substrate │
└─────────────────────────────────┘
▲ ▲ ▲
│ │ │
C4 Bumps C4 C4 Bumps
│ │ │
┌─────────┴──────┴──────┴─────────┐
│ Silicon Interposer │ ← 65nm/45nm工艺
│ ┌──────┐ ┌──────┐ ┌──────┐ │
│ │ RDL │ │ RDL │ │ RDL │ │ ← 再布线层
│ └──────┘ └──────┘ └──────┘ │
└──────────────────────────────────┘
▲ ▲ ▲
│ │ │
μBumps μBumps μBumps ← 微凸点(10-50μm间距)
│ │ │
┌────┴───┐ ┌──┴───┐ ┌──┴───┐
│ Die 1 │ │ Die 2│ │ HBM │ ← 芯片/内存
└────────┘ └──────┘ └──────┘
Silicon Interposer的制造通常采用65nm或更成熟的工艺节点,主要原因包括:
关键制造步骤:
关键设计参数的典型值和优化目标:
| 参数 | 典型范围 | 优化方向 | 影响因素 |
|---|---|---|---|
| TSV直径 | 5-10μm | 减小 | 密度vs良率 |
| TSV间距 | 20-50μm | 减小 | 串扰vs成本 |
| μBump间距 | 40-55μm | 减小 | 带宽vs可靠性 |
| RDL线宽/间距 | 2/2μm | 减小 | 密度vs阻抗 |
| Interposer厚度 | 50-100μm | 减薄 | 热阻vs机械强度 |
布线密度计算: \(\text{布线密度} = \frac{N_{layers} \times W_{routing}}{L_{min} + S_{min}}\)
其中:
Interposer的电气性能直接影响系统整体性能:
传输线模型: 对于高速信号,Interposer上的走线需要当作传输线处理:
\[Z_0 = \sqrt{\frac{L}{C}} \approx \frac{87}{\sqrt{\varepsilon_r}} \ln\left(\frac{5.98h}{0.8w + t}\right)\]其中:
插入损耗估算: \(IL(f) = \alpha_{DC} \cdot l + \alpha_{AC} \cdot l \cdot \sqrt{f} + \alpha_{dielectric} \cdot l \cdot f\)
典型值(@10GHz,10mm走线):
TSMC的第一代CoWoS技术采用硅中介层方案,自2012年量产以来持续演进:
各代技术规格对比:
| 代次 | 年份 | Interposer尺寸 | 布线层数 | 线宽/间距 | TSV间距 | 典型应用 |
|---|---|---|---|---|---|---|
| Gen1 | 2012 | 1x reticle | 2层 | 2/2μm | 50μm | Xilinx Virtex-7 |
| Gen2 | 2014 | 1.5x reticle | 3层 | 0.9/0.9μm | 40μm | NVIDIA P100 |
| Gen3 | 2016 | 2x reticle | 4层 | 0.4/0.4μm | 30μm | NVIDIA V100 |
| Gen4 | 2019 | 2.5x reticle | 5层 | 0.4/0.4μm | 25μm | NVIDIA A100 |
| Gen5 | 2021 | 3x reticle | 6层 | 0.4/0.4μm | 20μm | NVIDIA H100 |
Reticle拼接技术: 对于超过单个光刻reticle(~858mm²)的大尺寸Interposer,TSMC开发了拼接技术:
3x Reticle Interposer拼接示意:
┌────────┬────────┬────────┐
│Reticle1│Reticle2│Reticle3│
│ │ │ │
│ Die1 │ Die2 │ Die3 │
└────────┴────────┴────────┘
↑ ↑ ↑
拼接区域 拼接区域
(重叠曝光)
拼接区域设计要点:
CoWoS-R采用有机RDL(Redistribution Layer)替代硅中介层,降低成本的同时保持高密度互联:
架构特点:
RDL工艺参数:
层数:3-6层
线宽/间距:2/2μm(顶层)到 10/10μm(底层)
介质材料:聚酰亚胺(PI)或苯并环丁烯(BCB)
Via尺寸:5-15μm
性能权衡: 相比CoWoS-S的劣势:
适用场景:
CoWoS-L引入局部硅互联(Local Silicon Interconnect)概念,结合硅桥和RDL:
CoWoS-L架构:
Package Substrate
════════════════════
▲ ▲
│ │
┌────┴──────┴────┐
│ RDL Layers │ ← 有机RDL
│ ┌──────────┐ │
│ │ LSI桥片 │ │ ← 局部硅互联
└──┴──────────┴──┘
▲ ▲
┌──┴──┐ ┌──┴──┐
│Die 1│ │Die 2│
└─────┘ └─────┘
LSI桥片特性:
优势分析:
嵌入式多芯片互联桥(Embedded Multi-die Interconnect Bridge)是Intel的创新方案,通过在封装基板中嵌入小型硅桥片实现die间互联:
EMIB架构示意:
侧视图:
┌──────┐ ┌──────┐
│ Die1 │ │ Die2 │
└───┬──┘ └──┬───┘
│ μBumps │
════╪════════════╪════ ← 封装基板
│ ┌────┐ │
└───┤EMIB├───┘ ← 嵌入式硅桥
└────┘
俯视图:
┌────────────┬────────────┐
│ │ │
│ Die1 │ Die2 │
│ │ │
│ ┌──────┐ │ ┌──────┐ │
└──┤ EMIB ├──┴──┤ EMIB ├──┘
└──────┘ └──────┘
(边缘互联)
关键技术指标:
| 参数 | 典型值 | 说明 |
|---|---|---|
| 桥片尺寸 | 2×5mm到5×10mm | 根据IO需求定制 |
| 布线层数 | 2-4层 | 顶部2层,底部2层 |
| 线宽/间距 | 2/2μm或1/1μm | 55nm或45nm工艺 |
| μBump间距 | 55μm | 与die边缘IO匹配 |
| 信号密度 | 256-512信号/mm | 边缘长度 |
| 单通道带宽 | 2-4Gb/s | 取决于信号标准 |
带宽计算示例:
假设:
- EMIB长度:5mm
- 信号密度:400信号/mm
- 总信号数:2000
- 数据率:3.2Gb/s/pin
总带宽 = 2000 × 3.2Gb/s = 6.4Tb/s
| 特性 | EMIB | Silicon Interposer |
|---|---|---|
| 成本 | 低(小硅片,标准基板) | 高(大面积硅片,TSV) |
| 良率 | 高(小面积,分离制造) | 中(大面积,复杂工艺) |
| 布线密度 | 中(边缘受限) | 高(全面积可用) |
| 热管理 | 优(直接基板散热) | 差(Interposer热阻) |
| 设计灵活性 | 高(模块化) | 中(固定Interposer) |
| Die间距 | 灵活 | 紧密排列 |
| HBM集成 | 困难 | 原生支持 |
Intel Stratix 10 FPGA:
Ponte Vecchio GPU:
微凸点是2.5D/3D封装中芯片与Interposer之间的关键互联结构:
结构与材料:
μBump截面结构:
┌─────────────┐
│ Die Pad │ ← Al或Cu
├─────────────┤
│ UBM │ ← Ti/Cu/Ni(底部金属层)
├─────────────┤
│ Solder │ ← SnAg合金
│ ╱─────╲ │ 高度:15-25μm
│ ╱ ╲ │ 直径:25-40μm
├─────────────┤
│ Cu Pillar │ ← 铜柱(可选)
├─────────────┤
│ Interposer │
└─────────────┘
关键参数优化:
| 参数 | 当前技术 | 下一代目标 | 挑战 |
|---|---|---|---|
| 凸点间距 | 40-55μm | 25-30μm | 对准精度 |
| 凸点直径 | 25μm | 15μm | 电迁移 |
| 凸点高度 | 20μm | 10-15μm | 共面性 |
| 阵列规模 | 10K-100K | >200K | 良率管理 |
电迁移寿命模型: \(t_{50} = A \cdot j^{-n} \cdot e^{\frac{E_a}{k_B T}}\)
其中:
TSV制造工艺流程:
TSV电气模型:
TSV等效电路:
───R_TSV───L_TSV───
│ │
C_ox C_si
│ │
───────────
参数计算:
典型值(直径10μm,高度50μm的TSV):
技术路线图:
2020 2023 2025 2027
40μm → 30μm → 20μm → 10μm (μBump间距)
10μm → 7μm → 5μm → 3μm (TSV直径)
50μm → 40μm → 30μm → 20μm (TSV间距)
密度提升的关键技术:
在2.5D封装中,随着数据率提升至25Gb/s甚至56Gb/s,信号完整性成为关键挑战:
主要问题:
差分信号设计:
差分对布线:
─────────────── Signal+
S (间距)
─────────────── Signal-
W (线宽)
差分阻抗计算: \(Z_{diff} = 2Z_0 \left(1 - 0.48 e^{-0.96 \frac{S}{H}}\right)\)
设计准则:
损耗补偿技术:
发送端预加重: \(V_{out}(n) = V_{data}(n) + \alpha \cdot [V_{data}(n) - V_{data}(n-1)]\)
接收端均衡:
近端串扰(NEXT)和远端串扰(FEXT)分析:
\[NEXT = 20\log_{10}\left(\frac{V_{coupled}}{V_{aggressor}}\right)\]典型设计目标:NEXT < -30dB @ Nyquist频率
串扰抑制方法:
交错布线减少串扰:
Layer N: S─────G─────S─────G
×
Layer N+1: G─────S─────G─────S
S: Signal, G: Ground
PDN阻抗目标: \(Z_{target} = \frac{V_{ripple}}{I_{transient}} = \frac{V_{DD} \times \text{Ripple\%}}{I_{max} \times \text{Activity}}\)
典型值:
去耦电容策略:
多级去耦架构:
Die ← On-die Cap (pF-nF)
↑
μBump
↑
Interposer ← MIM Cap (nF-μF)
↑
C4 Bump
↑
Package ← SMT Cap (μF-mF)
↑
Board ← Bulk Cap (mF)
各级电容作用频段:
热阻网络分析:
热阻路径:
Die Junction
│
├─R_die─→ Die Bulk
│
├─R_μbump─→ Interposer
│
├─R_interposer─→ C4 Bumps
│
├─R_C4─→ Package Substrate
│
├─R_TIM1─→ IHS (散热器盖)
│
├─R_TIM2─→ Heat Sink
│
└─R_HS─→ Ambient
典型热阻值:
功率密度挑战: 现代高性能芯片功率密度可达300-500W/cm²,而2.5D封装中:
1. Interposer热优化:
薄化技术:
热通孔(Thermal TSV):
Thermal TSV布局:
□ □ □ □ □ ← Signal TSV
■ □ □ □ ■
□ □ ● □ □ ← Thermal TSV (更大直径)
■ □ □ □ ■
□ □ □ □ □
设计参数:
2. 先进TIM材料:
| 材料类型 | 热导率(W/mK) | 厚度(μm) | 热阻(K/W) | 应用场景 |
|---|---|---|---|---|
| 传统硅脂 | 3-5 | 20-50 | 0.1-0.3 | 低功率 |
| 金属TIM | 20-40 | 100-200 | 0.05-0.1 | 中功率 |
| 焊料TIM | 50-80 | 50-100 | 0.01-0.03 | 高功率 |
| 石墨片 | 300-1500(平面) | 25-100 | 0.005-0.02 | 热扩散 |
| 液态金属 | 30-40 | 20-30 | 0.02-0.04 | 高性能 |
3. 主动冷却方案:
微流道冷却:
集成微流道示意:
┌──────────────────┐
│ Microchannel │ ← 冷却液通道
├──────────────────┤
│ Die │
├──────────────────┤
│ Interposer │
└──────────────────┘
设计参数:
紧凑热模型(CTM):
双热阻模型: \(\theta_{JC} = \frac{T_J - T_C}{P_{total}}\) \(\theta_{JB} = \frac{T_J - T_B}{P_{total}}\)
其中:
详细3D热仿真:
网格划分策略:
仿真工具:
设计阶段:
制造阶段:
系统集成:
| 评估维度 | CoWoS-S | EMIB | 分析说明 |
|---|---|---|---|
| 成本 | $$$ | $$ | EMIB节省Interposer成本 |
| 性能 | ★★★★★ | ★★★★ | CoWoS布线密度更高 |
| 良率 | ★★★ | ★★★★ | EMIB小芯片良率优势 |
| 灵活性 | ★★★ | ★★★★★ | EMIB模块化设计 |
| 生态系统 | ★★★★★ | ★★★ | TSMC生态更成熟 |
| HBM支持 | ★★★★★ | ★★ | CoWoS原生HBM支持 |
| 热性能 | ★★★ | ★★★★ | EMIB无Interposer热阻 |
CoWoS-S最佳场景:
EMIB最佳场景:
NVIDIA A100 (CoWoS):
Intel Ponte Vecchio (EMIB):
成本效益分析:
2.5D封装技术作为现代高性能计算系统的关键使能技术,通过Silicon Interposer或EMIB等方案实现了芯片间的高密度、高带宽互联。本章系统性地探讨了2.5D封装的核心技术和设计挑战。
关键概念回顾:
关键公式汇总:
| 公式 | 描述 | 应用场景 |
|---|---|---|
| $Z_0 = \sqrt{L/C}$ | 特征阻抗 | 传输线设计 |
| $IL = \alpha_{DC} \cdot l + \alpha_{AC} \cdot l \cdot \sqrt{f}$ | 插入损耗 | 信号完整性分析 |
| $Z_{target} = V_{ripple}/I_{transient}$ | PDN目标阻抗 | 电源完整性设计 |
| $\theta = \Delta T / P$ | 热阻计算 | 热管理设计 |
| $t_{50} = A \cdot j^{-n} \cdot e^{E_a/k_B T}$ | 电迁移寿命 | 可靠性评估 |
题目4.1:计算Interposer布线密度 一个Silicon Interposer具有4层RDL,每层可布线区域宽度为20mm,最小线宽2μm,最小间距2μm。请计算该Interposer的理论最大布线密度。
题目4.2:TSV电阻计算 一个TSV的直径为10μm,高度为50μm,铜的电阻率为1.7×10⁻⁸ Ω·m。计算该TSV的直流电阻。
题目4.3:EMIB带宽计算 一个EMIB桥片长度为6mm,信号密度为400信号/mm,每个信号的数据率为4Gb/s。计算该EMIB的总带宽。
题目4.4:多die系统热分析 一个2.5D封装系统包含2个计算die(每个100W)和4个HBM(每个15W)。Interposer热阻为0.3K/W,封装到散热器的总热阻为0.2K/W。环境温度为25°C。计算最高结温。
题目4.5:信号完整性设计 设计一个差分对在Interposer上传输25Gb/s信号。介电常数εr=3.9,介质层厚度h=10μm。要求差分阻抗为100Ω。计算所需的线宽和间距。
题目4.6:成本效益分析 某AI芯片需要2TB/s的die间带宽,可选择CoWoS-S(成本$250,良率85%)或EMIB(成本$80,良率95%)。年产量10万片。计算两种方案的年度总成本差异。
题目4.7:PDN设计优化 设计一个支持100A瞬态电流的PDN,电源电压0.8V,允许5%纹波。计算所需的去耦电容值和分配策略。
题目4.8:技术选择决策 为一个新的数据中心加速器选择2.5D封装技术。需求:8个计算die,4个HBM3 stack,总功耗600W。请综合分析并推荐最佳方案。