本章深入探讨NPU从单核到多核的扩展技术,涵盖芯片内部的Scale-up架构和跨节点的Scale-out架构。随着AI模型规模的指数级增长,单一NPU芯片已无法满足算力需求,多核互连成为提升系统性能的关键路径。我们将分析不同互连拓扑的优劣,探讨通信与计算的平衡策略,并通过实际案例剖析200 TOPS系统如何通过多核扩展达到PetaOPS级别的算力。
Scale-up架构通过在单一封装或节点内集成多个计算核心来提升算力密度。这种架构的核心挑战在于如何高效管理片上资源共享和数据一致性。在200 TOPS的NPU设计中,单芯片通常只能提供25-50 TOPS算力,需要通过多核集成达到目标性能。Scale-up的优势在于片内互连延迟低(纳秒级)、带宽高(TB/s级),但受限于封装技术和功耗密度。
从系统架构的演进来看,Scale-up经历了从单片集成(Monolithic)到多芯片模组(MCM)再到Chiplet的发展历程。早期的单片集成受限于光刻极限和掩模尺寸(典型858mm²),随着晶体管密度提升,良率问题愈发突出。多芯片模组通过将多个独立芯片封装在一起部分解决了良率问题,但芯片间的互连成为新的瓶颈。Chiplet架构则通过标准化的芯片间接口和先进封装技术,实现了性能、成本、灵活性的最佳平衡。
现代NPU越来越多采用Chiplet架构,将多个小芯片通过先进封装技术集成在一起。这种方法相比单片大芯片具有更好的良率和成本效益。根据良率公式 $Y = Y_0 \times e^{-DA}$(其中D为缺陷密度,A为芯片面积),将600mm²大芯片拆分为4个150mm²小芯片,良率可从30%提升至70%以上。
良率的数学建模更精确地采用Poisson-Yield模型: \(Y = Y_0 \times \left(1 + \frac{DA}{\alpha}\right)^{-\alpha}\) 其中$\alpha$为聚集因子(clustering factor),典型值为2-5。对于先进工艺节点(7nm及以下),缺陷密度D约为0.1-0.2 defects/cm²。当芯片面积从600mm²降至150mm²时,不仅良率提升,关键路径的时序收敛难度也大幅降低,设计迭代周期缩短30-40%。
从经济学角度分析,Chiplet的成本优势不仅体现在良率提升,还包括:(1)异构集成能力,可以混合不同工艺节点,如7nm计算die配合14nm I/O die;(2)设计复用性,标准化的chiplet可以跨产品线复用;(3)库存灵活性,可根据市场需求组合不同配置。根据业界数据,采用Chiplet架构可将总体成本降低25-40%。
成本模型的定量分析: \(C_{total} = \frac{C_{wafer}}{N_{die} \times Y} + C_{package} + C_{test}\) 其中$N_{die}$为每片晶圆的芯片数量,与芯片面积成反比。Chiplet方案通过提高$N_{die}$和Y,显著降低单位成本。以TSMC 7nm工艺为例,12寸晶圆成本约$15,000,600mm²芯片可切出约70个,而150mm²可切出约300个。考虑良率差异,最终成本降幅可达: \(\Delta C = 1 - \frac{C_{chiplet}}{C_{monolithic}} = 1 - \frac{300 \times 0.7}{70 \times 0.3} \times \frac{1}{4} \approx 0.35\)
2.5D封装 (CoWoS/EMIB)
通过硅中介层(Interposer)实现芯片间的高密度互连。台积电的CoWoS (Chip-on-Wafer-on-Substrate)和Intel的EMIB (Embedded Multi-die Interconnect Bridge)是两种主流技术路线:
[NPU Die 1] [NPU Die 2] <- 7nm/5nm compute dies
| |
===================== <- Silicon Interposer (65nm)
| |
[HBM Stack] [HBM Stack] <- 8-16 layers DRAM
| |
=====================
Package Substrate <- Organic substrate
CoWoS技术深度分析:硅中介层采用65nm成熟工艺,成本相对可控。中介层上集成了高密度的金属互连层(通常4-6层),线宽/线距可达0.4μm/0.4μm,远优于有机基板的10μm/10μm。这种精细互连支持了极高的信号密度。中介层还集成了去耦电容和ESD保护电路,提升了信号完整性。
EMIB的创新在于局部嵌入式桥接,只在需要高密度互连的区域使用硅桥,其余区域使用常规有机基板。这种混合方案降低了成本(硅中介层面积减少70%以上),同时保持了关键路径的高带宽。EMIB的挑战在于机械应力管理,需要精确控制热膨胀系数(CTE)匹配。
互连密度计算:
信号完整性的量化分析: \(IL(f) = \alpha \sqrt{f} \times L + \beta f \times L\) 其中$\alpha$为导体损耗系数(~0.2 dB/cm/√GHz),$\beta$为介质损耗系数(~0.01 dB/cm/GHz),L为传输线长度。对于10cm的中介层走线,在10GHz下插入损耗约为7dB,需要均衡器补偿。
串扰(Crosstalk)是另一个关键挑战。近端串扰(NEXT)和远端串扰(FEXT)的数学模型: \(NEXT = 20\log_{10}\left(\frac{V_{coupled}}{V_{aggressor}}\right) = -20\log_{10}\left(\frac{2Z_0}{Z_{mutual}}\right)\) \(FEXT = NEXT + 20\log_{10}\left(e^{-\alpha L}\right)\)
其中$Z_{mutual}$为互感阻抗,与线间距d成反比:$Z_{mutual} \propto 1/d$。设计准则要求NEXT < -30dB,这限制了信号密度。通过差分信号和屏蔽地线,可将串扰降低15-20dB。
眼图(Eye Diagram)分析用于评估信号质量:
对于16Gbps信号,单位间隔UI = 62.5ps,要求总抖动< 18.75ps。这需要精确的时钟分配网络和去抖动电路(CDR)。
实际设计考量:
3D封装 (Chip-on-Wafer)
垂直堆叠实现更短的互连延迟和更高的带宽密度。AMD的3D V-Cache和Intel的Foveros技术展示了3D封装在高性能计算中的潜力:
Layer 3: [Memory Die] <- SRAM cache die (7nm)
|||||||| <- 10,000+ TSVs
Layer 2: [NPU Die 2] <- Compute die (5nm)
|||||||| <- Power/Signal TSVs
Layer 1: [NPU Die 1] <- Compute die (5nm)
|||||||| <- High-density TSVs
Layer 0: [Base Die with PHY] <- I/O and power delivery
3D堆叠的物理实现涉及多项关键技术。首先是晶圆减薄,顶层die需要减薄至50μm以下以便TSV穿透,这要求极高的工艺控制能力。其次是对准精度,die-to-die或wafer-to-wafer的对准精度需要达到亚微米级(<1μm),通常采用红外对准技术。键合工艺包括铜-铜直接键合(Cu-Cu hybrid bonding),可实现<10μm的键合间距,或微凸点(micro-bump)技术,间距约20-40μm。
热管理是3D封装的核心挑战。垂直堆叠导致热阻增加,底层die的热量需要穿过上层die才能散出。热阻模型: \(R_{thermal} = \sum_{i=1}^{n} \frac{t_i}{k_i \times A} + R_{interface}\) 其中$t_i$为第i层厚度,$k_i$为热导率,A为面积,$R_{interface}$为界面热阻。典型的多层堆叠热阻可达0.5-1.0 K/W,需要创新的散热方案如内嵌式微流道冷却。
TSV特性分析:
TSV的电气模型需要考虑寄生效应。TSV可以建模为RLC传输线,在高频下表现出传输线特性。串扰是另一个关键问题,相邻TSV间的耦合电容可达1-5fF,需要通过屏蔽TSV或差分信号传输来缓解。电源TSV的设计尤为关键,需要足够的数量来满足电流密度要求(<10⁵ A/cm²),同时提供低阻抗的电源分配网络。
TSV的等效电路模型包含以下参数: \(R_{TSV} = \frac{\rho \times h}{\pi(r_{outer}^2 - r_{inner}^2)}\) \(L_{TSV} = \frac{\mu_0 h}{2\pi}\ln\left(\frac{r_{outer}}{r_{inner}}\right)\) \(C_{TSV} = \frac{2\pi\epsilon_0\epsilon_r h}{\ln(r_{depletion}/r_{outer})}\)
其中h为TSV高度(50-100μm),$r_{outer}$为TSV半径(2.5-5μm),$r_{inner}$为导体半径,$r_{depletion}$为耗尽区半径。典型参数下:R~100mΩ,L~20pH,C~20fF。
信号TSV和电源TSV的配比优化是关键设计决策。定义电源完整性指标: \(Z_{PDN}(f) = \left|\frac{V_{noise}(f)}{I_{load}(f)}\right| < Z_{target}\)
目标阻抗$Z_{target} = \frac{V_{dd} \times ripple\%}{I_{max}}$,典型要求< 1mΩ。这需要:
热-电-机械多物理场耦合分析显示,TSV阵列会产生局部应力集中,最大应力可达: \(\sigma_{max} = E \times \alpha \times \Delta T \times \left(1 - \frac{r_{TSV}^2}{r_{KOZ}^2}\right)\) 其中E为杨氏模量,$\alpha$为热膨胀系数差,$\Delta T$为温度变化,$r_{KOZ}$为Keep-Out Zone半径。这要求TSV间距> 20μm以避免应力导致的可靠性问题。
带宽密度优势的量化分析:
实际应用案例:AMD MI300采用3D封装集成了8个计算die和4个I/O die,实现了5.2TB/s的die间带宽。相比2D方案,功耗降低了30%,面积减少了50%。
多核NPU需要维护数据一致性,尤其是在共享权重参数和中间激活值时。不同于CPU的通用缓存,NPU可以利用深度学习工作负载的特定访问模式优化一致性协议。
Cache一致性的本质是维护多个缓存副本的单一系统映像(Single System Image)。形式化定义:对于任意内存地址A,在任意时刻t,所有处理器观察到的A的值必须一致。这通过两个不变量保证:(1)写传播(Write Propagation):一个处理器的写操作必须最终被其他所有处理器看到;(2)写序列化(Write Serialization):所有处理器必须以相同的顺序观察到对同一地址的写操作。
一致性模型的形式化定义基于偏序关系(Partial Order)。定义程序顺序$<_p$和内存顺序$<_m$,一致性模型规定了这两者之间的约束关系。顺序一致性(Sequential Consistency)要求: \(\forall op_i, op_j: op_i <_p op_j \Rightarrow op_i <_m op_j\)
而弱一致性模型如TSO(Total Store Order)允许写后读重排序,提高了性能但增加了编程复杂性。NPU通常采用弱一致性配合显式同步原语,因为深度学习工作负载的数据依赖关系相对规则。
MESI协议状态机
基本的MESI (Modified, Exclusive, Shared, Invalid)协议包含四个状态:
Invalid (I)
/ | \
RdMiss WrMiss BusRd
/ | \
Shared Modified Exclusive
(S) (M) (E)
| | |
BusRdX WrBack PrWr
| | |
v v v
(I) (S) (M)
状态转换的完整矩阵分析: \(\begin{array}{|c|c|c|c|c|} \hline \text{Current} & \text{PrRd} & \text{PrWr} & \text{BusRd} & \text{BusRdX} \\ \hline I & S/E & M & - & - \\ S & S & M & S & I \\ E & E & M & S & I \\ M & M & M & S & I \\ \hline \end{array}\)
其中PrRd/PrWr表示处理器读/写,BusRd/BusRdX表示总线读/独占读。转换延迟取决于是否需要总线事务和内存访问。
状态转换的关键考虑:
MESI的性能优化变体:
NPU特定优化:
伪共享(False Sharing)是多核系统的常见性能陷阱。当不同核心访问同一cache line的不同部分时,会触发不必要的一致性流量。定量分析: \(Overhead_{false} = \frac{N_{invalidations} \times T_{coherence}}{T_{computation}}\)
对于典型的64B cache line,如果两个核心分别更新line内的不同32B数据,会导致ping-pong效应。解决方案包括:
在200 TOPS系统中,伪共享可能导致20-30%的性能损失,通过优化可恢复大部分性能。
目录协议 (Directory-based Coherence)
对于NPU的规模化部署(8核以上),目录协议比监听协议更具扩展性。目录维护每个cache line的全局共享状态:
目录协议的核心思想是将一致性信息集中管理,避免广播式查询。每个内存块都有一个”home node”负责维护该块的共享状态。当发生cache miss时,请求直接发送到home node,由其协调一致性操作。这种点对点通信模式显著降低了互连带宽需求,从O(N²)降至O(N)。
目录项结构:
[Tag | State | Presence Vector | Owner ID | LRU]
20b 2b N bits log₂N 4b
关键字段说明:
目录协议的状态转换涉及三方通信:请求者(Requestor)、目录(Directory)、共享者(Sharer)。典型的读miss处理流程:
这种三角通信模式的延迟分析: \(T_{3hop} = T_{req \to dir} + T_{dir \to owner} + T_{owner \to req} + T_{processing}\) 典型值为3×10ns + 5ns = 35ns,相比监听协议的广播延迟(~50ns)有所改善。
目录存储开销: $O_{dir} = \frac{N + \log_2 N + 2}{8 \times LineSize}$
对于64B cache line,16核系统:
目录协议优化策略:
目录协议的性能建模需要考虑排队论效应。使用M/M/1队列模型,目录节点的平均响应时间: \(T_{response} = \frac{1}{\mu - \lambda}\) 其中$\mu$为服务率,$\lambda$为到达率。当$\lambda \to \mu$时,延迟急剧增加。
对于16核系统,假设每核产生100 requests/μs,目录服务率为2000 requests/μs: \(\rho = \frac{16 \times 100}{2000} = 0.8\) \(T_{queue} = \frac{\rho}{\mu(1-\rho)} = \frac{0.8}{2000 \times 0.2} = 2\mu s\)
这表明当利用率超过80%时,排队延迟开始主导总延迟。解决方案包括:
Non-Uniform Memory Access (NUMA)在多核NPU中表现为不同核心访问不同内存区域的延迟差异。这种非对称性在AI工作负载中尤为明显,因为大规模矩阵运算需要频繁访问远程内存。
NUMA系统的内存访问可以用图论模型描述。将系统建模为有向图$G=(V,E)$,其中节点V代表处理器和内存,边E代表互连链路。节点i访问节点j的延迟为最短路径长度: \(T_{access}(i,j) = \sum_{e \in Path(i,j)} (T_{link}(e) + T_{hop}(e))\)
对于规则拓扑如2D Mesh,曼哈顿距离提供了良好的延迟估计: \(T_{NUMA} = T_{local} + k \times (|x_i - x_j| + |y_i - y_j|)\) 其中k为每跳延迟增量,典型值5-10ns。
延迟层次模型
多级缓存系统的访问延迟建模:
本地访问延迟: \(T_{local} = T_{L1} + p_{L1miss} \times (T_{L2} + p_{L2miss} \times T_{DRAM})\)
其中:
远程访问延迟: \(T_{remote} = T_{local} + T_{interconnect} + T_{coherence}\)
组成部分:
NUMA因子: $\alpha_{NUMA} = \frac{T_{remote}}{T_{local}}$
典型值:
数据布局优化策略
Layer N weights -> NUMA Node 0
Layer N+1 weights -> NUMA Node 1
Activations -> Local scratchpad
带宽优化公式: \(B_{effective} = \min(B_{local} + \frac{B_{remote}}{\alpha_{NUMA}}, B_{interconnect})\)
页面迁移(Page Migration)是动态优化NUMA访问的关键技术。定义页面p的访问开销: \(C_{access}(p) = \sum_{i=1}^{N} f_i(p) \times T_{access}(i, loc(p))\) 其中$f_i(p)$为节点i对页面p的访问频率,$loc(p)$为页面当前位置。
迁移决策基于成本收益分析: \(Benefit = T_{future} \times (C_{current} - C_{new}) - C_{migration}\) 其中$C_{migration} = PageSize / B_{interconnect} + T_{TLB_shootdown}$
当Benefit > 0时触发迁移。典型的4KB页面迁移开销约100μs,需要累积足够的访问偏差才值得迁移。
实际优化案例(200 TOPS系统):
优化技术细节:
性能计数器监控:
通过这些优化,NUMA系统可接近UMA系统85-90%的性能。
Scale-out通过多节点互连实现算力的水平扩展,是训练大模型和部署推理集群的主要方式。与Scale-up的紧耦合不同,Scale-out采用松耦合架构,通过网络协议实现节点间通信,具有更好的扩展性和容错性。
分布式AI系统的通信模式在训练和推理阶段存在本质差异,这直接影响架构设计选择。
训练场景特征
训练阶段的核心是梯度同步和参数更新:
通信量计算: \(V_{train} = 2 \times P \times \frac{N-1}{N}\) 其中P为参数量(如GPT-3为175B),N为节点数
带宽需求: 对于1750亿参数模型,FP16训练,1024个节点: \(BW_{required} = \frac{2 \times 175 \times 10^9 \times 2 \times 1023/1024}{T_{iteration}} \approx \frac{700GB}{T_{iteration}}\)
推理场景特征
推理阶段注重低延迟和高吞吐:
通信量:主要是激活值传递 \(V_{infer} = A \times B \times L\) 其中A为激活大小,B为批次大小,L为层数
通信计算比分析
系统性能取决于通信和计算的平衡:
\[\gamma = \frac{T_{comm}}{T_{comp}} = \frac{2P(N-1)/NB_{net}}{2P/T_{flops}}\]简化后: \(\gamma = \frac{T_{flops} \times (N-1)}{N \times B_{net}}\)
关键阈值:
实例分析(200 TOPS集群):
两种主流的分布式训练架构各有优劣,选择取决于具体场景需求。
参数服务器架构
参数服务器(Parameter Server, PS)采用中心化的架构管理模型参数:
[PS Group - Sharded Parameters]
PS1 PS2 PS3
| | |
+---+----------+----------+---+
| | | |
[W1] [W2] [W3] [W4] <- Workers
架构特点:
优势分析:
劣势与挑战:
带宽需求分析: \(B_{PS} = 2 \times P \times N \times f_{update}\)
其中:
优化策略:
Ring AllReduce
[NPU0] <-> [NPU1]
^ v
| |
[NPU3] <-> [NPU2]
分为Reduce-Scatter和AllGather两个阶段:
树形AllReduce
适合小消息和低延迟场景:
[Root]
/ \
[N1] [N2]
/ \ / \
[L1][L2] [L3][L4]
延迟:$O(\log N)$ 带宽开销:根节点为瓶颈,$B_{root} = P \times N/2$
为缓解通信瓶颈,梯度压缩成为关键技术。
Top-K稀疏化
只传输最大的K个梯度:
# 伪代码描述
sparse_grad = top_k(gradient, k=0.01*size)
indices = get_indices(sparse_grad)
# 传输 sparse_grad + indices
压缩率:$r = \frac{K}{N}$,典型值0.01-0.1 索引开销:$K \times \log_2 N$ bits
量化压缩
梯度量化到低精度: \(g_{quantized} = sign(g) \times \|g\|_2 \times Q(\frac{|g|}{\|g\|_2})\)
其中Q为量化函数,如:
误差补偿机制: \(g_t^{compressed} = Q(g_t + e_{t-1})\) \(e_t = g_t + e_{t-1} - g_t^{compressed}\)
高速互连是多核NPU系统的关键基础设施,决定了系统的扩展性上限和通信效率。
NVLink 3.0/4.0
NVIDIA专有的GPU/NPU互连技术:
功耗模型: \(P_{NVLink} = N_{links} \times (P_{static} + \alpha \times B_{utilized})\) 典型值:15-20W per 100GB/s
CXL (Compute Express Link)
基于PCIe物理层的开放标准:
[Host CPU/NPU]
|
[CXL Switch]
/ | \
[Mem] [NPU1] [NPU2]
延迟分解:
UCIe (Universal Chiplet Interconnect Express)
芯片间的die-to-die互连标准:
带宽密度计算: \(BW_{density} = \frac{lanes/mm \times GT/s \times efficiency}{8}\)
典型配置下可达 1-2 TB/s/mm边缘带宽。
Ring拓扑
最简单的互连结构,适合小规模系统:
[0]---[1]---[2]---[3]
| |
+−−−−−−−−−−−−−−−−+
2D Mesh/Torus
规则的网格结构,扩展性好:
[0,0]--[0,1]--[0,2]--[0,3]
| | | |
[1,0]--[1,1]--[1,2]--[1,3]
| | | |
[2,0]--[2,1]--[2,2]--[2,3]
Dragonfly拓扑
层次化设计,适合大规模系统:
Group 0: Group 1:
[R0]--[R1] [R4]--[R5]
| \/ | | \/ |
| /\ | <---> | /\ |
[R2]--[R3] [R6]--[R7]
Fat-Tree (胖树)
适合数据中心规模部署:
[Core]
/ \
[Agg] [Agg]
/ \ / \
[ToR][ToR][ToR][ToR]
| | | |
[NPU][NPU][NPU][NPU]
AllReduce优化算法
分段流水线执行:
Time NPU0 NPU1 NPU2 NPU3
0 S0->1 S1->2 S2->3 S3->0
1 S3'->1 S0'->2 S1'->3 S2'->0
2 S2''->1 S3''->2 S0''->3 S1''->0
...
带宽利用率:$(N-1)/N \times B_{link}$
两级reduce适合机架级部署:
总时间:$T_{total} = T_{local} + T_{global}$ \(T_{total} = \frac{2P(n-1)}{nB_{local}} + \frac{2P(m-1)}{mB_{global}}\)
其中n为机架内节点数,m为机架数。
两棵二叉树并行reduce,缓解根节点瓶颈:
Tree1: [R1] Tree2: [R2]
/ \ / \
[A] [B] [C] [D]
/ \ / \ / \ / \
[0][1] [2][3] [0][1] [2][3]
每个叶节点参与两棵树,最终结果需要交换。
Broadcast优化
将数据分块,流水线传输: \(T_{pipeline} = \alpha \times \log N + \frac{M}{B} + \frac{M}{kB}(\log N - 1)\)
其中k为流水线深度,$\alpha$为启动延迟。
节点既是接收者也是发送者:
收敛时间:$O(\log N)$轮次
AlltoAll优化
蝴蝶网络模式(Butterfly pattern):
Round 1: 交换邻居 (距离1)
Round 2: 交换距离2的节点
Round 3: 交换距离4的节点
...
Round log₂N: 完成
每轮传输量:$\frac{M \times N}{2}$ 总传输时间:$\log_2 N \times (\alpha + \frac{MN}{2B})$
本章系统探讨了NPU从单核到多核的扩展技术路径。Scale-up架构通过先进封装技术(Chiplet、CoWoS、3D堆叠)在单一节点内集成多个计算核心,重点解决了cache一致性和NUMA优化问题。Scale-out架构则通过分布式系统实现水平扩展,我们分析了参数服务器和AllReduce两种主流架构的优劣,以及梯度压缩技术对通信瓶颈的缓解作用。在芯片间互连方面,对比了NVLink、CXL、UCIe等高速互连标准的特性,并深入分析了不同网络拓扑(Ring、Mesh、Dragonfly、Fat-Tree)的设计权衡。
关键要点:
核心公式回顾:
习题13.1 计算2.5D封装互连带宽 一个NPU芯片采用CoWoS 2.5D封装,芯片边缘长度为20mm,bump密度为50 bumps/mm,信号速率为16 Gbps,计算该芯片单边的最大双向带宽。
习题13.2 MESI协议状态转换 在一个4核NPU系统中,初始时Core0的某cache line处于Modified状态。如果Core1发起对该地址的读请求,描述完整的状态转换过程和总线事务。
习题13.3 Ring AllReduce时间计算 8个NPU通过Ring拓扑连接,每条链路带宽100 GB/s,需要同步1GB的梯度数据。计算Ring AllReduce的理论完成时间(忽略延迟)。
习题13.4 多级存储层次优化 设计一个16核NPU系统,每核有256KB L1 cache,共享32MB L2 cache,访问延迟分别为1ns、10ns、100ns(DRAM)。如果工作集为64MB,L1命中率70%,L2命中率90%,计算平均内存访问时间(AMAT)。如何优化以降低AMAT?
习题13.5 梯度压缩误差分析 采用Top-1%稀疏化压缩梯度,原始梯度服从正态分布$N(0, \sigma^2)$,维度为$d=10^6$。计算压缩后的均方误差(MSE)和压缩率,并分析误差累积的影响。
习题13.6 拓扑性能建模 比较64个NPU在不同拓扑下执行AllReduce的性能:(a) 8×8 2D Torus,(b) 4×4×4 3D Torus,(c) Fat-Tree with 1:1 oversubscription。假设链路带宽均为50GB/s,数据量为256GB。
习题13.7 开放性思考:异构互连设计 设计一个200 TOPS NPU集群用于自动驾驶场景,需要同时处理感知(低延迟)、预测(中等延迟)、规划(计算密集)任务。如何设计异构互连架构以优化不同工作负载?