第6章:大模型纪元 (2021-2024)
从加速计算到AI主导,NVIDIA如何成为大模型时代的基础设施
章节概览
2021年至2024年是NVIDIA历史上最辉煌的时期。随着Transformer架构的成熟和大语言模型(LLM)的爆发式增长,NVIDIA从一家GPU制造商彻底转型为AI计算的基础设施提供商。这一时期,公司市值从5000亿美元飙升至超过3万亿美元,成为全球最有价值的科技公司之一。
本章将深入探讨NVIDIA如何通过Hopper和Blackwell架构引领大模型时代,如何应对供应链危机和地缘政治挑战,以及黄仁勋的"加速计算"愿景如何最终成为现实。
6.1 Hopper架构:为Transformer而生
6.1.1 架构设计理念
2022年3月22日,NVIDIA在GTC大会上发布了以计算机科学先驱Grace Hopper命名的H100 GPU。这不仅仅是一次常规的架构升级,而是专门针对Transformer模型优化的革命性设计。
设计背景与动机
Transformer架构自2017年Google发表"Attention Is All You Need"论文以来,已成为NLP领域的主导架构。GPT、BERT、T5等模型的参数规模从最初的1.1亿(BERT-base)快速增长到1750亿(GPT-3),对硬件提出了前所未有的挑战:
- 内存墙问题:模型参数和中间激活值需要巨大内存容量
- 计算密度需求:自注意力机制的O(n²)复杂度
- 通信瓶颈:多GPU训练时的梯度同步开销
- 精度权衡:在保证模型质量前提下提升训练速度
架构设计原则
-
Transformer优先设计 - 专门的Transformer Engine硬件单元 - 优化的注意力计算路径 - 自适应精度选择机制
-
扩展性优先 - 增强的NVLink 4.0互连 - 支持最多256个GPU的集群 - 优化的集合通信原语
-
能效优化 - 动态频率调节 - 细粒度功耗管理 - 工作负载感知的资源分配
Hopper H100 架构核心参数
┌─────────────────────────────────────────────┐
│ 制程工艺:TSMC 4N (定制4nm) │
│ 晶体管数:800亿 │
│ 芯片面积:814 mm² │
│ SM数量:132个 (完整版144个) │
│ FP32 CUDA核心:16,896个 │
│ 第四代Tensor Core:528个 │
│ HBM3内存:80GB │
│ 内存带宽:3.35 TB/s │
│ NVLink 4.0:900 GB/s (18个链路) │
│ TDP功耗:700W (SXM5版本) │
└─────────────────────────────────────────────┘
6.1.2 Transformer Engine革新
Hopper架构最重要的创新是Transformer Engine,这是专门为加速Transformer模型设计的硬件单元。这个创新源于NVIDIA研究团队对大模型训练瓶颈的深入分析。
技术创新背景
2021年,NVIDIA研究团队(由Paulius Micikevicius领导)发现了一个关键洞察:Transformer模型的不同层和不同操作对数值精度的要求差异很大。基于这一发现,他们开发了选择性精度降低技术。
FP8格式设计
Transformer Engine支持两种FP8格式,每种针对不同用途优化:
E4M3格式(1-4-3):
┌─┬────┬───┐
│S│EEEE│MMM│ 范围:±448,精度:0.125
└─┴────┴───┘ 用途:前向传播,权重存储
E5M2格式(1-5-2):
┌─┬─────┬──┐
│S│EEEEE│MM│ 范围:±57344,精度:0.25
└─┴─────┴──┘ 用途:梯度计算,激活值
动态精度调整机制
-
统计分析阶段 - 硬件自动收集张量统计信息 - 分析数值分布和动态范围 - 每1000次迭代更新一次
-
精度选择策略 - 注意力矩阵:FP8 E4M3(精度要求低) - FFN层:FP8 E5M2(范围要求大) - 层归一化:FP16/FP32(精度敏感) - 损失计算:FP32(避免梯度消失)
-
自动缩放机制 - 每个张量独立的缩放因子 - 硬件加速的缩放操作 - 与优化器状态同步更新
性能提升分析
- FP8 vs FP16:6倍理论吞吐量提升
- 实际模型加速:GPT-3训练2.5倍,推理4.5倍
- 内存占用减少:50%参数存储,40%激活值缓存
算法优化实现
Transformer Engine不仅仅是精度转换,还包含了多项算法级优化:
传统计算流程(A100):
Input (FP16) → MatMul → Activation → Output (FP16)
├─ 内存读取:32GB
├─ 计算时间:100ms
└─ 功耗:350W
Transformer Engine流程(H100):
Input (FP16) → 智能量化 → FP8 MatMul → 反量化 → Output
├─ 内存读取:16GB(-50%)
├─ 计算时间:40ms(-60%)
└─ 功耗:280W(-20%)
Flash Attention集成
Hopper的Transformer Engine原生支持Flash Attention算法(由Tri Dao等人提出):
-
分块计算 - 将注意力矩阵分割成小块 - 每块独立计算,减少内存访问 - 硬件级的块调度优化
-
融合算子 - QKV投影融合:减少3次内存访问到1次 - Softmax与缩放融合:避免中间结果存储 - 多头并行:硬件级并行调度
-
内存层次优化
L1缓存:保存当前块的Q、K、V
L2缓存:预取下一块数据
HBM3:只存储最终结果
带宽利用率:从35%提升到85%
实际应用案例
| 模型 | 参数量 | A100训练时间 | H100训练时间 | 加速比 |
| 模型 | 参数量 | A100训练时间 | H100训练时间 | 加速比 |
|---|---|---|---|---|
| GPT-3 175B | 1750亿 | 34天 | 13天 | 2.6× |
| PaLM 540B | 5400亿 | 62天 | 21天 | 3.0× |
| LLaMA 65B | 650亿 | 21天 | 7天 | 3.0× |
| Mistral 7B | 70亿 | 3天 | 14小时 | 5.1× |
6.1.3 DPX指令集深度解析
动态编程指令(DPX)是Hopper的另一项关键创新,专门加速动态规划算法。这项技术的开发背景是AI应用正从单纯的神经网络扩展到更广泛的算法领域。
DPX指令集设计动机
传统GPU在处理动态规划问题时面临挑战:
- 递归依赖导致并行度受限
- 不规则内存访问模式
- 分支预测困难
- 缓存利用率低
核心DPX指令
- __dmma指令族(Dynamic Matrix Multiply Accumulate)
// 传统实现:串行依赖
for(i = 0; i < N; i++)
for(j = 0; j < M; j++)
dp[i][j] = max(dp[i-1][j], dp[i][j-1]) + cost[i][j];
// DPX优化:波前并行
__dmma.sync.aligned.m16n8k16.f32.tf32.tf32(dp, prev, cost);
-
__viaddmax指令(Vector Integer Add with Maximum) - 单指令完成加法和最大值选择 - 减少70%的指令数 - 支持饱和算术
-
__match_any_sync指令 - 加速模式匹配 - 硬件级字符串比较 - 32线程并行匹配
Smith-Waterman算法加速
基因序列比对是生物信息学的核心算法:
性能对比(10Kb序列比对):
┌────────────┬────────┬─────────┬────────┐
│ 平台 │ 时间 │ 功耗 │ 性价比 │
├────────────┼────────┼─────────┼────────┤
│ CPU(64核) │ 185ms │ 450W │ 1× │
│ A100 GPU │ 42ms │ 400W │ 4.9× │
│ H100 DPX │ 5.4ms │ 350W │ 38.2× │
└────────────┴────────┴─────────┴────────┘
路径优化算法应用
物流和自动驾驶领域的关键算法:
-
Dijkstra算法加速 - 优先队列硬件实现 - 并行松弛操作 - 4倍性能提升
-
A*搜索优化 - 启发式函数硬件加速 - 多路径并行探索 - 实时路径规划支持
-
旅行商问题(TSP) - 分支限界并行化 - 动态剪枝优化 - 大规模问题求解
图算法加速案例
社交网络和推荐系统的核心:
| 算法类型 | 应用场景 | A100性能 | H100 DPX性能 | 提升 |
| 算法类型 | 应用场景 | A100性能 | H100 DPX性能 | 提升 |
|---|---|---|---|---|
| PageRank | 网页排序 | 12 GTEPS | 61 GTEPS | 5.1× |
| BFS | 最短路径 | 89 GTEPS | 298 GTEPS | 3.3× |
| 社区检测 | 用户聚类 | 156 M/s | 892 M/s | 5.7× |
| 三角计数 | 网络分析 | 28 B/s | 195 B/s | 7.0× |
6.1.4 内存子系统革新
HBM3内存技术
- 带宽提升:从A100的2TB/s提升到3.35TB/s
- 容量增加:从80GB HBM2e升级到80GB HBM3
- ECC保护:完整的错误纠正能力
L2缓存扩展
缓存层级对比:
A100 H100
L1缓存: 192KB 256KB (每个SM)
L2缓存: 40MB 50MB
寄存器: 6.5MB 7.5MB
6.2 ChatGPT爆发与H100供应危机
6.2.1 ChatGPT引爆AI革命
2022年11月30日,OpenAI发布ChatGPT,仅用5天就获得100万用户,2个月突破1亿用户,成为历史上增长最快的消费级应用。这一现象级产品彻底改变了AI产业格局。
ChatGPT的硬件需求
GPT-3.5训练集群配置:
┌──────────────────────────────────────┐
│ GPU数量:10,000+ NVIDIA A100 │
│ 训练时间:数周 │
│ 参数规模:1750亿 │
│ 训练成本:约400-1200万美元 │
└──────────────────────────────────────┘
GPT-4训练估算:
┌──────────────────────────────────────┐
│ GPU数量:25,000+ NVIDIA A100/H100 │
│ 训练时间:3-6个月 │
│ 参数规模:1.76万亿(估计) │
│ 训练成本:超过1亿美元 │
└──────────────────────────────────────┘
6.2.2 H100"一卡难求"
ChatGPT的成功引发了全球科技公司的AI军备竞赛,H100成为最稀缺的战略资源:
供需失衡状况
- 2023年Q1:订单积压超过6个月
- 2023年Q2:二级市场价格从3.5万美元炒到6万美元
- 2023年Q3:大客户预定量超过50万片
- 2023年Q4:交付周期延长至52周
主要买家分布 | 客户类型 | 代表公司 | 采购规模 | 用途 |
| 客户类型 | 代表公司 | 采购规模 | 用途 |
|---|---|---|---|
| 云服务商 | Microsoft、Google、AWS | 10万+片/季 | 云服务基础设施 |
| AI公司 | OpenAI、Anthropic | 1-5万片 | 模型训练 |
| 互联网巨头 | Meta、Tesla | 5-10万片 | 自研大模型 |
| 中国公司 | 字节、阿里、百度 | 1-3万片 | 本土大模型 |
| 主权AI | 沙特、UAE | 数千片 | 国家AI战略 |
6.2.3 供应链挑战
生产瓶颈
- CoWoS封装产能:台积电先进封装产能不足
- HBM3内存:SK海力士和三星供应紧张
- Interposer中介层:2.5D封装关键组件短缺
- 测试产能:高端GPU测试设备不足
NVIDIA的应对策略
- 预付款锁定产能:向台积电支付数十亿美元预付款
- 多元化供应链:引入三星作为备选代工厂
- 产品分级:推出H100 PCIe版本缓解SXM版压力
- 配额制度:建立公平分配机制
6.3 ARM收购失败:400亿美元的挫折
6.3.1 收购背景与战略意图
2020年9月13日,NVIDIA宣布以400亿美元收购ARM,这将是半导体历史上最大的并购案。黄仁勋的战略愿景是打造从云到端的完整计算平台。
战略价值分析
NVIDIA + ARM 协同效应:
┌────────────────────────────────────────┐
│ 数据中心:Grace CPU + Hopper GPU │
│ 边缘计算:ARM CPU + NVIDIA AI │
│ 自动驾驶:ARM车载 + NVIDIA Drive │
│ 物联网:ARM低功耗 + NVIDIA推理 │
│ 手机/平板:ARM处理器 + NVIDIA图形 │
└────────────────────────────────────────┘
6.3.2 监管阻力与反对声音
各方反对理由
| 反对方 | 主要担忧 | 具体诉求 |
| 反对方 | 主要担忧 | 具体诉求 |
|---|---|---|
| 高通 | ARM中立性受损 | 阻止交易 |
| 授权费用上涨 | 要求承诺 | |
| 微软 | 竞争优势丧失 | 监管介入 |
| 中国监管 | 国家安全 | 不予批准 |
| 英国政府 | 主权资产流失 | 深度审查 |
| FTC | 垄断风险 | 起诉阻止 |
6.3.3 交易终止与后续影响
2022年2月7日,在经历17个月的监管审查后,NVIDIA宣布放弃收购:
直接损失
- 12.5亿美元分手费
- 法律和顾问费用数亿美元
- 管理层精力分散
- 股价短期下跌15%
战略调整
- 加速自研Grace CPU开发
- 深化与ARM的合作关系
- 投资RISC-V生态系统
- 专注于软件定义的数据中心
6.4 Grace CPU与超级芯片战略
6.4.1 Grace CPU诞生
失去ARM后,NVIDIA加速推进基于ARM架构的自研CPU——Grace,以瑞士出生的计算机科学先驱Grace Hopper命名。
Grace CPU规格
架构特性:
┌─────────────────────────────────────┐
│ 架构:ARM Neoverse V2 │
│ 核心数:72个ARM核心 │
│ 制程:TSMC 4N │
│ 缓存:117MB L3缓存 │
│ 内存:LPDDR5X,带宽500GB/s │
│ 互连:NVLink-C2C,900GB/s │
│ TDP:250W-500W(配置可调) │
└─────────────────────────────────────┘
6.4.2 超级芯片组合
Grace Hopper (GH200) 将Grace CPU和Hopper GPU通过NVLink-C2C互连,形成统一内存架构:
GH200超级芯片架构:
┌──────────────┐ ┌──────────────┐
│ Grace CPU │ │ Hopper GPU │
│ 72 cores │C2C │ H100 die │
│ ├─────┤ │
│ 512GB │900 │ 96GB │
│ LPDDR5X │GB/s │ HBM3 │
└──────────────┘ └──────────────┘
↓ ↓
CPU任务处理 GPU加速计算
性能优势
- 统一内存空间:最高608GB可寻址内存
- 零拷贝开销:CPU和GPU直接共享数据
- 能效比提升:相比x86+GPU方案节能40%
6.4.3 MGX模块化系统
2023年5月,NVIDIA推出MGX(Modular GPU Extension)参考设计:
系统配置选项 | 配置类型 | CPU选项 | GPU选项 | 应用场景 |
| 配置类型 | CPU选项 | GPU选项 | 应用场景 |
|---|---|---|---|
| 基础版 | Grace×1 | H100×1 | 推理服务 |
| 标准版 | Grace×2 | H100×4 | 中型训练 |
| 高级版 | Grace×2 | H100×8 | 大模型训练 |
| 集群版 | Grace×N | H100×N | 超大规模 |
6.5 市值破万亿:AI时代的赢家
6.5.1 股价飙升历程
2023年5月30日,NVIDIA市值首次突破1万亿美元,成为历史上第7家、芯片行业第1家万亿美元公司。
关键时间节点
股价与市值演进:
2021.01:市值 3,200亿美元,股价 130美元
2022.01:市值 6,800亿美元,股价 270美元
2022.11:ChatGPT发布,股价开始加速
2023.02:市值 5,800亿美元(Q4财报超预期)
2023.05:市值破万亿,股价 400美元
2023.08:市值 1.2万亿,股价 470美元
2024.01:市值 1.5万亿,股价 600美元
2024.06:市值破3万亿,股价 1200美元(拆股后120)
6.5.2 财务表现分析
营收爆发式增长
| 财年 | 总营收 | 数据中心营收 | 数据中心占比 | 毛利率 |
| 财年 | 总营收 | 数据中心营收 | 数据中心占比 | 毛利率 |
|---|---|---|---|---|
| FY2021 | 167亿 | 67亿 | 40% | 62.3% |
| FY2022 | 270亿 | 106亿 | 39% | 64.9% |
| FY2023 | 270亿 | 150亿 | 56% | 56.9% |
| FY2024 | 609亿 | 475亿 | 78% | 70.1% |
| FY2025E | 1200亿+ | 1000亿+ | 83% | 75%+ |
6.5.3 投资者信心来源
核心竞争优势
- 技术护城河:CUDA生态系统10年积累
- 产品领先:H100性能领先竞品2-3代
- 供应链控制:锁定关键产能
- 客户粘性:迁移成本极高
- 软件定价权:AI Enterprise等订阅服务
6.6 Blackwell架构:第二代Transformer引擎
6.6.1 B100/B200规格突破
2024年3月GTC大会,黄仁勋发布Blackwell架构,以数学家David Blackwell命名:
架构参数对比
Hopper H100 Blackwell B200
─────────────────────────────────────────────
晶体管数: 800亿 2080亿
制程工艺: 4nm 4nm (双芯片)
FP8性能: 2 PFLOPS 20 PFLOPS
内存容量: 80GB HBM3 192GB HBM3e
内存带宽: 3.35 TB/s 8 TB/s
NVLink: 900 GB/s 1.8 TB/s
功耗: 700W 1000W (液冷)
6.6.2 第二代Transformer引擎
关键创新
- FP4精度支持:训练速度提升2.5倍
- 专家混合(MoE)优化:支持万亿参数模型
- RAS可靠性:芯片级冗余设计
- 安全计算:硬件级机密计算支持
6.6.3 NVLink Switch芯片
第五代NVLink引入独立Switch芯片,支持576个GPU互连:
NVLink网络拓扑:
┌─────────────────────────┐
│ NVLink Switch Chip │
│ 130TB/s 总带宽 │
└────┬──────┬──────┬──────┘
│ │ │
┌───▼──┐┌──▼───┐┌▼────┐
│GPU 0 ││GPU 1 ││GPU N│
└──────┘└──────┘└─────┘
B200 B200 B200
6.6.4 GB200 NVL72系统
将72个Blackwell GPU和36个Grace CPU集成在一个机架中:
系统规格
- 计算性能:720 PFLOPS (FP8)
- 内存容量:13.5TB HBM3e
- 网络带宽:130TB/s NVLink
- 功耗:120kW(液冷)
- 应用:万亿参数模型训练
6.7 黄仁勋的远见:加速计算成为现实
6.7.1 十年前的预判
2014年,当GPU还主要用于图形渲染时,黄仁勋就提出"加速计算"概念:
历史性演讲摘录(2014 GTC)
"摩尔定律正在放缓,但计算需求呈指数增长。未来属于加速计算——用专门的处理器加速特定工作负载。GPU将成为这个时代的引擎。"
6.7.2 战略决策回顾
关键决策时间线
| 年份 | 决策 | 当时争议 | 后续影响 |
| 年份 | 决策 | 当时争议 | 后续影响 |
|---|---|---|---|
| 2006 | 推出CUDA | "没人需要GPU编程" | 奠定AI计算基础 |
| 2012 | 投资深度学习 | "AI寒冬还没结束" | AlexNet证明价值 |
| 2016 | DGX-1发布 | "12.9万美元太贵" | 定义AI硬件标准 |
| 2018 | 退出挖矿市场 | "放弃巨额利润" | 专注AI获得回报 |
| 2020 | 收购Mellanox | "690亿太贵" | 数据中心网络关键 |
| 2022 | All-in Transformer | "过度专门化" | H100供不应求 |
6.7.3 领导力特质
黄仁勋的管理哲学
-
长期主义 - CUDA投资15年才盈利 - 坚持技术路线不动摇 - 忍受短期股价波动
-
技术直觉 - 亲自参与架构设计 - 每周技术评审会议 - 直接对话工程师
-
生态思维 - 开发者优先策略 - 开源关键工具 - 大学合作计划
-
危机意识 - "我们离倒闭只有30天" - 持续自我颠覆 - 快速迭代产品
6.7.4 企业文化塑造
NVIDIA核心价值观
智力诚实
│
┌─────────┼──────────┐
│ │ │
速度与敏捷 追求卓越 One Team
│ │ │
└─────────┼──────────┘
创新精神
6.7.5 未来愿景
2024年最新战略方向
-
物理AI(Physical AI) - Omniverse数字孪生平台 - 机器人仿真训练 - 工业元宇宙
-
生成式AI普及 - AI PC战略 - 边缘推理芯片 - 消费级AI应用
-
主权AI(Sovereign AI) - 国家级AI基础设施 - 本地化大模型 - 数据主权解决方案
-
量子计算准备 - 量子-经典混合计算 - cuQuantum开发平台 - DGX Quantum系统
6.8 地缘政治挑战与应对
6.8.1 美国出口管制影响
2022年10月,美国商务部实施对华AI芯片出口管制:
管制演变
2022.10:A100/H100禁运
↓
2022.11:推出A800/H800(降速版)
↓
2023.10:扩大管制,A800/H800被禁
↓
2024.01:推出H20/L20/L2(合规版)
↓
持续博弈中...
6.8.2 中国市场策略调整
市场影响评估
- 中国营收占比:从25%降至15%
- 库存调整:2023年Q3提前出货
- 竞争格局:本土厂商机会增加
- 长期影响:技术脱钩风险
NVIDIA应对措施
- 开发合规产品线
- 加强东南亚布局
- 软件服务本地化
- 保持技术交流
6.8.3 全球供应链重组
产能布局调整 | 地区 | 角色 | 投资规模 | 战略意义 |
| 地区 | 角色 | 投资规模 | 战略意义 |
|---|---|---|---|
| 台湾 | 核心制造 | 持续投资 | 技术领先 |
| 新加坡 | 测试封装 | 10亿美元 | 分散风险 |
| 马来西亚 | 后段制造 | 5亿美元 | 成本优化 |
| 越南 | 组装基地 | 3亿美元 | 供应链韧性 |
| 印度 | 研发中心 | 扩大规模 | 人才储备 |
6.9 竞争格局与护城河
6.9.1 主要竞争对手分析
AMD MI300系列
MI300X规格对比H100:
性能:理论FLOPS相当
内存:192GB HBM3 vs 80GB HBM3
生态:ROCm vs CUDA(差距巨大)
价格:便宜20-30%
市占率:<5% vs >90%
Intel Gaudi 3
- 定位:企业推理市场
- 优势:x86生态整合
- 劣势:软件栈不成熟
- 策略:价格战+捆绑销售
Google TPU v5p
- 专注:内部使用+云服务
- 性能:特定负载优势
- 限制:不对外销售硬件
- 趋势:自用比例增加
6.9.2 CUDA生态护城河
生态规模统计(2024)
CUDA生态系统:
├── 开发者:400万+
├── 应用程序:4000+
├── 加速库:500+
├── AI框架:全部主流框架原生支持
├── 代码仓库:GitHub上100万+项目
└── 教育机构:3000+大学课程
迁移成本分析
- 代码重写:数月到数年
- 性能优化:需重新调优
- 人才培训:工程师再教育
- 工具链:配套工具缺失
- 风险成本:稳定性未知
6.9.3 技术领先优势
代际领先评估
| 技术维度 | NVIDIA | 最近竞品 | 领先代数 |
| 技术维度 | NVIDIA | 最近竞品 | 领先代数 |
|---|---|---|---|
| Tensor性能 | B200 | MI300X | 1.5代 |
| 内存技术 | HBM3e | HBM3 | 0.5代 |
| 互连带宽 | NVLink5 | Infinity | 2代 |
| 软件栈 | CUDA12 | ROCm6 | 3-4代 |
| 系统设计 | DGX | OEM方案 | 2代 |
6.10 本章总结
6.10.1 关键成就
-
技术突破 - Transformer Engine定义大模型硬件标准 - Grace CPU实现超级芯片战略 - Blackwell架构实现2万亿晶体管集成
-
商业成功 - 市值从5000亿到3万亿美元 - 数据中心营收占比达到78% - 毛利率突破75%
-
生态主导 - CUDA成为AI开发事实标准 - H100成为大模型训练必需品 - 软件订阅模式初见成效
6.10.2 挑战与风险
- 供应链压力:先进制程产能受限
- 地缘政治:出口管制影响增长
- 竞争加剧:巨头自研芯片威胁
- 技术迭代:新架构研发压力
- 估值泡沫:市场预期过高风险
6.10.3 历史定位
2021-2024年是NVIDIA从"卖铲子"到"建金矿"的关键转型期。公司不仅提供硬件,更构建了完整的AI计算平台。黄仁勋15年前的"加速计算"愿景,在大模型时代得到完美验证。
正如黄仁勋在2024年GTC上所说:
"我们正处于计算史上最重要的转折点。AI不再是科幻,而是新的工业革命。NVIDIA的使命是为这个新时代提供引擎。"
6.10.4 未来展望
站在2024年中期回望,NVIDIA已经确立了AI时代基础设施提供商的地位。但挑战依然存在:
- 技术演进:后Transformer时代的架构准备
- 市场扩展:从训练到推理的全栈覆盖
- 生态深化:软件即服务模式探索
- 全球布局:应对地缘政治分裂
无论如何,NVIDIA已经证明了一个道理:在技术转折点押注未来,坚持长期主义,终将获得时代的奖赏。从1993年的Denny's餐厅到2024年的3万亿市值,这是一个关于远见、坚持和创新的传奇故事。
下一章:第7章 GPU架构演进 - 深入剖析从Tesla到Blackwell的技术演进路径