nvidia_history

第4章:并行计算成熟期 (2010-2015)

从科学计算到深度学习的关键转折点

章节概览

2010-2015年是NVIDIA历史上极为关键的转型期。这五年间,GPU从专业计算工具逐渐演变为深度学习的核心引擎。Kepler架构的能效革命、AlexNet在ImageNet竞赛的惊艳表现、Maxwell架构的极致优化,以及与学术界的深度合作,共同奠定了NVIDIA在AI时代的霸主地位。

4.1 Kepler突破:动态并行与能效革命 (2012)

4.1.1 架构创新:从Fermi到Kepler

2012年3月22日,NVIDIA发布了代号为Kepler的新一代GPU架构,首款产品GTX 680采用28nm工艺,包含35.4亿个晶体管。Kepler不是Fermi的简单升级,而是一次彻底的架构重构。

核心架构变革:

Fermi GF100 (2010)                 Kepler GK104 (2012)
┌──────────────────┐               ┌──────────────────┐
│   16个SM单元      │               │   8个SMX单元      │
│  每SM 32 CUDA核   │               │  每SMX 192 CUDA核  │
│  总计512 CUDA核   │               │  总计1536 CUDA核   │
│                  │               │                  │
│  热设计功耗:      │               │  热设计功耗:      │
│    244W          │               │    195W          │
│                  │               │                  │
│  单精度性能:      │               │  单精度性能:      │
│    1.03 TFLOPS   │               │    3.09 TFLOPS   │
└──────────────────┘               └──────────────────┘

SMX(Streaming Multiprocessor X)设计哲学:

Kepler的SMX采用了”更多简单核心”的设计理念,相比Fermi的SM:

4.1.2 动态并行:GPU编程范式革命

Kepler引入的动态并行(Dynamic Parallelism)是GPU计算历史上的重要里程碑,它允许GPU内核直接启动新的内核,无需CPU介入。

传统模式 vs 动态并行:

传统CUDA编程模式:                    Kepler动态并行:
                                    
CPU ──> GPU Kernel 1 ──> CPU        CPU ──> GPU Parent Kernel
         ↓                                        ↓
CPU ──> GPU Kernel 2 ──> CPU                GPU Child Kernel 1
         ↓                                        ↓
CPU ──> GPU Kernel 3 ──> CPU                GPU Child Kernel 2
                                                  ↓
往返开销: ~10-20μs/次                           递归调用
CPU瓶颈严重                                    自适应并行

实际应用案例:

  1. 自适应网格细化(AMR):在计算流体动力学中,动态并行使GPU能够自主决定哪些区域需要更细的网格
  2. 快速排序算法:递归分区可以完全在GPU上执行,性能提升3-5倍
  3. 光线追踪:动态生成次级光线,减少CPU-GPU同步开销

4.1.3 能效提升:绿色计算的里程碑

Kepler的能效提升不仅是技术进步,更是NVIDIA进军数据中心的关键。

能效指标对比:

架构 制程 TDP 单精度性能 能效比(GFLOPS/W) 提升倍数
Tesla (2008) 65nm 236W 933 GFLOPS 3.95 1.0x
Fermi (2010) 40nm 244W 1.03 TFLOPS 4.22 1.07x
Kepler (2012) 28nm 195W 3.09 TFLOPS 15.85 4.01x

GPU Boost技术:

Kepler首次引入GPU Boost动态频率调整技术:

4.1.4 产品矩阵与市场定位

消费级产品线(GeForce):

专业计算产品线(Tesla):

超算部署成果:

4.2 GTC大会创立:构建全球开发者社区 (2012)

4.2.1 从小型技术研讨到全球盛会

GPU技术大会(GPU Technology Conference, GTC)的前身可追溯到2009年的小型CUDA开发者聚会,仅有约300人参加。到2012年,GTC正式确立为年度旗舰技术大会,成为GPU计算领域的”圣地”。

GTC发展历程:

2009: NVISION → 首届GTC
├─ 地点:圣何塞会议中心
├─ 规模:300人
├─ 主题:CUDA编程
└─ 性质:技术研讨

2012: GTC正式品牌化
├─ 地点:圣何塞McEnery会议中心  
├─ 规模:2,500+参会者
├─ 主题:GPU计算全栈
├─ 展商:50+合作伙伴
└─ 演讲:200+技术报告

2015: 全球化扩张
├─ GTC China(北京)
├─ GTC Europe(慕尼黑)
├─ GTC Japan(东京)
└─ 总参会人数:10,000+

4.2.2 黄仁勋的主题演讲艺术

黄仁勋的GTC主题演讲成为科技界的标志性事件,他的黑色皮夹克、激情演说和现场演示成为个人品牌。

经典时刻回顾:

  1. 2012年 - “Kepler来了”
    • 现场演示Kepler架构
    • 首次提出”GPU计算时代”概念
    • 宣布与橡树岭国家实验室合作泰坦超算
  2. 2013年 - “移动超算”
    • 发布Tegra 4移动处理器
    • 演示Shield掌机原型
    • 提出”视觉计算”概念
  3. 2014年 - “深度学习觉醒”
    • 首次将深度学习作为主题
    • 演示GPU训练神经网络
    • 宣布cuDNN库发布

演讲风格分析:

4.2.3 生态系统建设策略

GTC不仅是产品发布会,更是NVIDIA构建生态系统的核心平台。

多层次生态建设:

┌─────────────────────────────────────┐
│         应用开发者                    │
│   游戏 | AI | 科学计算 | 可视化        │
├─────────────────────────────────────┤
│         框架开发者                    │
│  TensorFlow | PyTorch | MXNet        │
├─────────────────────────────────────┤
│         库开发者                      │
│   cuDNN | cuBLAS | NCCL | TensorRT   │
├─────────────────────────────────────┤
│         系统集成商                    │
│   Dell | HP | Supermicro | IBM       │
├─────────────────────────────────────┤
│         云服务商                      │
│   AWS | Azure | GCP | Alibaba        │
└─────────────────────────────────────┘

开发者培养计划:

  1. Deep Learning Institute (DLI)
    • 2012年启动
    • 免费在线课程
    • 认证体系建立
    • 2015年培训人数:10,000+
  2. GPU研究中心
    • 全球200+大学参与
    • 提供免费硬件支持
    • 年度研究基金:$5M+
  3. 初创企业加速器
    • Inception计划启动(2016年筹备)
    • 技术支持+市场资源
    • 早期投资对接

4.2.4 早期重要合作伙伴

学术界先驱:

机构 负责人 合作项目 影响力
斯坦福大学 吴恩达 深度学习课程 培养首批AI人才
纽约大学 Yann LeCun 卷积网络研究 推动CNN发展
多伦多大学 Geoffrey Hinton AlexNet 引爆深度学习
伯克利大学 Ion Stoica Spark GPU加速 大数据处理

产业界早期采用者:

  1. Adobe (2012)
    • Premiere Pro GPU加速
    • 创意云GPU渲染
    • 影响:专业创作者市场突破
  2. Pixar (2013)
    • RenderMan GPU版本
    • 实时预览技术
    • 影响:动画产业标准改变
  3. 百度 (2013)
    • 深度语音识别系统
    • GPU集群部署
    • 影响:中国AI市场开拓
  4. Facebook (2014)
    • DeepFace项目
    • 大规模GPU训练
    • 影响:社交媒体AI应用

4.3 AlexNet事件:深度学习的分水岭 (2012)

4.3.1 ImageNet竞赛背景

ImageNet大规模视觉识别挑战赛(ILSVRC)始于2010年,是计算机视觉领域的”世界杯”。2012年之前,传统机器学习方法统治着这个竞赛。

历年冠军错误率:

2010: NEC-UIUC (传统方法) ─────── 28.2%
2011: XRCE (传统方法) ──────────── 25.8%
2012: AlexNet (深度学习) ────────  15.3% ← 历史性突破!
                                    ↓
                              错误率降低40.7%

竞赛规模:

4.3.2 AlexNet架构与GPU加速

AlexNet由多伦多大学的Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton设计,是第一个成功使用GPU训练的深度卷积神经网络。

网络架构:

输入层 (224×224×3)
         ↓
Conv1: 96 kernels, 11×11, stride 4
         ↓
MaxPool: 3×3, stride 2
         ↓
Conv2: 256 kernels, 5×5
         ↓
MaxPool: 3×3, stride 2
         ↓
Conv3: 384 kernels, 3×3
         ↓
Conv4: 384 kernels, 3×3
         ↓
Conv5: 256 kernels, 3×3
         ↓
MaxPool: 3×3, stride 2
         ↓
FC6: 4096 neurons
         ↓
FC7: 4096 neurons
         ↓
FC8: 1000 neurons (输出)

总参数量:6000万

GPU训练细节:

  1. 硬件配置:
    • 2块GTX 580 (各3GB显存)
    • 模型并行:将网络分割到两块GPU
    • 训练时间:5-6天
  2. 关键技术创新:
    • ReLU激活函数:比tanh快6倍
    • Dropout正则化:防止过拟合
    • 数据增强:随机裁剪、水平翻转
    • 局部响应归一化(LRN)
  3. 性能对比: | 平台 | 训练时间 | 加速比 | |——|———|——–| | CPU (单核) | 约6个月 | 1x | | CPU (16核) | 约3周 | 8x | | 2×GTX 580 | 5-6天 | 30x |

4.3.3 产业影响与连锁反应

AlexNet的成功引发了深度学习的”寒武纪大爆发”。

直接影响:

2012年9月:AlexNet夺冠
    ↓
2012年12月:Google Brain团队复现
    ↓
2013年3月:百度成立深度学习研究院
    ↓
2013年6月:Facebook AI Research成立
    ↓
2013年12月:微软亚研院深度学习中心

技术扩散路径:

  1. 计算机视觉革命:
    • 2013:ZFNet优化AlexNet,错误率11.7%
    • 2014:VGGNet加深到19层
    • 2014:GoogLeNet引入Inception模块
    • 2015:ResNet达到152层,错误率3.57%
  2. GPU需求爆发:
    • 2012 Q4:Tesla K20销量环比增长300%
    • 2013年:深度学习相关GPU销售额$1.5亿
    • 2014年:主要云服务商开始部署GPU实例
  3. 人才流动:
    • Ilya Sutskever → OpenAI联合创始人
    • Alex Krizhevsky → Google Brain
    • 大量研究生转向深度学习

4.3.4 NVIDIA的快速响应

NVIDIA管理层迅速意识到AlexNet的历史意义,全面调整战略。

战略调整时间线:

2012年10月(AlexNet夺冠后1个月):

2013年Q1:

2013年Q2-Q4:

产品路线调整:

时期 优化重点 关键特性
2012前 双精度浮点 科学计算
2013 单精度吞吐 卷积加速
2014 内存带宽 大模型支持
2015 混合精度 FP16开始布局

市场培育策略:

  1. 免费GPU计划:
    • 向TOP50大学AI实验室赠送K40
    • 总价值:约$2000万
    • 回报:培养首批深度学习人才
  2. 软件工具支持:
    • 2014年9月:cuDNN v1发布
    • 性能提升:卷积操作3-5倍
    • 支持框架:Caffe、Theano、Torch
  3. 生态系统投资:
    • 投资深度学习创业公司
    • 赞助学术会议(NIPS、ICML、CVPR)
    • 建立GPU研究中心

4.4 Maxwell优化:架构重构与能效极限 (2014)

4.4.1 从头设计:打破传统架构

2014年2月18日,NVIDIA发布Maxwell架构,这不是Kepler的升级版,而是一次彻底的重新设计。首款产品GTX 750 Ti仅60W TDP却提供了惊人的性能,被誉为”能效革命”。

设计理念转变:

传统GPU设计思路:                    Maxwell设计思路:
"更多晶体管=更高性能"                "每瓦性能最大化"
     ↓                                    ↓
增加核心数量                         优化每个核心效率
提高频率                            降低无效功耗
增大缓存                            智能缓存管理
     ↓                                    ↓
功耗爆炸(GTX 480: 250W)            功耗控制(GTX 980: 165W)

架构革新要点:

  1. 调度器重新设计:
    • 每个SM从Kepler的192个核心减少到128个
    • 但每个核心的利用率从约60%提升到90%+
    • 四个独立的处理块(32 CUDA核心/块)
    • 每个块拥有独立的指令缓冲和调度器
  2. 控制逻辑优化:
    • 指令调度功耗降低50%
    • 寄存器文件访问能耗降低30%
    • 减少不必要的数据移动
  3. 缓存层次重构:
    L1 Cache/Shared Memory
    ├─ 从Kepler的64KB统一缓存
    └─ 改为独立的48KB共享内存 + 专用L1纹理缓存
        ├─ 降低争用
        └─ 提高带宽利用率
    

首发产品GTX 750 Ti震撼:

4.4.2 SM架构优化细节

Maxwell的SMM(Maxwell Streaming Multiprocessor)是GPU架构历史上的经典设计,其思想影响至今。

SMM内部结构:

              Maxwell SMM架构
    ┌────────────────────────────────┐
    │        Polymorph Engine         │
    │    (几何处理与曲面细分引擎)        │
    ├────────────────────────────────┤
    │   Instruction Cache (指令缓存)    │
    ├────────────────────────────────┤
    │        Warp Scheduler×4          │
    │     (每个管理8个Warp线程束)       │
    ├────┬────┬────┬────────────────┤
    │ Q0 │ Q1 │ Q2 │ Q3  (四象限)    │
    │32  │32  │32  │32  CUDA Cores  │
    │核心 │核心 │核心 │核心           │
    ├────┴────┴────┴────────────────┤
    │  Shared Memory (48KB独享内存)    │
    ├────────────────────────────────┤
    │    L1/Texture Cache (24KB)      │
    └────────────────────────────────┘

关键优化技术:

  1. 细粒度功耗门控:
    • 每个32核心块可独立关闭
    • 空闲时自动降频至100MHz以下
    • 微秒级唤醒延迟
    • 整体待机功耗降低90%
  2. 指令发射优化: | 架构 | 每时钟发射 | 调度器数量 | IPC效率 | |——|———–|———–|———| | Fermi | 2条指令 | 2个 | ~1.2 | | Kepler | 8条指令 | 4个 | ~1.5 | | Maxwell | 4条指令 | 4个 | ~1.9 |

  3. 寄存器文件改进:
    • 从Kepler的65536个32位寄存器/SM
    • 优化为65536个,但访问模式更高效
    • 寄存器组群(Register Bank)冲突减少75%
    • 有效带宽提升40%
  4. 纹理单元升级:
    • 原生支持BC6H/BC7压缩格式
    • 纹理缓存命中率提升20%
    • 各向异性过滤性能翻倍

4.4.3 内存压缩技术革新

Maxwell引入的第三代Delta颜色压缩是一项被低估的创新,为后续所有GPU架构奠定基础。

压缩技术演进:

无压缩 (2010前)          2:1压缩 (Fermi)         
带宽需求: 100%           带宽需求: 50-70%        
                                                
4:1压缩 (Kepler)         8:1压缩 (Maxwell)       
带宽需求: 25-40%         带宽需求: 12-25%        
                                                
压缩算法: Delta编码                              
├─ 相邻像素差值存储                               
├─ 可预测模式识别                                
└─ 无损压缩保证                                  

内存带宽优化技术栈:

  1. 帧缓冲压缩:
    • 平均压缩率:4:1到8:1
    • 完全透明(应用无感知)
    • 有效带宽提升2-3倍
    • 功耗降低25%
  2. 智能内存控制器:
    • 合并小块读写请求
    • 预测性预取
    • 乱序执行内存事务
    • 减少DRAM页面冲突
  3. 多级缓存优化:
    应用请求 → L1缓存(24KB/SM)
            ↓ (未命中)
           L2缓存(2MB全局)
            ↓ (未命中)
           压缩检测
            ↓
           DRAM控制器
            ↓
           GDDR5内存
    

实测带宽效率提升:

场景 Kepler有效带宽 Maxwell有效带宽 提升幅度
游戏渲染 180 GB/s 290 GB/s 61%
GPGPU计算 200 GB/s 310 GB/s 55%
深度学习 190 GB/s 285 GB/s 50%

4.4.4 移动GPU战略:Tegra K1/X1

Maxwell架构的能效优势使NVIDIA能够将桌面级GPU性能带入移动平台。

Tegra K1 (2014年1月):

芯片规格:
┌─────────────────────────────┐
│  4+1 ARM Cortex-A15 CPU     │
│  (或Denver 64位双核CPU)      │
├─────────────────────────────┤
│  Kepler GPU (192 CUDA核心)   │
│  支持OpenGL 4.4, CUDA 6.0    │
├─────────────────────────────┤
│  28nm HPM工艺               │
│  5W TDP (平板) / 11W (汽车)  │
└─────────────────────────────┘

性能指标:
- 365 GFLOPS (FP32)
- 首个支持CUDA的移动芯片
- 性能超越Xbox 360/PS3

Tegra X1 (2015年1月):

芯片规格:
┌─────────────────────────────┐
│  4×A57 + 4×A53 big.LITTLE   │
│  64位ARMv8架构              │
├─────────────────────────────┤
│  Maxwell GPU (256 CUDA核心)  │
│  2个SMM单元                 │
├─────────────────────────────┤
│  20nm工艺                   │
│  10W TDP (典型)             │
└─────────────────────────────┘

突破性能:
- 1 TFLOPS (FP32) - 移动端首次
- 支持4K 60Hz H.265解码
- 用于Nintendo Switch (2017)

车载平台DRIVE系列:

  1. DRIVE CX (2015):
    • 基于Tegra X1
    • 数字仪表盘方案
    • 奥迪、特斯拉早期采用
  2. DRIVE PX (2015):
    • 双Tegra X1配置
    • 2.3 TFLOPS算力
    • 首个自动驾驶开发平台
    • 12路摄像头输入支持

市场影响:

4.5 与吴恩达合作:深度学习布道 (2014)

4.5.1 斯坦福AI实验室合作

吴恩达(Andrew Ng)与NVIDIA的合作始于2011年,但在2014年达到高潮。作为斯坦福大学计算机科学系副教授和AI实验室主任,吴恩达是将GPU应用于深度学习的先驱之一。

早期探索(2011-2013):

2011年:Google Brain项目
├─ 使用16,000个CPU核心
├─ 训练10亿参数模型
├─ 成本:约500万美元
└─ 问题:规模化困难

2013年:斯坦福GPU实验
├─ 使用3台配备GPU的机器
├─ 达到相同性能
├─ 成本:约3.3万美元
└─ 性能提升:150倍性价比

斯坦福深度学习课程革新:

  1. CS231n:卷积神经网络与视觉识别
    • 2014年春季首次开课
    • NVIDIA提供:20块Tesla K40 GPU
    • 学生项目直接在GPU上训练
    • 培养人才:Andrej Karpathy等后来的AI领袖
  2. 大规模在线课程(MOOC):
    • Coursera机器学习课程
    • 注册学生:超过200万
    • GPU编程专题:2014年新增
    • 影响:普及GPU深度学习概念

实验室基础设施支持:

斯坦福AI实验室GPU集群 (2014)
┌─────────────────────────────────┐
│  管理节点 (Head Node)            │
│  - 调度系统:SLURM              │
│  - 存储:100TB NFS              │
└─────────┬───────────────────────┘
          │
    ┌─────┴─────┬─────────┬────────┐
    ↓           ↓         ↓        ↓
┌─────────┐ ┌─────────┐ ┌─────────┐
│ Node 1  │ │ Node 2  │ │ Node N  │
│ 4×K40   │ │ 4×K40   │ │ 4×K40   │
│ 48GB×4  │ │ 48GB×4  │ │ 48GB×4  │
└─────────┘ └─────────┘ └─────────┘

总算力:200+ TFLOPS
总投资:约150万美元(NVIDIA赞助50%)

4.5.2 百度深度学习研究院

2014年5月,吴恩达加入百度担任首席科学家,建立百度硅谷AI实验室。这次合作将NVIDIA GPU深度学习技术带入中国市场。

百度深度学习平台建设:

  1. Minwa超级计算机(2015年1月): ``` 系统配置:
    • 36个服务器节点
    • 144块Tesla K40 GPU
    • InfiniBand FDR互连
    • 6.7 TFLOPS总算力

    创纪录成就:

    • ImageNet测试:4.58%错误率
    • 超越人类水平(5.1%)
    • 训练时间:2周→3天 ```
  2. Deep Speech项目:
    • 中文语音识别系统
    • 训练数据:10,000小时语音
    • GPU使用:40块K40并行训练
    • 准确率:噪音环境下提升15%
    • 成果:2014年12月发表论文

技术创新与突破:

项目 传统方法 GPU加速后 改进幅度
语音识别训练 3个月 1周 12x
图像分类 2周 2天 7x
机器翻译 1个月 3天 10x
推荐系统 实时性差 毫秒级 1000x

百度-NVIDIA联合实验室:

成立时间:2014年7月 目标:

成果:

4.5.3 GPU集群训练方案

吴恩达团队开发的分布式GPU训练方案成为业界标准,影响了后续所有大规模深度学习系统。

DistBelief到Parameter Server演进:

单机多GPU (2012)              数据并行 (2013)
┌──────────┐                 ┌──────────┐
│   GPU0   │                 │  Worker1  │
│   GPU1   │                 │  (GPU×4)  │
│   GPU2   │ PCIe总线瓶颈     ├──────────┤
│   GPU3   │                 │  Worker2  │
└──────────┘                 │  (GPU×4)  │
                            └─────┬────┘
模型并行 (2014)                   │
┌──────────────────┐        Parameter Server
│ Layer1 → GPU0,1  │              │
│ Layer2 → GPU2,3  │         ┌────┴────┐
│ Layer3 → GPU4,5  │         │  PS节点  │
└──────────────────┘         └─────────┘

关键技术贡献:

  1. 异步SGD(Async-SGD):
    • 消除同步等待瓶颈
    • 线性扩展性到100+ GPU
    • 收敛速度损失<5%
    • 论文引用:2000+次
  2. 梯度压缩技术:
    原始梯度:32-bit float
         ↓
    1-bit SGD量化
         ↓
    通信量减少:32倍
    训练速度提升:10倍
    精度损失:<1%
    
  3. Ring-AllReduce算法:
    • 避免Parameter Server瓶颈
    • GPU间点对点通信
    • 带宽利用率:>90%
    • 后被Horovod采用

软件栈优化:

层级 优化技术 性能提升
应用层 混合精度训练 2-3x
框架层 cuDNN集成 3-5x
通信层 NCCL库 2-4x
驱动层 GPUDirect 30%

4.5.4 开源项目与社区贡献

吴恩达倡导的开源文化极大推动了GPU深度学习生态发展。

重要开源贡献:

  1. 深度学习教程资源:
    deeplearning.ai课程系列 (2017准备)
    ├─ 神经网络与深度学习
    ├─ 改进深度神经网络
    ├─ 结构化机器学习项目
    ├─ 卷积神经网络
    └─ 序列模型
       
    GPU编程实践:
    - 所有作业提供GPU代码
    - Colab免费GPU支持
    - 学习者:500万+
    
  2. 开源工具与框架:
    • Caffe GPU优化(2014):
      • 贡献cuDNN集成代码
      • 性能提升5倍
      • 成为主流CV框架
    • TensorFlow早期贡献(2015):
      • GPU内存管理优化
      • 多GPU训练示例
      • 官方教程编写
  3. 数据集与基准测试: ``` 贡献的开源数据集:
    • Chinese Speech Corpus(10000小时)
    • Street View House Numbers(60万样本)
    • YouTube-8M(800万视频)

    基准测试套件:

    • DAWNBench(训练速度基准)
    • MLPerf前身讨论参与 ```

社区影响力:

  1. 人才培养成果:
    • 直接指导博士生:30+
    • 其中进入AI领域:90%
    • 创立AI公司:12家
    • 知名学生:
      • Adam Coates → Khosla Ventures
      • Quoc Le → Google Brain
      • Richard Socher → Salesforce
  2. 产业标准制定:
    • 推动FP16训练成为标准
    • 倡导GPU集群架构规范
    • 参与ONNX标准制定
  3. 深度学习普及:
    影响力数据(2014-2015):
    论文引用:50,000+次
    课程学生:2,000,000+人
    开源项目Star:100,000+
    博客阅读:10,000,000+次
    

长期影响评估:

吴恩达与NVIDIA的合作产生了深远影响:

领域 2014年前 2015年后 变化
GPU使用率 <5%研究者 >80%研究者 16倍增长
训练成本 $100K+/模型 $1K/模型 100倍降低
模型规模 百万参数 十亿参数 1000倍增长
产业应用 实验阶段 大规模部署 质变

4.6 Bill Dally加入:学术与工业的桥梁 (2009)

4.6.1 斯坦福并行计算大师

4.6.2 研究院建设与人才培养

4.6.3 ExaScale计算愿景

4.6.4 架构创新理念影响

4.7 ARM授权获得:移动计算布局 (2011)

4.7.1 Project Denver:自研CPU之路

4.7.2 Tegra系列演进

4.7.3 车载平台战略

4.7.4 与高通、苹果的竞争

技术对比与总结

关键人物影响力分析

本章小结与展望