从移动互联网向人工智能的战略转型,百度全面拥抱AI时代
2016 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 2020
│ │ │ │ │
AI战略发布 陆奇加盟 Apollo开源 DuerOS发布 昆仑芯片
2016.9 2017.1 2017.4 2017.7 2018.7
2016年,在错失移动互联网部分机遇后,李彦宏做出了百度历史上最重要的战略决定之一——”All in AI”。这一时期,百度不仅引进了硅谷传奇人物陆奇担任COO,更是在自动驾驶、智能语音、AI芯片等多个前沿领域全面发力,奠定了中国AI领军企业的地位。
2017年1月17日,前微软全球执行副总裁陆奇正式加盟百度,担任集团总裁兼首席运营官(COO)。这位在硅谷享有盛誉的华人高管的加入,标志着百度AI战略进入全新阶段。
组织架构大调整
陆奇上任后迅速推动了百度历史上最大规模的组织架构调整:
原组织架构(2016) 新组织架构(2017)
┌─────────┐ ┌─────────┐
│ 李彦宏 │ │ 李彦宏 │
└────┬────┘ └────┬────┘
│ │
┌────▼─────────────┐ ┌────▼────┐
│ 各事业群并列 │ │ 陆奇 │
│ 搜索/金融/O2O等 │ │ (COO) │
└──────────────────┘ └────┬────┘
│
┌───────────┼───────────┐
│ │ │
┌─────▼────┐ ┌───▼───┐ ┌────▼────┐
│ AI技术群 │ │智能驾驶│ │智能生活│
│ (AIG) │ │事业群 │ │事业群 │
└──────────┘ └────────┘ └─────────┘
“AI First”战略明确化
陆奇将李彦宏提出的AI战略具体化为”夯实移动基础,决胜AI时代”的双引擎战略:
关键人事调整
| 岗位 | 原负责人 | 新负责人 | 变化说明 |
|---|---|---|---|
| AI技术体系 | 吴恩达(已离职) | 王海峰 | 统一AI技术平台 |
| 自动驾驶事业部 | 王劲 | 陆奇直管 | 提升战略地位 |
| 度秘事业部 | 原分散团队 | 景鲲 | 整合语音交互业务 |
| 金融服务事业群 | 朱光 | 朱光(向陆奇汇报) | 纳入AI体系 |
2017年4月19日,陆奇在上海车展宣布”Apollo计划”,这是全球范围内自动驾驶技术的首个开放平台。
平台架构设计
┌──────────────────────────────────────────────────────┐
│ 云服务平台 │
│ 仿真平台 | 高精地图 | 数据平台 | 安全服务 | OTA更新 │
└─────────────────────┬────────────────────────────────┘
│
┌─────────────────────▼────────────────────────────────┐
│ 软件平台 │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 感知模块 │ │ 规划模块 │ │ 控制模块 │ │
│ └──────────┘ └──────────┘ └──────────┘ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 定位模块 │ │ HMI模块 │ │ 预测模块 │ │
│ └──────────┘ └──────────┘ └──────────┘ │
└─────────────────────┬────────────────────────────────┘
│
┌─────────────────────▼────────────────────────────────┐
│ 参考硬件平台 │
│ 计算单元 | 传感器套件 | 控制器 | 车载通信设备 │
└──────────────────────────────────────────────────────┘
开源策略与版本迭代
| 版本 | 发布时间 | 核心能力 | 开放代码量 |
|---|---|---|---|
| Apollo 1.0 | 2017.07 | 封闭场地自动驾驶 | 3.5万行 |
| Apollo 1.5 | 2017.09 | 固定车道自动驾驶 | 6.5万行 |
| Apollo 2.0 | 2018.01 | 简单城市路况 | 16.5万行 |
| Apollo 2.5 | 2018.04 | 限定区域视觉感知 | 22万行 |
| Apollo 3.0 | 2018.07 | 量产园区自动驾驶 | 33万行 |
| Apollo 3.5 | 2019.01 | 城市道路自动驾驶 | 40万行 |
| Apollo 5.0 | 2019.07 | 量产限定区域自动驾驶 | 56万行 |
| Apollo 5.5 | 2019.12 | 点对点城市自动驾驶 | 60万行 |
核心技术模块详解
王劲作为百度自动驾驶事业部首任总经理(2015-2017),奠定了百度自动驾驶的技术基础。
技术路线选择
L4级别直接切入 vs 渐进式路线
│ │
▼ ▼
百度选择 特斯拉选择
(王劲主导) (渐进升级)
│ │
高精地图+激光雷达 纯视觉方案
│ │
城市复杂路况 高速公路优先
关键技术决策
道路测试 → 数据采集 → 云端处理 → 模型训练
↑ ↓
OTA更新 ← 仿真验证 ← 算法优化 ← 问题分析
与陆奇的理念冲突与离职
2017年3月,王劲离职创立景驰科技,主要分歧点:
陆奇主导下的Apollo生态联盟成为全球最大的自动驾驶生态。
生态伙伴分层
┌─────────────────────────────────────────┐
│ OEM整车厂(15+) │
│ 奇瑞 | 一汽 | 长安 | 长城 | 金龙... │
├─────────────────────────────────────────┤
│ Tier 1供应商(20+) │
│ 博世 | 大陆 | 德尔福 | 采埃孚... │
├─────────────────────────────────────────┤
│ 核心零部件厂商(30+) │
│ Velodyne | 禾赛 | Intel | NVIDIA... │
├─────────────────────────────────────────┤
│ 出行服务商(10+) │
│ 首汽约车 | 神州优车 | Grab... │
├─────────────────────────────────────────┤
│ 政府与园区(20+) │
│ 雄安新区 | 重庆两江 | 北京亦庄... │
└─────────────────────────────────────────┘
合作模式创新
| 合作类型 | 模式说明 | 典型案例 | 成果 |
|---|---|---|---|
| 数据共享 | 测试数据回流平台 | 金龙客车 | 100万公里路测数据 |
| 联合开发 | 共同开发特定功能 | 博世 | 自动泊车方案 |
| 场景共建 | 提供测试场地 | 雄安新区 | 智能交通示范区 |
| 商业落地 | 量产合作 | 红旗 | E-HS3自动驾驶版 |
| 技术授权 | Apollo Enterprise | 威马汽车 | L3级自动驾驶 |
Apollo基金投资布局
2017年9月成立的”Apollo基金”(双百计划):
国际化拓展
生态治理机制
Apollo理事会
│
├── 技术委员会(技术标准制定)
│ ├── 感知工作组
│ ├── 规划工作组
│ └── 安全工作组
│
├── 商业委员会(商业化推进)
│ ├── 量产工作组
│ └── 运营工作组
│
└── 生态委员会(合作伙伴管理)
├── 认证体系
└── 开发者社区
2017年1月,景鲲正式担任度秘事业部总经理,负责DuerOS的整体战略和产品研发。作为微软小冰的创始人之一,景鲲为百度带来了丰富的对话式AI经验。
DuerOS技术架构
┌────────────────────────────────────────────────────┐
│ 应用层(Skills) │
│ 音乐 | 新闻 | 天气 | 智能家居 | 知识问答 | ... │
└─────────────────────┬──────────────────────────────┘
│
┌─────────────────────▼──────────────────────────────┐
│ 对话核心系统(DCS) │
│ ┌─────────────┐ ┌──────────────┐ ┌──────────┐ │
│ │ NLU引擎 │ │ 对话管理器 │ │ NLG引擎 │ │
│ │ 意图识别 │ │ 状态跟踪 │ │ 回复生成 │ │
│ │ 槽位填充 │ │ 策略决策 │ │ 个性化 │ │
│ └─────────────┘ └──────────────┘ └──────────┘ │
└─────────────────────┬──────────────────────────────┘
│
┌─────────────────────▼──────────────────────────────┐
│ 基础能力层 │
│ ┌──────────┐ ┌──────────┐ ┌────────────────┐ │
│ │ ASR语音 │ │ TTS语音 │ │ 唤醒词识别 │ │
│ │ 识别引擎 │ │ 合成引擎 │ │ 声纹识别 │ │
│ └──────────┘ └──────────┘ └────────────────┘ │
└────────────────────────────────────────────────────┘
核心技术突破
用户:"播放周杰伦的歌"
DuerOS:"正在播放周杰伦的《七里香》"
用户:"换一首" ← 上下文理解
DuerOS:"好的,播放《晴天》"
用户:"声音大一点" ← 指令理解
DuerOS:"已调高音量"
与竞品技术对比
| 技术指标 | DuerOS | 天猫精灵 | 小爱同学 | Amazon Alexa |
|---|---|---|---|---|
| 唤醒词准确率 | 95% | 93% | 92% | 96% |
| 中文语音识别 | 97% | 95% | 94% | 85% |
| 技能数量(2018) | 800+ | 600+ | 500+ | 50000+(全球) |
| 响应时间 | <1.5秒 | <2秒 | <2秒 | <1秒 |
| 多轮对话 | 支持5轮+ | 支持3轮 | 支持3轮 | 支持5轮+ |
DuerOS技能开放平台(DBP - DuerOS Bot Platform)成为开发者创建语音技能的核心工具。
技能开发架构
开发者技能
│
▼
┌─────────────────────────────────────────────┐
│ DBP技能开放平台 │
├─────────────────────────────────────────────┤
│ 技能类型: │
│ • 自定义技能(Custom Skills) │
│ • 智能家居技能(Smart Home Skills) │
│ • 内容播报技能(Flash Briefing Skills) │
├─────────────────────────────────────────────┤
│ 开发工具: │
│ • SDK(Python/Java/Node.js) │
│ • 模拟器(Web/Mobile) │
│ • 调试工具(Log/Trace) │
│ • 测试套件(Unit/Integration) │
└─────────────────────────────────────────────┘
技能交互模型定义
{
"intents": [
{
"name": "OrderTaxi",
"slots": [
{
"name": "destination",
"type": "LOCATION"
},
{
"name": "time",
"type": "TIME"
}
],
"samples": [
"我要打车去{destination}",
"帮我叫一辆车到{destination}",
"{time}打车去{destination}"
]
}
]
}
开发者生态数据(2018年底)
| 指标 | 数值 | 增长率(YoY) |
|---|---|---|
| 注册开发者 | 2.7万 | 320% |
| 技能总数 | 800+ | 450% |
| 日均调用 | 3600万次 | 580% |
| 活跃技能 | 400+ | 380% |
典型技能案例
DuerOS采用分层架构支持不同形态的硬件设备。
设备分级策略
┌─────────────────────────────────────────────────┐
│ 轻量级设备 │
│ (MCU: <100MHz, RAM: <1MB) │
│ 解决方案:云端处理 + 轻量SDK │
├─────────────────────────────────────────────────┤
│ 标准设备 │
│ (ARM Cortex-A: 1GHz+, RAM: 512MB+) │
│ 解决方案:端云结合 + 标准SDK │
├─────────────────────────────────────────────────┤
│ 高端设备 │
│ (多核CPU: 2GHz+, RAM: 2GB+) │
│ 解决方案:端侧处理 + 完整SDK │
└─────────────────────────────────────────────────┘
硬件参考设计
设备认证体系
| 认证等级 | 要求 | 权益 |
|---|---|---|
| DuerOS Inside | 基础功能测试 | 使用DuerOS品牌 |
| DuerOS认证 | 全面测试+体验评估 | 联合营销支持 |
| DuerOS优选 | 严格测试+销量要求 | 资源倾斜+补贴 |
陆奇将DuerOS定位为百度AI战略的重要入口,推动了一系列战略合作。
战略合作矩阵
硬件厂商 内容提供商 场景方
│ │ │
▼ ▼ ▼
• 小米(小爱音箱) • QQ音乐 • 酒店(如家)
• 海尔(智能家电) • 喜马拉雅 • 汽车(奇瑞)
• TCL(智能电视) • 蜻蜓FM • 医院(301)
• 华为(手机) • 懒人听书 • 学校(清华)
• VIVO(手机) • 贝瓦儿歌 • 养老院
商业模式创新
生态发展里程碑
| 时间 | 事件 | 影响 |
|---|---|---|
| 2017.07 | DuerOS 1.0发布 | 正式开放 |
| 2017.11 | 渡鸦智能音箱发布 | 高端尝试失败 |
| 2018.03 | 小度在家发布 | 带屏音箱爆款 |
| 2018.06 | 设备激活量破亿 | 规模化突破 |
| 2018.11 | 小度智能音箱Pro | 价格战开始 |
| 2019.02 | 春晚红包互动 | 品牌大曝光 |
| 2019.06 | 设备激活量4亿 | 行业第一 |
| 2020.03 | 小度独立融资 | 估值200亿元 |
陆奇离职后的战略调整(2018.5后)
2018年5月陆奇离职后,王海峰全面接管百度AI技术体系,升任高级副总裁并担任AI技术平台体系(AIG)总负责人。作为自然语言处理领域的顶级专家,王海峰带领团队实现了百度大脑从2.0到3.0的重大升级。
百度大脑架构演进
百度大脑2.0(2016-2017) 百度大脑3.0(2018-2019)
┌──────────────┐ ┌──────────────────────┐
│ 应用层 │ │ 行业应用层 │
│ 语音/视觉/NLP │ │ 金融/医疗/工业/农业 │
├──────────────┤ ├──────────────────────┤
│ 算法层 │ ——→ │ AI技术层 │
│ 深度学习 │ │ 110+场景化能力 │
├──────────────┤ ├──────────────────────┤
│ 框架层 │ │ 框架层 │
│ PaddlePaddle │ │ PaddlePaddle 2.0 │
├──────────────┤ ├──────────────────────┤
│ 算力层 │ │ 基础层 │
│ GPU集群 │ │ 昆仑芯片+智能云 │
└──────────────┘ └──────────────────────┘
技术体系重组
王海峰主导的组织调整:
| 部门 | 原负责人 | 新负责人 | 调整重点 |
|---|---|---|---|
| 自然语言处理部 | 王海峰兼 | 吴华 | 文心大模型预研 |
| 视觉技术部 | 杨睿刚(已离职) | 李震国 | 产业化落地 |
| 语音技术部 | 贾磊 | 高亮 | 流式语音识别 |
| 知识图谱部 | 赵东 | 吴海山 | 知识增强技术 |
| 深度学习技术平台部 | 新成立 | 马艳军 | PaddlePaddle |
| 大数据部 | 范伟 | 范伟 | AI基础设施 |
百度大脑3.0核心升级
云端大脑(强算力)
↕
边缘计算(低延迟)
↕
端侧智能(离线化)
百度大脑3.0在感知技术上实现了全面突破,特别是在复杂场景理解方面。
计算机视觉技术矩阵
┌─────────────────────────────────────────────────────┐
│ 视觉技术全景图 │
├─────────────────────────────────────────────────────┤
│ 基础能力: │
│ • 图像分类(1000+类别,Top5准确率98.5%) │
│ • 目标检测(COCO数据集mAP 51.7) │
│ • 图像分割(实例/语义/全景分割) │
│ • 关键点检测(人体21点,手部30点) │
├─────────────────────────────────────────────────────┤
│ 进阶能力: │
│ • 3D视觉(深度估计、3D重建、SLAM) │
│ • 视频分析(目标跟踪、行为识别、异常检测) │
│ • OCR(多语言、多场景、端到端识别) │
│ • 人脸技术(检测、识别、属性、活体) │
└─────────────────────────────────────────────────────┘
人脸识别技术突破
语音技术全栈能力
语音技术栈:
┌──────────────────────────────────────┐
│ 语音合成(TTS) │
│ • WaveNet优化版 │
│ • 20+音色选择 │
│ • 情感合成支持 │
├──────────────────────────────────────┤
│ 语音识别(ASR) │
│ • 流式识别:延迟<100ms │
│ • 离线识别:端侧部署 │
│ • 中英混合:无缝切换 │
├──────────────────────────────────────┤
│ 语音唤醒 │
│ • 唤醒率:95%@1次/24小时误唤醒 │
│ • 功耗:<20mW │
│ • 自定义唤醒词 │
└──────────────────────────────────────┘
Deep Speech 3技术细节
百度大脑3.0在认知理解层面实现了从感知智能向认知智能的跨越。
自然语言处理技术体系
┌────────────────────────────────────────────────┐
│ NLP技术金字塔 │
│ │
│ 应用层:机器翻译、对话系统 │
│ ↑ │
│ 任务层:阅读理解、情感分析、文本生成 │
│ ↑ │
│ 语义层:语义匹配、语义解析、知识抽取 │
│ ↑ │
│ 基础层:分词、词性标注、命名实体识别 │
└────────────────────────────────────────────────┘
ERNIE(知识增强语义表示模型)创新
文本语料(13GB)
+
知识图谱(570万实体)
+
百科数据(2100万条目)
↓
ERNIE统一表示
知识图谱构建与应用
百度知识图谱规模(2019年):
┌─────────────────────────────────┐
│ • 实体数量:50亿+ │
│ • 事实数量:5500亿+ │
│ • 模式数量:1万+ │
│ • 日均调用:150亿次 │
│ • 覆盖领域:200+ │
└─────────────────────────────────┘
推理与决策能力
问题:"李白的出生地现在属于哪个省?"
推理链:
李白 → 出生地 → 碎叶城
碎叶城 → 古今对照 → 吉尔吉斯斯坦
结论:不在中国境内
百度大脑3.0通过AI开放平台实现了技术的服务化和产品化。
AI开放平台架构
┌──────────────────────────────────────────────────┐
│ 百度AI开放平台 │
├──────────────────────────────────────────────────┤
│ 接入层: │
│ • REST API(多语言SDK) │
│ • 私有化部署(企业版) │
│ • 边缘计算SDK(离线版) │
├──────────────────────────────────────────────────┤
│ 服务层: │
│ • EasyDL(零门槛训练平台) │
│ • AI Studio(在线开发环境) │
│ • EdgeBoard(边缘计算盒) │
├──────────────────────────────────────────────────┤
│ 能力层: │
│ • 语音技术(14项) │
│ • 视觉技术(35项) │
│ • 自然语言(28项) │
│ • 知识图谱(8项) │
└──────────────────────────────────────────────────┘
EasyDL定制化训练平台
PaddlePaddle深度学习框架
PaddlePaddle 2.0架构:
┌────────────────────────────────────┐
│ 高层API │
│ • PaddleHub(预训练模型) │
│ • PaddleX(全流程开发) │
├────────────────────────────────────┤
│ 核心框架 │
│ • 动态图(命令式编程) │
│ • 静态图(声明式编程) │
├────────────────────────────────────┤
│ 分布式训练 │
│ • 数据并行 │
│ • 模型并行 │
│ • 流水线并行 │
├────────────────────────────────────┤
│ 推理部署 │
│ • Paddle Lite(移动端) │
│ • Paddle Serving(服务端) │
│ • Paddle.js(浏览器) │
└────────────────────────────────────┘
产业化落地成果
| 行业 | 合作伙伴 | 应用场景 | 效果 |
|---|---|---|---|
| 金融 | 浦发银行 | 智能客服 | 人工成本降低60% |
| 工业 | 宝武钢铁 | 钢材缺陷检测 | 准确率99.8% |
| 农业 | 京东方 | 智慧农业 | 产量提升20% |
| 医疗 | 中山眼科 | 眼底筛查 | 诊断准确率94% |
| 能源 | 国家电网 | 电力巡检 | 效率提升5倍 |
2018年7月4日,李彦宏在百度AI开发者大会上正式发布昆仑芯片,这是中国第一款云端全功能AI芯片。项目由欧阳剑担任首席架构师,历时3年研发完成。
昆仑芯片发展历程
2011-2015:FPGA时期
│
├── 2011:开始FPGA加速器研发
├── 2013:部署首批FPGA集群
└── 2015:决定自研AI芯片
2016-2018:昆仑1代研发
│
├── 2016:组建芯片团队(20人)
├── 2017:完成架构设计
└── 2018.7:流片成功并发布
2019-2021:昆仑2代升级
│
├── 2019:架构优化设计
├── 2020:7nm工艺流片
└── 2021.8:量产发布
XPU架构创新
欧阳剑主导的XPU(百度自主架构)核心设计理念:
┌──────────────────────────────────────────────────┐
│ 昆仑XPU架构 │
├──────────────────────────────────────────────────┤
│ ┌────────────────────────────────────────────┐ │
│ │ XPU Core Cluster │ │
│ │ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ │ │
│ │ │Core 0│ │Core 1│ │Core 2│ │Core 3│ │ │
│ │ └──────┘ └──────┘ └──────┘ └──────┘ │ │
│ │ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ │ │
│ │ │Core 4│ │Core 5│ │Core 6│ │Core 7│ │ │
│ │ └──────┘ └──────┘ └──────┘ └──────┘ │ │
│ └────────────────────────────────────────────┘ │
│ ↕ │
│ ┌────────────────────────────────────────────┐ │
│ │ 高带宽内存(HBM) │ │
│ │ • 16GB HBM2 │ │
│ │ • 512GB/s带宽 │ │
│ └────────────────────────────────────────────┘ │
│ ↕ │
│ ┌────────────────────────────────────────────┐ │
│ │ 片上网络(NoC) │ │
│ │ • 2D Mesh拓扑 │ │
│ │ • 低延迟路由 │ │
│ └────────────────────────────────────────────┘ │
│ ↕ │
│ ┌────────────────────────────────────────────┐ │
│ │ 外部接口 │ │
│ │ • PCIe 4.0 x16 │ │
│ │ • 多芯片互联 │ │
│ └────────────────────────────────────────────┘ │
└──────────────────────────────────────────────────┘
核心技术特点
寄存器文件(RF): 1MB/Core
↕
共享内存(SRAM): 8MB/Cluster
↕
高带宽内存(HBM): 16GB
↕
系统内存(DDR): 可扩展
与国际竞品对比(2018年同期)
| 参数 | 昆仑1代 | NVIDIA V100 | Google TPU v2 | 华为昇腾910 |
|---|---|---|---|---|
| 工艺 | 14nm | 12nm | 16nm | 7nm(2019) |
| 峰值算力(INT8) | 260 TOPS | 125 TOPS | 92 TOPS | 512 TOPS |
| 内存带宽 | 512 GB/s | 900 GB/s | 700 GB/s | 1.2 TB/s |
| 功耗 | 100W | 300W | 280W | 310W |
| 能效比 | 2.6 TOPS/W | 0.42 TOPS/W | 0.33 TOPS/W | 1.65 TOPS/W |
昆仑芯片的成功很大程度上依赖于其先进的编译器技术栈。
XTDK编译器架构
┌─────────────────────────────────────────────────┐
│ 前端(Framework) │
│ TensorFlow | PyTorch | PaddlePaddle | ONNX │
└─────────────────┬───────────────────────────────┘
↓
┌─────────────────────────────────────────────────┐
│ 中间表示(XIR) │
│ • 计算图优化 │
│ • 算子融合 │
│ • 内存分配 │
└─────────────────┬───────────────────────────────┘
↓
┌─────────────────────────────────────────────────┐
│ 后端优化器 │
│ • 指令调度 │
│ • 寄存器分配 │
│ • 流水线优化 │
└─────────────────┬───────────────────────────────┘
↓
┌─────────────────────────────────────────────────┐
│ 代码生成器 │
│ • 汇编代码生成 │
│ • 二进制打包 │
└─────────────────────────────────────────────────┘
关键优化技术
优化前:Conv → BN → ReLU(3次内存访问)
优化后:Fused_Conv_BN_ReLU(1次内存访问)
性能提升:2.8倍
编译性能数据
| 模型 | 编译时间 | 优化后加速比 | 内存节省 |
|---|---|---|---|
| ResNet-50 | 3.2秒 | 3.5x | 40% |
| BERT-Base | 5.8秒 | 4.2x | 35% |
| YOLOv3 | 4.5秒 | 3.8x | 45% |
| Transformer | 6.2秒 | 4.5x | 38% |
昆仑芯片在实际应用中展现出优异的性能表现。
昆仑1代 vs 昆仑2代性能对比
性能指标对比:
┌────────────────────────────────────────────┐
│ 昆仑1代(2018) │
│ • 14nm Samsung工艺 │
│ • 260 TOPS @ INT8 │
│ • 功耗:100W │
│ • 内存:16GB HBM2 │
├────────────────────────────────────────────┤
│ 昆仑2代(2021) │
│ • 7nm TSMC工艺 │
│ • 640 TOPS @ INT8 │
│ • 功耗:120W │
│ • 内存:32GB HBM2E │
└────────────────────────────────────────────┘
实际模型性能测试(昆仑2代)
| 模型任务 | 批处理大小 | 延迟(ms) | 吞吐量(samples/s) | GPU对比 |
|---|---|---|---|---|
| ResNet-50推理 | 128 | 3.2 | 40,000 | 1.3x V100 |
| BERT-Base推理 | 32 | 8.5 | 3,765 | 1.5x V100 |
| GPT-2训练 | 16 | 125 | 128 | 0.9x V100 |
| YOLOv4推理 | 64 | 5.8 | 11,034 | 1.4x V100 |
| 语音识别 | 256 | 2.1 | 121,905 | 2.1x V100 |
大规模集群性能
集群规模扩展性:
1卡 → 1x(基准)
8卡 → 7.2x
64卡 → 52x
256卡 → 189x
软件生态支持
┌─────────────────────────────────────────┐
│ 深度学习框架 │
│ • PaddlePaddle(原生支持) │
│ • TensorFlow(via XLA) │
│ • PyTorch(via TorchScript) │
│ • ONNX Runtime │
├─────────────────────────────────────────┤
│ 推理引擎 │
│ • Paddle Inference │
│ • XPU Runtime │
│ • TensorRT兼容层 │
├─────────────────────────────────────────┤
│ 开发工具 │
│ • XPU Profiler(性能分析) │
│ • XPU Debugger(调试工具) │
│ • Model Optimizer(模型优化) │
└─────────────────────────────────────────┘
昆仑芯片在多个业务场景中得到广泛应用。
内部业务应用
外部客户案例
| 客户 | 应用场景 | 部署规模 | 效果 |
|---|---|---|---|
| 爱奇艺 | 视频推荐 | 500片 | 推理成本降低35% |
| 携程 | 搜索排序 | 200片 | 响应时间减少40% |
| 中国银行 | 风控模型 | 100片 | 实时风控能力提升 |
| 国家电网 | 电力预测 | 300片 | 预测精度提升15% |
云服务产品化
未来路线图
2022-2023:昆仑3代
• 5nm工艺
• 1000+ TOPS
• 支持Transformer专用加速
2024-2025:昆仑4代
• 3nm工艺
• 2000+ TOPS
• 存算一体架构
• 量子计算接口
2026+:下一代架构
• 光电混合计算
• 神经拟态芯片
• 通用人工智能加速
产业链影响
2016-2020年是百度从移动互联网向人工智能全面转型的关键时期。在李彦宏的战略决策下,百度确立了”AI First”的核心战略,并通过引进陆奇等顶级人才,推动了公司历史上最大规模的技术和组织变革。
战略转型成果
关键经验教训
历史意义
这一时期的百度完成了从”搜索公司”到”AI公司”的身份转变,不仅在技术上实现了重大突破,更重要的是确立了在中国乃至全球AI产业中的领导地位。特别是在自动驾驶、智能语音、AI芯片等关键领域,百度的技术创新和产业实践为中国AI产业的发展做出了重要贡献。
陆奇虽然在百度的时间只有486天,但他带来的国际视野、管理理念和执行力,深刻影响了百度的企业文化和发展方向。而王海峰的接棒,则确保了AI战略的延续性和本土化落地。
展望未来,百度在AI First战略指引下打下的技术基础和生态布局,为其在大模型时代的竞争奠定了坚实基础。
李彦宏(创始人/董事长兼CEO)
陆奇(集团总裁兼COO,2017.1-2018.5)
王海峰(高级副总裁/CTO)
王劲(自动驾驶事业部总经理,2015-2017)
景鲲(度秘事业部总经理/小度科技CEO)
李震宇(智能驾驶事业群组总经理)
欧阳剑(昆仑芯片首席架构师)
吴华(自然语言处理部负责人)
陶吉(自动驾驶感知技术负责人)
侯震宇(百度智能云CTO)
吴恩达(首席科学家,2014-2017)
余凯(深度学习研究院创始院长,2012-2015)
张潼(大数据实验室负责人,2014-2017)
倪凯(无人车团队负责人,2013-2016)
向海龙(搜索公司总裁,2005-2019)
朱光(金融服务事业群组总经理)
Apollo:百度自动驾驶开放平台,提供完整的自动驾驶解决方案 DuerOS:对话式人工智能操作系统,支持语音交互设备 百度大脑:百度AI技术的集大成平台,提供全栈AI能力 PaddlePaddle:百度自研的深度学习框架,中文名”飞桨”
L4级自动驾驶:高度自动驾驶,特定场景下无需人工干预 V2X:Vehicle to Everything,车联网通信技术 Lidar:激光雷达,用于3D环境感知 SLAM:Simultaneous Localization and Mapping,即时定位与地图构建 HD Map:高精地图,厘米级精度的自动驾驶地图
ASR:Automatic Speech Recognition,自动语音识别 TTS:Text to Speech,文本转语音 NLU:Natural Language Understanding,自然语言理解 DCS:Dialogue Core System,对话核心系统 Wake Word:唤醒词,激活语音助手的特定词汇
XPU:百度自主设计的AI处理器架构 TOPS:Tera Operations Per Second,每秒万亿次运算 HBM:High Bandwidth Memory,高带宽内存 NoC:Network on Chip,片上网络 Dataflow:数据流架构,优化数据传输的处理器设计
ERNIE:Enhanced Representation through kNowledge IntEgration,知识增强语义表示模型 Transformer:基于注意力机制的神经网络架构 NAS:Neural Architecture Search,神经架构搜索 Knowledge Distillation:知识蒸馏,模型压缩技术 Few-shot Learning:小样本学习,用少量数据训练模型
Edge Computing:边缘计算,在数据源头附近进行计算 Serverless:无服务器架构,按需分配计算资源 Container:容器技术,轻量级虚拟化 Kubernetes:容器编排平台,简称K8s DevOps:开发运维一体化
B2B2C:Business to Business to Consumer,企业对企业对消费者 SaaS:Software as a Service,软件即服务 PaaS:Platform as a Service,平台即服务 OTA:Over The Air,空中下载技术,远程更新 Robotaxi:自动驾驶出租车服务
mAP:mean Average Precision,平均精度均值 FPS:Frames Per Second,每秒帧数 Latency:延迟,响应时间 Throughput:吞吐量,单位时间处理能力 QPS:Queries Per Second,每秒查询数