地平线机器人(Horizon Robotics)的创立故事要从百度深度学习研究院(IDL)说起。2012年,余凯加入百度,担任深度学习研究院(IDL)常务副院长,这是中国最早系统性投入深度学习研究的工业界实验室之一。
百度IDL时期重要里程碑
├── 2013年 建立深度学习实验室
├── 2014年 发布Deep Speech语音识别系统
├── 2014年 推出百度大脑1.0
└── 2015年 自动驾驶项目启动
在百度期间,余凯带领团队在多个AI领域取得突破:
这段经历让余凯深刻认识到:
2015年7月,余凯离开百度创立地平线,汇聚了一批顶尖的AI和芯片人才:
核心创始团队背景: | 成员 | 背景 | 专长领域 | |——|——|———-| | 余凯 | 百度IDL创始人、NEC美国研究院 | 深度学习、计算机视觉 | | 黄畅 | Facebook人工智能研究院 | 计算机视觉、深度学习 | | 杨铭 | Facebook | 深度学习系统架构 | | 吴强 | 华为海思 | 芯片架构设计 |
团队的独特优势:
地平线的发展经历了清晰的战略演进:
第一阶段(2015-2016):通用AI芯片探索
第二阶段(2017-2019):聚焦自动驾驶
第三阶段(2020-至今):平台化发展
地平线的征程(Journey)系列芯片展现了清晰的技术演进脉络:
征程系列芯片演进时间线
│
├─ 2017.12 ─ 征程1.0 (Journey 1)
│ ├─ 工艺:40nm
│ ├─ 算力:1 TOPS
│ └─ 应用:后装ADAS
│
├─ 2019.08 ─ 征程2 (Journey 2)
│ ├─ 工艺:28nm
│ ├─ 算力:4 TOPS
│ └─ 应用:L2级ADAS
│
├─ 2020.09 ─ 征程3 (Journey 3)
│ ├─ 工艺:16nm
│ ├─ 算力:5 TOPS
│ └─ 应用:智能座舱+ADAS
│
├─ 2021.11 ─ 征程5 (Journey 5)
│ ├─ 工艺:16nm
│ ├─ 算力:128 TOPS
│ └─ 应用:L2+/L3自动驾驶
│
└─ 2024.04 ─ 征程6 (Journey 6)
├─ 工艺:7nm
├─ 算力:560 TOPS
└─ 应用:L2++/L4自动驾驶
征程2(J2)技术特点:
量产应用案例:
征程3(J3)定位差异化:
征程5是地平线真正打开市场的标志性产品:
核心技术指标: | 参数 | 数值 | 对标竞品 | |——|——|———-| | AI算力 | 128 TOPS | Orin-X: 254 TOPS | | 功耗 | 30W | Orin-X: 60W | | 能效比 | 4.3 TOPS/W | Orin-X: 4.2 TOPS/W | | 制程 | 16nm FinFET | Orin: 7nm |
架构创新:
Memory Hierarchy
├─ L1 Cache: 512KB per core
├─ L2 Cache: 4MB shared
├─ LPDDR4: 32GB/s bandwidth
└─ 片上SRAM: 8MB
量产落地成果:
2024年4月发布的征程6代表地平线最新技术成就:
关键突破:
J6 Architecture
┌─────────────────────────────┐
│ 4x BPU-Nash Pro (140T each)│
├─────────────────────────────┤
│ ARM Cortex-A78AE (8 cores) │
├─────────────────────────────┤
│ GPU Mail-G78AE (4 cores) │
├─────────────────────────────┤
│ CV Engine + ISP (12 cam) │
├─────────────────────────────┤
│ Safety Island (ASIL-D) │
└─────────────────────────────┘
目标应用场景:
地平线在BEV感知算法优化上形成了独特的技术路线:
1. 轻量化BEV架构设计
针对车载芯片算力限制,地平线提出了Sparse BEV架构:
传统BEV Pipeline (>100 TOPS)
Camera → Backbone → FPN → BEV Transform → Detection
6x ResNet50 256ch Dense Heavy Head
地平线Sparse BEV (<50 TOPS)
Camera → MobileNet → Sparse FPN → Efficient BEV → Light Head
6x Optimized 128ch Sparse Trans Anchor-free
关键优化技术:
2. BEV时序融合优化
时序融合策略
T-3 ──┐
T-2 ──┼─→ Temporal Fusion ─→ Current BEV
T-1 ──┤ (Deformable Align)
T ──┘
优化点:
• 选择性历史帧:基于运动估计选择关键帧
• 轻量化对齐:使用光流替代3D投影
• 增量式更新:只更新变化区域
3. 实测性能对比
| 方案 | mAP | FPS@J5 | 算力需求 |
|---|---|---|---|
| BEVFormer | 41.6% | 8 | >200 TOPS |
| BEVDet4D | 39.2% | 15 | >150 TOPS |
| 地平线SparseBEV | 38.5% | 30 | <50 TOPS |
地平线在模型压缩领域积累了深厚的技术:
1. 自适应混合精度量化
量化策略分层设计
┌────────────────────────────┐
│ Backbone: INT8 为主 │
│ 关键层保持 FP16 │
├────────────────────────────┤
│ Neck: INT8/INT4 混合 │
│ 通道级别精度分配 │
├────────────────────────────┤
│ Head: INT8 │
│ 偏置项 FP16 │
└────────────────────────────┘
2. 结构化剪枝技术
地平线开发了硬件友好的结构化剪枝方法:
3. 知识蒸馏框架
地平线AutoML蒸馏流程
┌─────────────┐ ┌─────────────┐
│Teacher Model│ │Student Model│
│ (Large) │─────>│ (Small) │
└─────────────┘ └─────────────┘
↓ ↑
Soft Label Hard Label
↓ ↑
┌─────────────────────────────┐
│ Joint Training Pipeline │
│ • Feature Alignment │
│ • Attention Transfer │
│ • Gradient Matching │
└─────────────────────────────┘
实际压缩效果: | 模型 | 原始大小 | 压缩后 | 精度损失 | 加速比 | |——|———-|——–|———-|———| | ResNet50-BEV | 23.5M | 3.2M | <1% | 5.2x | | PointPillar | 4.8M | 1.1M | <2% | 3.8x | | CenterPoint | 8.3M | 2.1M | <1.5% | 4.1x |
1. 分布式推理架构
地平线设计了适合车载环境的分布式推理系统:
车载分布式计算拓扑
┌──────────────────────────────────┐
│ 中央计算单元(J5/J6) │
│ ┌────────┐ ┌────────┐ │
│ │ BEV感知 │ │轨迹规划│ │
│ └────────┘ └────────┘ │
└──────────────────────────────────┘
↑ ↑
│ │
┌────┴────┐ ┌────┴────┐
│前视觉ECU │ │环视ECU │
│ (J2) │ │ (J3) │
└─────────┘ └──────────┘
2. 流水线并行优化
Pipeline Parallelism
Stage 1: Image Preprocessing (ISP)
↓ (Stream 1)
Stage 2: Feature Extraction (BPU Core 1)
↓ (Stream 2)
Stage 3: BEV Transform (BPU Core 2)
↓ (Stream 3)
Stage 4: Detection & Tracking (CPU+BPU)
延迟优化:从120ms降至35ms
3. 动态算力调度
地平线开发了QoS感知的算力调度系统:
# 伪代码示例
class DynamicScheduler:
def schedule(self, tasks):
# 根据场景动态分配算力
if scenario == "Highway":
# 高速场景:重点远距离检测
allocate_resource(long_range_det, 60%)
allocate_resource(lane_det, 30%)
elif scenario == "Urban":
# 城市场景:360度感知优先
allocate_resource(surround_det, 50%)
allocate_resource(vru_det, 40%)
地平线的核心竞争力在于软硬件深度协同:
1. 算法驱动的芯片设计
传统芯片设计流程
芯片设计 → 指令集 → 编译器 → 算法适配
(硬) (软)
地平线协同设计流程
算法需求 ←→ 架构设计 ←→ 编译优化 ←→ 算法优化
协同迭代优化
2. 关键协同设计案例
案例1:BEV Transform加速单元
案例2:Sparse Convolution支持
案例3:Multi-head Attention加速
1. BPU (Brain Processing Unit) 架构演进
BPU核心架构
┌─────────────────────────────────┐
│ BPU Core │
├─────────────────────────────────┤
│ ┌─────────┐ ┌─────────┐ │
│ │ Vector │ │ Matrix │ │
│ │ Unit │ │ Unit │ │
│ └─────────┘ └─────────┘ │
│ ┌─────────┐ ┌─────────┐ │
│ │ Sparse │ │ Special │ │
│ │ Engine │ │Function │ │
│ └─────────┘ └─────────┘ │
├─────────────────────────────────┤
│ Local Memory (SRAM) │
└─────────────────────────────────┘
2. 专用加速单元详解
| 加速单元 | 功能 | 典型操作 | 加速比 |
|---|---|---|---|
| Vector Unit | SIMD运算 | BatchNorm, ReLU | 8x |
| Matrix Unit | 矩阵乘法 | Conv, FC, Attention | 16x |
| Sparse Engine | 稀疏运算 | Sparse Conv, Pruned Net | 4x |
| ROI Engine | 区域处理 | ROI Pooling, Crop | 6x |
| Warp Engine | 图像变换 | IPM, Undistortion | 10x |
3. 内存层级优化
Memory Hierarchy Design
┌────────────────────────┐
│ Register File (1KB) │ < 1 cycle
├────────────────────────┤
│ L1 Cache (512KB) │ 2-3 cycles
├────────────────────────┤
│ L2 Cache (4MB) │ 10-20 cycles
├────────────────────────┤
│ On-chip SRAM (8MB) │ 20-30 cycles
├────────────────────────┤
│ DRAM (4GB LPDDR4) │ 100+ cycles
└────────────────────────┘
优化策略:
• Tiling:分块计算适应cache
• Prefetch:预取降低延迟
• Fusion:算子融合减少访存
1. 天工开物(Horizon OpenExplorer)平台
地平线的AI开发平台提供完整工具链:
开发流程
┌──────────┐ ┌──────────┐ ┌──────────┐
│模型训练 │────>│模型转换 │────>│模型部署 │
│PyTorch │ │ONNX→HBM │ │Runtime │
└──────────┘ └──────────┘ └──────────┘
↓ ↓ ↓
训练工具 量化工具 推理引擎
• HAT • Calibration • HRT
• AutoML • QAT • Profiler
2. 模型转换与优化工具
关键功能:
3. 开发者生态建设
地平线开发者生态
├── 官方Model Zoo
│ ├── 检测模型 (YOLO, CenterNet)
│ ├── 分割模型 (PSPNet, DeepLab)
│ └── BEV模型 (BEVDet, BEVFormer适配版)
├── 开发者社区
│ ├── 技术论坛
│ ├── 开源项目
│ └── 案例分享
└── 培训认证
├── 在线课程
├── 技术workshop
└── 认证体系
理想汽车是地平线最重要的战略客户,双方合作展现了深度绑定:
1. 合作历程
2021.09 - 战略合作协议
2022.02 - 理想L9搭载双J5方案
2022.09 - AD Max量产交付
2023.06 - 理想全系标配地平线方案
2024.01 - 基于J6的下一代平台启动
2. AD Max技术方案
理想AD Max硬件架构
┌────────────────────────────────┐
│ 双征程5计算平台 │
├────────────────────────────────┤
│ J5-A (主芯片) │ J5-B (冗余) │
│ 128 TOPS │ 128 TOPS │
├────────────────────────────────┤
│ 传感器配置 │
│ • 11个摄像头 (8M像素) │
│ • 1个前向毫米波雷达 │
│ • 12个超声波雷达 │
└────────────────────────────────┘
3. 算法方案定制
地平线为理想定制的算法栈:
4. 联合优化成果
| 指标 | 业界平均 | 理想AD Max |
|---|---|---|
| 感知延迟 | 150ms | 80ms |
| 规控延迟 | 100ms | 60ms |
| 系统功耗 | 80W | 45W |
| BOM成本 | $800 | $500 |
1. 长城汽车 - 毫末智驾合作
合作模式:
地平线J5 + 毫末DriveGPT算法
部署车型:
• 魏牌摩卡
• 魏牌拿铁
• 坦克500
技术特点:
• 城市记忆领航
• 智能躲避
• 拥堵跟车
2. 比亚迪 - 新平台合作
2023年,比亚迪选择地平线J6作为下一代高阶智驾平台:
3. 大众汽车 - 全球合作
2023.10 大众集团战略投资地平线24亿美元
合作内容:
• 为大众中国提供全栈式解决方案
• 2025年起在ID系列搭载
• 覆盖大众、奥迪、保时捷品牌
1. 出货量增长曲线
地平线芯片出货量(万片)
│
150 ├─────────────────────● 2024E
│ ╱
100 ├──────────────────●─╱ 2023
│ ╱
50 ├────────────●─╱ 2022
│ ╱
20 ├─────●─╱ 2021
│ ╱
5 ├●╱ 2020
└────────────────────────
2020 2021 2022 2023 2024E
2. 市场份额分析
2023年中国车载AI芯片市场份额: | 厂商 | 市场份额 | 主要客户 | |——|———-|———-| | 地平线 | 28% | 理想、长城、比亚迪 | | 英伟达 | 25% | 蔚来、小鹏、奔驰 | | Mobileye | 20% | 宝马、福特、吉利 | | 高通 | 15% | 通用、长安、奇瑞 | | 华为 | 12% | 问界、极狐、阿维塔 |
3. 定点项目统计
截至2024年Q1,地平线累计获得定点项目:
1. 端侧大模型部署挑战
随着GPT/LLaMA等大模型在自动驾驶的应用,地平线面临新挑战:
大模型算力需求分析
┌──────────────────────────────┐
│ 模型类型 参数量 算力需求 │
├──────────────────────────────┤
│ ViT-L 300M 50 TOPS │
│ CLIP 400M 80 TOPS │
│ DriveGPT 1B 200 TOPS │
│ 端到端 2B 400 TOPS │
└──────────────────────────────┘
挑战:
• 内存墙:带宽成为瓶颈
• 功耗墙:散热设计极限
• 成本墙:先进工艺成本高
2. 地平线的应对策略
技术路线:
J6架构优化:
Transformer加速设计
├─ FlashAttention硬件实现
│ └─ 减少HBM访问90%
├─ Group Query Attention支持
│ └─ 降低KV cache 8x
├─ Mixture of Experts支持
│ └─ 动态激活专家网络
└─ Ring Attention支持
└─ 多芯片序列并行
3. 世界模型与生成式架构
地平线正在探索下一代生成式自动驾驶架构:
生成式自动驾驶Pipeline
┌──────────┐
Sensors ──────────> │ Encoder │
└──────────┘
↓
┌──────────┐
│World Model│
│(Diffusion)│
└──────────┘
↓
┌──────────┐
│ Planner │
└──────────┘
↓
Actions
挑战:扩散模型推理开销巨大
方案:定制化扩散加速单元
1. 产业链安全意义
地平线在国产化替代中的战略价值:
自动驾驶芯片依赖度分析
├─ 2020年:>95%依赖进口
│ (Mobileye, NVIDIA, Qualcomm)
├─ 2023年:60%依赖进口
│ (地平线、华为崛起)
└─ 2025目标:<30%依赖进口
(国产方案成熟)
2. 技术自主可控
地平线的自主创新能力:
3. 生态系统建设
国产自动驾驶生态圈
地平线芯片平台
↓
┌──────┼──────┐
↓ ↓ ↓
算法厂商 主机厂 Tier1
• Momenta • 比亚迪 • 德赛西威
• 毫末 • 长城 • 均胜电子
• 元戎 • 理想 • 华域汽车
1. 短期规划(2024-2025)
产品迭代:
技术重点:
2. 中期规划(2026-2027)
下一代架构 Journey 7
├─ 工艺:5nm/3nm
├─ 算力:>1000 TOPS
├─ 特性:
│ ├─ 原生Transformer架构
│ ├─ 存内计算单元
│ ├─ 光子互连
│ └─ Chiplet设计
└─ 应用:L3+/L4自动驾驶
3. 长期愿景(2028+)
技术方向:
商业目标:
1. 主要竞争对手分析
| 竞争维度 | 地平线 | 英伟达 | 高通 | 华为 |
|---|---|---|---|---|
| 算力密度 | ★★★★ | ★★★★★ | ★★★ | ★★★★ |
| 能效比 | ★★★★★ | ★★★ | ★★★★ | ★★★★ |
| 成本控制 | ★★★★★ | ★★ | ★★★ | ★★★ |
| 生态完整 | ★★★ | ★★★★★ | ★★★★ | ★★★★ |
| 本土服务 | ★★★★★ | ★★ | ★★★ | ★★★★★ |
2. 核心差异化优势
地平线独特价值主张
┌────────────────────────────┐
│ 软硬件协同设计能力 │
│ • 算法团队基因 │
│ • 芯片定制优化 │
│ • 快速迭代响应 │
├────────────────────────────┤
│ 成本效率优势 │
│ • BOM成本降低40% │
│ • 功耗降低50% │
│ • 开发周期缩短30% │
├────────────────────────────┤
│ 本土化服务能力 │
│ • 深度定制支持 │
│ • 快速问题响应 │
│ • 联合开发模式 │
└────────────────────────────┘
3. 风险与应对
主要风险:
应对措施:
地平线的成功路径为中国自动驾驶产业提供了重要启示:
地平线正在深刻影响中国自动驾驶产业格局:
产业链重构:
技术范式影响:
站在2024年的时间节点,地平线面临历史性机遇:
机遇:
使命:
地平线的故事,是中国自动驾驶产业从跟随到引领的缩影。通过芯片算法协同设计的独特路径,地平线不仅实现了技术突破,更重要的是建立了可持续的商业模式。在自动驾驶进入大模型和端到端时代的关键时刻,地平线有望凭借其独特的技术积累和产业理解,在全球竞争中占据一席之地。
注:本章内容基于公开信息整理,部分技术细节可能与实际情况有所出入。