第32章:大模型与世界模型

章节概述

2023年以来,大语言模型(LLM)的突破性进展为自动驾驶带来了新的范式。从GPT-4到多模态基础模型,从传统的模块化感知到统一的世界模型,这场变革正在重塑自动驾驶的技术栈。本章深入探讨大模型如何与自动驾驶结合,世界模型如何改变我们理解和预测驾驶场景的方式,以及生成式AI如何革新仿真和数据生成。

32.1 世界模型的崛起背景

32.1.1 从感知到理解的跨越

传统自动驾驶系统的局限性在于其"感知-预测-规划"的串行架构,每个模块独立优化,缺乏对世界的统一理解。世界模型(World Model)的概念源于强化学习领域,其核心思想是构建一个能够理解、预测和推理物理世界的统一模型。

传统架构 vs 世界模型架构

传统模块化架构:
┌─────────┐    ┌─────────┐    ┌─────────┐
│  感知   │ -> │  预测   │ -> │  规划   │
└─────────┘    └─────────┘    └─────────┘
     ↓              ↓              ↓
  检测框        轨迹预测      路径规划
  车道线        行为预测      决策树
  语义分割      意图识别      成本函数

世界模型架构:
┌──────────────────────────────────────┐
│          统一世界模型                  │
│  ┌────────────────────────────┐      │
│  │   场景理解与表征学习         │      │
│  │   (Understanding)           │      │
│  └────────────────────────────┘      │
│  ┌────────────────────────────┐      │
│  │   未来预测与仿真             │      │
│  │   (Prediction & Simulation) │      │
│  └────────────────────────────┘      │
│  ┌────────────────────────────┐      │
│  │   决策与规划生成             │      │
│  │   (Planning Generation)     │      │
│  └────────────────────────────┘      │
└──────────────────────────────────────┘

32.1.2 数据驱动范式的必然性

自动驾驶面临的核心挑战是无限的长尾场景(corner cases)。传统基于规则的方法难以穷举所有情况,而世界模型通过大规模数据学习,能够:

  1. 隐式学习物理规律:不需要显式编程牛顿定律,模型从数据中学习物体运动规律
  2. 理解场景语义:理解"行人过马路"、"车辆变道"等高层语义概念
  3. 预测多模态未来:生成多种可能的未来场景,而非单一确定性预测
  4. 处理不确定性:通过概率分布表示预测的不确定性

32.1.3 算力与数据的支撑

世界模型的实现依赖于三大支柱:

| 支撑要素 | 2020年前 | 2023年 | 2024年 |

支撑要素 2020年前 2023年 2024年
训练算力 100 TFLOPS 10 PFLOPS 100 PFLOPS
推理算力 10 TOPS 100 TOPS 1000 TOPS
训练数据 10万小时 100万小时 1000万小时
模型参数 10M 1B 10B+

32.2 大语言模型在自动驾驶中的应用

32.2.1 多模态基础模型架构

大语言模型从纯文本扩展到多模态,能够同时处理图像、视频、文本、地图等多种模态:

多模态自动驾驶基础模型架构

输入模态:
┌─────────┬─────────┬─────────┬─────────┐
│ Camera  │  LiDAR  │   Map   │  Text   │
│ Images  │ Points  │  Data   │ Prompts │
└────┬────┴────┬────┴────┬────┴────┬────┘
     ↓         ↓         ↓         ↓
┌─────────────────────────────────────────┐
│          模态编码器 (Encoders)           │
├─────────────────────────────────────────┤
│  Vision    Point     Map      Language  │
│  ViT      PointNet  GNN       BERT      │
└──────┬──────────────────────────┬───────┘
       ↓                          ↓
┌─────────────────────────────────────────┐
│      统一表征空间 (Unified Space)        │
│         Cross-Modal Attention            │
└─────────────────────────────────────────┘
       ↓
┌─────────────────────────────────────────┐
│      Transformer骨干网络                 │
│      (GPT-style Decoder)                │
└─────────────────────────────────────────┘
       ↓
┌──────┴──────┬──────────┬────────────────┐
│   轨迹      │   语言    │    控制信号    │
│  Trajectory │  Caption  │   Commands     │
└─────────────┴───────────┴────────────────┘

32.2.2 场景理解与推理能力

大模型带来的关键能力提升:

  1. 常识推理(Common Sense Reasoning) - 理解"雨天路滑需要减速" - 推断"校车停车时儿童可能下车" - 识别"施工区域需要绕行"

  2. 意图理解(Intent Understanding) - 预测行人过马路意图 - 理解其他车辆的驾驶风格 - 识别紧急车辆的优先通行权

  3. 场景描述与解释

# 示例:场景理解输出
{
  "scene_description": "雨天高速公路,前方200米处有事故,
                        右侧车道有紧急车辆接近",
  "risk_assessment": "高风险:湿滑路面+事故拥堵+紧急车辆",
  "recommended_action": "减速至60km/h,准备向左变道避让",
  "reasoning": "基于天气条件、事故位置和紧急车辆优先级"
}

32.2.3 指令跟随与人机交互

大模型使自动驾驶系统能够理解自然语言指令:

| 应用场景 | 传统方法 | LLM增强方法 |

应用场景 传统方法 LLM增强方法
导航指令 固定命令格式 "带我去最近的充电站,要特斯拉超充"
驾驶偏好 预设模式选择 "今天累了,开得稳一点"
场景询问 无此功能 "前面为什么堵车?"
紧急处理 固定应急程序 "避开右边那个坑,小心点"

32.3 世界模型技术架构

32.3.1 神经场景表征

世界模型的核心是学习场景的连续、可微分表征。主要技术路线包括:

  1. Neural Radiance Fields (NeRF) 在动态场景中的应用
动态NeRF架构用于自动驾驶

输入:多视角图像序列 + 时间戳
      ↓
┌────────────────────────────────────┐
│   时空位置编码 (x,y,z,t,θ,φ)        │
└───────────┬────────────────────────┘
            ↓
┌────────────────────────────────────┐
│   动态场景网络                       │
│   ├─ 静态分支:建筑、道路            │
│   └─ 动态分支:车辆、行人            │
└───────────┬────────────────────────┘
            ↓
┌────────────────────────────────────┐
│   体渲染输出                         │
│   ├─ RGB图像                        │
│   ├─ 深度图                         │
│   └─ 语义分割                       │
└────────────────────────────────────┘
  1. Gaussian Splatting 实时渲染

相比NeRF,3D Gaussian Splatting在自动驾驶中的优势:

  • 渲染速度:200+ FPS (vs NeRF ~5 FPS)
  • 内存效率:显式表示便于流式加载
  • 编辑能力:可以直接操作高斯基元
  1. Occupancy Networks 占据网络
占据网络表征对比

Voxel Grid (传统):
┌─┬─┬─┬─┬─┐
├─┼─┼─┼─┼─┤  分辨率受限
├─┼─┼─┼─┼─┤  内存消耗大  
├─┼─┼─┼─┼─┤  离散表示
└─┴─┴─┴─┴─┘

Neural Occupancy:
  连续函数 f(x,y,z) → [0,1]
  任意分辨率查询
  紧凑表示
  可微分

32.3.2 时序建模与预测

世界模型需要理解场景的动态演化:

  1. Video Diffusion Models

扩散模型在自动驾驶预测中的应用:

条件视频生成流程

当前观测 It + 控制信号 at
         ↓
┌─────────────────────────┐
│   编码器 (Encoder)       │
│   提取场景特征 zt        │
└───────────┬─────────────┘
            ↓
┌─────────────────────────┐
│   扩散过程 (Diffusion)   │
│   zt+1 = f(zt, at, ε)   │
└───────────┬─────────────┘
            ↓
┌─────────────────────────┐
│   解码器 (Decoder)       │
│   生成未来帧 It+1...t+n  │
└─────────────────────────┘
  1. Transformer-based Prediction

使用Transformer进行多智能体轨迹预测:

| 模型组件 | 功能 | 输入输出 |

模型组件 功能 输入输出
Agent Encoder 编码每个交通参与者历史 轨迹序列 → 特征向量
Map Encoder 编码道路拓扑和规则 矢量地图 → 图特征
Social Attention 建模智能体间交互 多智能体特征 → 交互特征
Temporal Attention 捕获时序依赖 历史特征 → 时序特征
Prediction Head 生成多模态轨迹 融合特征 → 概率轨迹

32.3.3 物理约束与安全保证

世界模型必须遵守物理规律和安全约束:

  1. 物理一致性约束
# 轨迹物理约束示例
class PhysicsConstraints:
    def __init__(self):
        self.max_acceleration = 4.0  # m/s²
        self.max_deceleration = -8.0  # m/s²
        self.max_lateral_acceleration = 3.0  # m/s²
        self.max_steering_angle = 0.5  # rad

    def validate_trajectory(self, trajectory):
        # 动力学约束检查
        for i in range(1, len(trajectory)):
            dt = trajectory[i].time - trajectory[i-1].time
            acc = (trajectory[i].velocity - trajectory[i-1].velocity) / dt

            # 检查加速度约束
            if acc > self.max_acceleration:
                return False, "Exceeds max acceleration"

            # 检查转向约束
            curvature = compute_curvature(trajectory[i-1:i+1])
            if curvature > self.max_curvature:
                return False, "Exceeds max curvature"

        return True, "Valid"
  1. 碰撞避免保证

世界模型需要保证生成的轨迹不会导致碰撞:

安全验证流程

世界模型输出
     ↓
┌──────────────┐
│ 轨迹候选集    │
└──────┬───────┘
       ↓
┌──────────────┐
│ 物理约束检查  │
└──────┬───────┘
       ↓
┌──────────────┐
│ 碰撞检测      │
└──────┬───────┘
       ↓
┌──────────────┐
│ 风险评估      │
└──────┬───────┘
       ↓
安全轨迹输出

32.4 生成式方法与神经仿真

32.4.1 从传统仿真到神经仿真

传统仿真器(如CARLA、SUMO)依赖手工建模和规则系统,而神经仿真通过学习真实数据生成逼真的驾驶场景:

仿真技术演进对比

传统仿真 (2016-2020):
┌────────────────────────────┐
│  3D建模 + 物理引擎          │
│  • 手工创建3D资产           │
│  • 预定义行为规则           │
│  • 有限场景变化             │
│  • Sim2Real Gap大          │
└────────────────────────────┘

神经仿真 (2023-2024):
┌────────────────────────────┐
│  数据驱动生成               │
│  • 从真实数据学习           │
│  • 无限场景生成             │
│  • 逼真的渲染效果           │
│  • 最小化Sim2Real Gap      │
└────────────────────────────┘

32.4.2 生成式世界模型技术栈

  1. GAIA-1 (Wayve, 2023)

首个用于自动驾驶的生成式世界模型:

| 技术特点 | 规格 |

技术特点 规格
模型架构 Autoregressive Transformer
参数规模 9B parameters
输入模态 视频 + 文本 + 动作
输出 逼真驾驶视频
分辨率 288×512
预测长度 15秒 @ 25 FPS
  1. DriveGAN (NVIDIA, 2021-2023)

基于GAN的可控驾驶场景生成:

DriveGAN架构

真实驾驶数据
     ↓
┌─────────────────────────────┐
│   Content Encoder            │
│   提取场景内容(车辆、道路)   │
└──────────┬──────────────────┘
           ↓
┌─────────────────────────────┐
│   Dynamics Model             │
│   学习场景动态演化规律         │
└──────────┬──────────────────┘
           ↓
┌─────────────────────────────┐
│   Neural Renderer            │
│   生成逼真图像                │
└─────────────────────────────┘
           ↓
    可控场景生成
    (改变天气、车辆、轨迹)
  1. UniSim (Waabi, 2023)

统一的神经场景仿真器:

# UniSim仿真流程示例
class NeuralSimulator:
    def __init__(self):
        self.scene_encoder = SceneEncoder()
        self.dynamics_model = DynamicsModel()
        self.neural_renderer = NeuralRenderer()

    def simulate(self, initial_state, actions, num_steps):
        states = [initial_state]
        renderings = []

        for t in range(num_steps):
            # 编码当前场景
            scene_latent = self.scene_encoder(states[-1])

            # 预测下一状态
            next_state = self.dynamics_model(
                scene_latent, 
                actions[t]
            )

            # 神经渲染
            image = self.neural_renderer(next_state)

            states.append(next_state)
            renderings.append(image)

        return renderings

32.4.3 可控生成与场景编辑

生成式模型允许精确控制和编辑驾驶场景:

  1. 场景要素控制

| 控制维度 | 控制方法 | 应用示例 |

控制维度 控制方法 应用示例
天气条件 条件向量 晴天→雨天→雾天
光照条件 时间编码 白天→黄昏→夜晚
交通密度 密度参数 稀疏→拥堵
行人行为 轨迹约束 正常行走→突然横穿
车辆行为 意图编码 正常驾驶→紧急制动
  1. 反事实场景生成

生成"如果...会怎样"的场景:

反事实生成示例

原始场景: 前车正常行驶
    ↓
反事实生成:
├─ 如果前车突然刹车?
├─ 如果有行人从右侧出现?
├─ 如果路面结冰?
└─ 如果信号灯突然变红?
    ↓
生成对应场景视频
    ↓
测试自动驾驶系统响应

32.4.4 数据增强与合成数据生成

  1. 长尾场景生成

统计真实数据中的场景分布,针对性生成稀有场景:

场景分布与生成策略

真实数据分布:
正常驾驶 ████████████████████ 95%
变道     ██ 3%
紧急制动 █ 1.5%
事故场景 ▌ 0.5%

生成数据策略:
正常驾驶 ████ 20%
变道     ████ 20%
紧急制动 ████████ 40%
事故场景 ████ 20%
  1. 域适应与风格迁移

将一个地区的驾驶数据适应到另一个地区:

| 源域 | 目标域 | 适应内容 |

源域 目标域 适应内容
美国高速 中国城市 交通密度、驾驶风格
晴天数据 雨雪天气 路面反射、能见度
白天场景 夜晚场景 光照、传感器噪声
真实数据 合成数据 纹理、物理真实性

32.5 产业实践案例

32.5.1 Tesla FSD V12的世界模型实践

架构演进

FSD V11 (2022-2023):            FSD V12 (2023-2024):
模块化架构                        端到端世界模型
┌──────────┐                    ┌─────────────────┐
│ 感知模块  │                    │                 │
├──────────┤                    │   统一神经网络    │
│ 预测模块  │        →           │  (世界模型)      │
├──────────┤                    │                 │
│ 规划模块  │                    │  视频输入→控制   │
├──────────┤                    │                 │
│ 控制模块  │                    └─────────────────┘
└──────────┘                    

300K行C++代码                   纯神经网络
手工规则                         数据驱动

训练数据规模

| 指标 | V11 | V12 |

指标 V11 V12
训练里程 100万英里 1000万英里
视频片段 1000万 1亿+
标注成本 高(人工标注) 低(自动标注)
模型参数 ~100M ~1B
训练算力 1000 GPU 10000 GPU

关键技术特点

  1. 视频基础模型:直接从原始视频预测控制信号
  2. 隐式世界理解:无需显式建模物理规律
  3. 端到端优化:从传感器到执行器的直接映射

32.5.2 中国头部玩家的世界模型布局

  1. 华为ADS 3.0
华为PDP (Prediction, Decision, Planning) 网络

输入:BEV特征 + 历史轨迹 + 地图信息
      ↓
┌──────────────────────────────┐
│   General World Model (GWM)   │
│   通用世界模型                 │
├──────────────────────────────┤
│  • 场景token化                │
│  • Transformer骨干            │
│  • 10B+ parameters           │
└───────────┬──────────────────┘
            ↓
      三大输出头
    ┌───┬───┬───┐
    │预测│决策│规划│
    └───┴───┴───┘
  1. 小鹏XNGP 2024

端到端神经网络规划架构:

| 组件 | 功能 | 技术特点 |

组件 功能 技术特点
XNet 2.0 感知基础 动态BEV + 时序融合
XPlanner 神经规划器 模仿学习 + 在线优化
XWorld 世界模型 场景理解与预测
  1. 理想AD Max 3.0
理想双系统架构

主系统:端到端世界模型
├─ 基于Transformer
├─ 处理常规场景
└─ 高效推理

备份系统:规则基础
├─ 传统模块化
├─ 处理边界情况
└─ 安全保底

32.5.3 算法公司的创新实践

  1. Momenta的自监督世界模型
# Momenta自监督学习框架
class SelfSupervisedWorldModel:
    def __init__(self):
        self.encoder = VisionTransformer()
        self.predictor = PredictionHead()
        self.decoder = Decoder()

    def forward(self, video_sequence):
        # 掩码部分未来帧
        masked_sequence = self.mask_future(video_sequence)

        # 编码历史信息
        features = self.encoder(masked_sequence)

        # 预测未来
        predictions = self.predictor(features)

        # 重建损失
        reconstruction = self.decoder(predictions)
        loss = self.compute_loss(reconstruction, video_sequence)

        return predictions, loss
  1. 地平线的芯片-算法协同

地平线征程6芯片专门为世界模型优化:

| 优化项 | 传统芯片 | 征程6 |

优化项 传统芯片 征程6
Transformer加速 通用计算 专用加速器
视频处理 CPU处理 硬件编解码
BEV变换 软件实现 硬件加速
内存带宽 100 GB/s 500 GB/s
  1. 毫末DriveGPT 2.0
DriveGPT架构特点

数据飞轮:
采集 → 标注 → 训练 → 部署 → 采集
 ↑                              ↓
 └──────── 持续改进 ←───────────┘

模型规模演进:
DriveGPT 1.0 (2023Q1): 120M参数
DriveGPT 2.0 (2023Q4): 1.7B参数
DriveGPT 3.0 (2024Q2): 10B+参数

场景泛化能力:
城市道路: 95% → 99%
高速公路: 98% → 99.5%
停车场: 85% → 95%

32.5.4 国际巨头的世界模型进展

  1. Waymo的Foundation Model

Waymo在2024年公布的多模态基础模型:

Waymo Foundation Model特性

输入规格:
• 5个激光雷达 (不同分辨率)
• 29个摄像头 (360°覆盖)
• 历史10秒数据
• 未来8秒预测

模型能力:
┌────────────────────────┐
│  3D场景理解            │
│  • 语义分割            │
│  • 实例分割            │
│  • 动态物体跟踪        │
├────────────────────────┤
│  行为预测              │
│  • 多智能体交互        │
│  • 意图识别            │
│  • 轨迹生成            │
├────────────────────────┤
│  场景生成              │
│  • 新视角合成          │
│  • 未来场景预测        │
│  • 反事实推理          │
└────────────────────────┘
  1. Cruise的ML-First重构

2024年Cruise重启后的技术路线:

| 阶段 | 时间 | 技术重点 |

阶段 时间 技术重点
Phase 1 2024 Q1-Q2 数据基础设施重建
Phase 2 2024 Q3-Q4 世界模型训练
Phase 3 2025 Q1 仿真验证
Phase 4 2025 Q2 有限部署

32.6 技术挑战与未来展望

32.6.1 当前技术挑战

  1. 计算资源瓶颈

世界模型面临的计算挑战:

资源需求对比

传统方法:
训练: 100 GPU-days
推理: 30 TOPS
内存: 4 GB

世界模型:
训练: 10000 GPU-days
推理: 300+ TOPS
内存: 32+ GB

成本分析:
训练成本: $100K → $10M+
车载算力: $500 → $5000
能耗: 50W → 500W
  1. 数据质量与标注

| 挑战类型 | 具体问题 | 当前解决方案 | 局限性 |

挑战类型 具体问题 当前解决方案 局限性
数据偏差 地域、天气分布不均 数据增强 合成数据真实性
标注一致性 人工标注主观性 自动标注 错误传播
隐私保护 行人面部、车牌 数据脱敏 信息损失
长尾场景 罕见事件稀缺 仿真生成 Sim2Real Gap
  1. 可解释性与安全验证
世界模型黑盒问题

输入 → [神经网络] → 输出
         ↑
    内部推理过程不透明

带来的挑战:
• 故障诊断困难
• 安全认证障碍  
• 责任归属不清
• 监管合规困难
  1. 泛化能力限制

世界模型在新场景下的表现退化:

# 泛化性能评估
performance_matrix = {
    "训练域": {
        "加州城市": 99.5,
        "晴天": 99.2,
        "白天": 99.3
    },
    "近似域": {
        "德州城市": 95.1,  # -4.4%
        "阴天": 96.8,      # -2.4%
        "黄昏": 94.2       # -5.1%
    },
    "远域": {
        "印度城市": 72.3,  # -27.2%
        "暴雨": 68.5,      # -30.7%
        "浓雾": 61.2       # -38.1%
    }
}

32.6.2 技术发展趋势

  1. 模型规模的Scaling Law
自动驾驶模型规模演进预测

2023: 1B参数 → 2024: 10B → 2025: 100B → 2026: 1T

性能提升曲线:
┌────────────────────────────────┐
│ 100 ┤                      ●2026│
│  90 ┤                  ●2025    │
│  80 ┤            ●2024          │
│  70 ┤      ●2023                │
│  60 ┤                           │
└────┴───────────────────────────┘
     1B    10B    100B    1T
          模型参数量
  1. 多模态融合架构

未来世界模型的统一架构:

统一多模态世界模型

输入模态:
视觉 + 激光 + 雷达 + 音频 + V2X + 地图
    ↓      ↓      ↓      ↓     ↓     ↓
┌──────────────────────────────────────┐
│      Universal World Model           │
│         通用世界模型                   │
├──────────────────────────────────────┤
│  • 跨模态注意力机制                    │
│  • 模态缺失鲁棒性                     │
│  • 自适应融合策略                     │
└──────────────────────────────────────┘
              ↓
    理解 + 预测 + 规划 + 控制
  1. 持续学习与在线适应
# 未来的在线学习框架
class ContinualWorldModel:
    def __init__(self):
        self.core_model = PretrainedModel()
        self.adapter = OnlineAdapter()
        self.memory = ExperienceReplay()

    def online_update(self, new_experience):
        # 评估新经验的价值
        novelty = self.assess_novelty(new_experience)

        if novelty > threshold:
            # 存储关键经验
            self.memory.add(new_experience)

            # 在线微调适配器
            self.adapter.update(new_experience)

            # 定期更新核心模型
            if self.memory.size() > batch_size:
                self.core_model.update(self.memory.sample())

32.6.3 关键技术突破方向

  1. 因果推理能力

从相关性学习到因果理解:

| 能力层次 | 当前水平 | 目标水平 | 技术路径 |

能力层次 当前水平 目标水平 技术路径
模式识别 ✓ 成熟 - CNN/Transformer
相关性学习 ✓ 良好 - 统计学习
反事实推理 △ 初步 ✓ 完善 Causal Model
因果干预 ✗ 缺失 ✓ 实现 Do-Calculus
  1. 物理直觉embedding
物理约束的神经网络集成

传统: 数据 → 模型 → 预测
      (可能违反物理规律)

未来: 数据 + 物理约束 → 物理感知模型 → 物理一致预测

实现方式:
• Physics-Informed Neural Networks (PINN)
• Neural ODE/PDE
• Hamiltonian Neural Networks
• Lagrangian Neural Networks
  1. 高效推理架构

| 优化方向 | 技术手段 | 预期提升 |

优化方向 技术手段 预期提升
模型压缩 量化、剪枝、蒸馏 10x小
硬件加速 专用NPU、存内计算 100x快
稀疏计算 MoE、动态网络 5x效率
边缘云协同 分层计算 2x性能

32.6.4 产业影响与展望

  1. 竞争格局重塑
技术路线分化

2024年前:
硬件决定论 → 传感器军备竞赛
规则工程 → 代码复杂度竞争

2024年后:
数据决定论 → 数据规模竞赛
算法为王 → 模型能力竞争
  1. 商业模式演进

| 时期 | 主要模式 | 核心竞争力 |

时期 主要模式 核心竞争力
2020前 硬件销售 传感器成本
2020-2023 软件授权 功能完整性
2024后 数据服务 场景覆盖度
未来 AI即服务 模型泛化能力
  1. 监管与标准展望
世界模型时代的监管挑战

传统监管:              AI监管:
• 功能测试            • 能力边界评估
• 确定性验证          • 概率安全保证
• 代码审查            • 模型可解释性
• 责任明确            • 责任分配机制

本章总结

大模型与世界模型正在重新定义自动驾驶的技术范式。从模块化架构到端到端学习,从规则驱动到数据驱动,这场变革不仅是技术升级,更是思维方式的根本转变。

关键要点:

  1. 世界模型是必然趋势:统一理解、预测和规划的架构优势明显
  2. 大模型带来质变:场景理解、常识推理能力的跃升
  3. 生成式方法革新仿真:解决数据稀缺和长尾问题
  4. 产业全面转型:从Tesla到中国玩家的一致选择
  5. 挑战依然严峻:计算资源、可解释性、安全验证
  6. 未来充满机遇:因果推理、物理直觉、持续学习

世界模型不是自动驾驶的终点,而是通向通用人工智能(AGI)在物理世界应用的起点。