multimodal_autoregressive_tutorial

第二章: 世界模型的数学框架

理论基础：状态空间表示、动态系统建模 概率图模型：马尔可夫假设、因果推断 学习算法：最大似然估计、变分推断

开篇导言

世界模型(World Models)是多模态自回归系统的理论核心，它试图学习环境的内在动力学规律，从而预测未来状态并指导决策。本章将深入探讨世界模型的数学基础，从状态空间表示到概率图模型，从马尔可夫性质到变分推断算法。

作为资深工程师和AI科学家，您将通过本章掌握：

状态空间中的动态系统数学表示
概率图模型在序贯决策中的应用
马尔可夫假设的理论意义与实践局限
变分推断在大规模世界模型训练中的关键作用
从World Models到Dreamer系列的技术演进路径

学习目标：通过本章学习，您将具备设计和分析世界模型架构的理论基础，理解其在具身AI和自动驾驶中的核心作用。

2.1 状态空间表示与动态系统建模

2.1.1 状态空间的数学定义

在世界模型中，环境被抽象为一个动态系统，其演化过程可以用状态空间表示来刻画。设环境在时刻$t$的状态为$s_t \in \mathcal{S}$，其中$\mathcal{S}$是状态空间。

连续状态空间：当状态为连续变量时，状态空间$\mathcal{S} \subseteq \mathbb{R}^d$是$d$维欧几里得空间的子集： $s_t = \begin{bmatrix} s_t^{(1)} \\ s_t^{(2)} \\ \vdots \\ s_t^{(d)} \end{bmatrix} \in \mathbb{R}^d$

例如，在自动驾驶场景中，车辆状态可能包括： $s_t = \begin{bmatrix} x_t \\ y_t \\ \theta_t \\ v_t \\ \omega_t \end{bmatrix}$ 其中$(x_t, y_t)$是位置坐标，$\theta_t$是朝向角，$v_t$是线速度，$\omega_t$是角速度。

离散状态空间：对于离散状态，$\mathcal{S} = {s^{(1)}, s^{(2)}, \ldots, s^{(N)}}$是有限或可数无限集合。在NLP任务中，状态可能是词汇表中的离散符号：$\mathcal{S} = {\text{token}1, \text{token}_2, \ldots, \text{token}{|\mathcal{V}|}}$。

混合状态空间：实际应用中，状态往往包含连续和离散组件： $s_t = (s_t^c, s_t^d), \quad s_t^c \in \mathbb{R}^{d_c}, s_t^d \in \mathcal{D}$

其中$\mathcal{D}$是离散符号集合，$d_c$是连续维度。

具体应用示例：

自动驾驶车辆状态：

连续状态部分 s_t^c:
  位置: (x, y) ∈ ℝ²
  朝向: θ ∈ [0, 2π)
  速度: (vx, vy) ∈ ℝ²

离散状态部分 s_t^d:
  车道状态: {直行道, 左转道, 右转道}
  交通信号: {红灯, 绿灯, 黄灯}
  档位状态: {停车, 前进, 倒退}

机器人抓取任务状态：

连续状态部分:
  机械臂关节角度: θ = [θ1, θ2, ..., θ7] ∈ ℝ⁷
  末端执行器位姿: (x, y, z, roll, pitch, yaw) ∈ ℝ⁶

离散状态部分:
  抓取状态: {空闲, 接近, 抓取, 持有}
  目标类别: {杯子, 笔, 键盘, 鼠标, ...}

多模态对话系统状态：

连续状态部分:
  语义向量: h ∈ ℝᵈ (BERT/GPT编码)
  情感极性: sentiment ∈ [-1, 1]

离散状态部分:
  对话意图: {询问, 请求, 闲聊, 投诉}
  当前话题: {技术支持, 产品咨询, 售后服务}

状态空间的几何结构：不同类型的状态空间具有不同的几何性质，选择合适的几何结构对建模精度至关重要：

状态空间几何结构层次：

欧几里得空间 ℝ^d
├── 平移不变性: ‖s1 - s2‖ = ‖(s1+v) - (s2+v)‖
├── 旋转不变性: ‖Rs1 - Rs2‖ = ‖s1 - s2‖
└── 应用: 位置、速度、加速度等物理量

流形空间 M
├── SO(3)旋转群: 3D朝向表示，避免万向锁
├── SE(3)刚体运动群: 位置+朝向联合表示
├── S^(n-1)球面: 方向向量归一化约束
└── 应用: 机器人姿态、相机朝向、分子构象

概率单纯形 Δ^(n-1)
├── 约束: Σᵢsᵢ = 1, sᵢ ≥ 0
├── 几何: 凸集，Fisher信息度量
└── 应用: 注意力权重、类别概率分布

拓扑空间
├── 连通性: 状态间可达性分析
├── 紧致性: 有界闭集，保证收敛性
└── 应用: 策略空间、约束优化

欧几里得空间 $\mathbb{R}^d$：具有平移不变性，距离度量简单，适合位置、速度等连续物理量
流形空间 $\mathcal{M}$：如$SO(3)$旋转群，避免万向锁问题，适合表示朝向、姿态 $SO(3) = \{R \in \mathbb{R}^{3 \times 3} : RR^T = I, \det(R) = 1\}$
概率单纯形 $\Delta^{n-1}$：满足$\sum_i s_i = 1, s_i \geq 0$，自然表示概率分布状态
拓扑空间：考虑连通性、紧致性等拓扑性质，对策略学习的收敛性分析重要

几何结构选择的工程考虑：

计算复杂度：欧几里得运算最简单，流形运算需要指数映射
数值稳定性：概率单纯形需要数值稳定的softmax运算
物理约束：SO(3)自然满足旋转约束，无需额外投影
优化友好性：凸空间便于梯度优化，非凸流形需要黎曼优化

2.1.2 动态系统的转移函数

环境的演化规律由状态转移函数$f$描述： $s_{t+1} = f(s_t, a_t, \omega_t)$

其中：

$a_t \in \mathcal{A}$是智能体的行动
$\omega_t$是系统噪声，通常假设$\omega_t \sim \mathcal{N}(0, Q)$

确定性动态系统：当系统噪声可忽略时，转移函数变为确定性映射： $s_{t+1} = f(s_t, a_t)$

经典例子包括：

倒立摆系统：$\ddot{\theta} = \frac{g\sin\theta - a\cos\theta}{l}$
Lorenz混沌系统：$\dot{x} = \sigma(y-x), \dot{y} = x(\rho-z)-y, \dot{z} = xy-\beta z$

随机动态系统：考虑系统不确定性，转移概率分布为： $p(s_{t+1} | s_t, a_t) = \mathcal{N}(f(s_t, a_t), Q)$

非高斯噪声模型：实际系统中，噪声往往偏离高斯假设，需要更精细的建模：

噪声分布类型与应用场景:

高斯混合分布 (多峰)
  p(ω) = Σₖ πₖ N(μₖ, Σₖ)
  ├── 应用: 多模态传感器融合
  ├── 场景: GPS信号在城市峡谷中的多路径效应
  └── 特点: 不确定性具有多个置信区域

Student-t分布 (重尾)
  p(ω) = t_ν(0, Σ)
  ├── 应用: 异常值鲁棒的状态估计
  ├── 场景: 激光雷达在雨雾天气的测距误差
  └── 特点: 比高斯分布有更厚的尾部

跳跃扩散过程
  ds_t = f(s_t, a_t)dt + σ dW_t + h dN_t
  ├── 应用: 金融市场、生物系统建模
  ├── 场景: 股价突然跳跃、基因表达爆发
  └── 特点: 连续演化中的突发事件

具体工程实例：

自动驾驶中的多峰噪声： $p(\omega_{\text{GPS}}) = 0.7\mathcal{N}(0, \sigma_1^2) + 0.3\mathcal{N}(\mu_{\text{bias}}, \sigma_2^2)$ 其中第一项是正常GPS信号，第二项是多路径反射造成的偏置。

机器人视觉的重尾噪声： $p(\omega_{\text{vision}}) = t_3(0, \sigma^2 I)$ 自由度$\nu=3$的t分布能更好处理光照突变、遮挡等异常情况。

股票交易机器人的跳跃扩散： $d\text{price}_t = \mu \text{price}_t dt + \sigma \text{price}_t dW_t + \text{price}_t J_t dN_t$ 其中$J_t$是跳跃幅度，$N_t$是强度为$\lambda$的泊松过程，模拟突发新闻对价格的冲击。

函数逼近与神经网络：对于复杂的非线性转移函数，使用神经网络逼近： $f_\theta(s_t, a_t) = \text{NN}_\theta(s_t, a_t)$

常见架构及其适用场景：

神经网络架构选择指南:

多层感知机 (MLP)
  f(x) = W_L σ(W_{L-1} σ(···W_1 x + b_1) + b_{L-1}) + b_L
  ├── 优点: 通用逼近能力，计算高效
  ├── 适用: 低维状态空间，即时决策系统
  └── 场景: 倒立摆控制、简单导航

循环神经网络 (RNN/LSTM/GRU)
  h_t = f(h_{t-1}, s_t, a_{t-1})
  ├── 优点: 自然处理时序依赖，内存高效
  ├── 适用: 部分可观测环境，需要记忆
  └── 场景: 语音识别、机器翻译

Transformer架构
  Attention(Q,K,V) = softmax(QK^T/√d)V
  ├── 优点: 长程依赖，并行训练
  ├── 适用: 复杂序列建模，多模态融合
  └── 场景: 视觉-语言导航，多轮对话

图神经网络 (GNN)
  h_v^{(l+1)} = σ(W·AGG({h_u^{(l)}: u ∈ N(v)}))
  ├── 优点: 处理关系结构，置换不变
  ├── 适用: 社交网络，分子动力学
  └── 场景: 多智能体协调，蛋白质折叠

架构设计的工程权衡：

计算复杂度分析：

MLP: $O(d^2 L)$ 其中$d$是隐藏维度，$L$是层数
RNN: $O(d^2 T)$ 其中$T$是序列长度，无法并行
Transformer: $O(T^2 d)$ 注意力的二次复杂度
GNN: $O( E d)$ 其中$ E $是图的边数

内存占用对比：

MLP: 最省内存，只存储当前状态
RNN: 线性内存增长$O(T \cdot d)$
Transformer: 需缓存所有历史$O(T^2)$
GNN: 取决于图的稠密程度

Lipschitz连续性与稳定性：为保证数值稳定性，要求转移函数满足Lipschitz条件： $\|f(s_1, a) - f(s_2, a)\| \leq L \|s_1 - s_2\|$

其中$L$是Lipschitz常数。这保证了相似状态产生相似的未来状态。

2.1.3 观测模型与部分可观测性

在多模态系统中，状态往往不能直接观测，而是通过多种传感器获得观测信号。每种传感器具有不同的观测特性、噪声模式和时间同步要求：

多模态观测系统架构：
                     真实状态 s_t
                          |
        ┌─────────────────┼─────────────────┐
        ▼                 ▼                 ▼
   视觉传感器         音频传感器        惯性传感器
   ┌─────────┐       ┌─────────┐       ┌─────────┐
   │RGB相机   │       │麦克风阵列│       │IMU/GPS  │
   │深度相机  │       │声纳设备 │       │激光雷达  │
   │热成像仪  │       │超声波   │       │磁力计   │
   └─────────┘       └─────────┘       └─────────┘
        |                 |                 |
        ▼                 ▼                 ▼
    o_t^v ∈ ℝ^(H×W×C)  o_t^a ∈ ℝ^(F×T)  o_t^i ∈ ℝ^6
   高维度图像数据       时频域音频        低维度精确
   低噪声但计算重      中等维度          高采样率

        |                 |                 |
        └─────────────────┼─────────────────┘
                          ▼
                    传感器融合模块
                   h_fusion(o_t^v, o_t^a, o_t^i)
                          |
                          ▼
                    状态估计 ŝ_t

传感器特性对比表：

传感器类型	维度	频率	精度	延迟	环境依赖	典型应用
RGB相机	高(~10^6)	30-60Hz	中等	中等	光照敏感	目标检测
深度相机	高(~10^5)	30Hz	高	中等	距离限制	SLAM
激光雷达	中(~10^4)	10-20Hz	极高	低	天气敏感	建图定位
IMU	低(6-9)	100-1000Hz	高	极低	温度漂移	姿态估计
GPS	低(3)	1-10Hz	中等	高	遮挡敏感	全局定位
麦克风	中(~10^3)	44kHz	高	低	噪声敏感	语音识别

多模态观测方程： $o_t = \begin{bmatrix} o_t^v \\ o_t^a \\ o_t^h \\ o_t^l \\ o_t^i \end{bmatrix} = \begin{bmatrix} h_v(s_t) \\ h_a(s_t) \\ h_h(s_t) \\ h_l(s_t) \\ h_i(s_t) \end{bmatrix} + \begin{bmatrix} \varepsilon_v \\ \varepsilon_a \\ \varepsilon_h \\ \varepsilon_l \\ \varepsilon_i \end{bmatrix}$

其中$\varepsilon_i$表示第$i$种模态的观测噪声。

观测函数的非线性特征：每种模态的观测函数具有不同的非线性特征：

视觉观测：透视投影、光照变化、遮挡 $h_v(s_t) = \Pi(\mathcal{R}(s_t, I_{\text{ambient}}))$ 其中$\Pi$是透视投影，$\mathcal{R}$是渲染函数
音频观测：声学传播、多普勒效应、混响 $h_a(s_t) = \mathcal{F}^{-1}(\mathcal{F}(s_{\text{source}}) \cdot H_{\text{room}}(\omega))$ 其中$H_{\text{room}}$是房间脉冲响应
IMU观测：重力投影、科里奥利力 $h_i(s_t) = R_t g + a_t + b_{\text{gyro}} + \varepsilon_{\text{imu}}$ 其中$R_t$是旋转矩阵，$g$是重力向量

部分可观测性的信息论分析：定义观测的信息增益： $I(s_t; o_t) = H(s_t) - H(s_t | o_t)$

其中$H(s_t)$是状态的先验熵，$H(s_t

o_t)$是后验熵。完全可观测时$H(s_t

o_t) = 0$。

时间同步与传感器融合挑战：

不同传感器具有不同的采样率、延迟特性，需要精确的时间对齐：

时间同步挑战示例：
时间轴:  t₀    t₁    t₂    t₃    t₄    t₅
相机:    |---- 33ms ----|---- 33ms ----|  (30FPS)
IMU:     |5ms|5ms|5ms|5ms|5ms|5ms|5ms|  (200Hz)
GPS:     |------- 100ms -------|-------  (10Hz)
激光雷达: |---- 50ms ----|---- 50ms ----|  (20Hz)

问题: 如何将不同时刻的观测融合得到t时刻的状态估计？

传感器融合的三种策略：

1. 早期融合(Early Fusion)： $\tilde{o}_t = \text{Interpolate}([o_t^v, o_t^a, o_t^i]), \quad \hat{s}_t = f_{fusion}(\tilde{o}_t)$

优点：简单直观，计算效率高
缺点：丢失模态特定信息，插值误差

2. 晚期融合(Late Fusion)： $\hat{s}_t^v = f_v(o_t^v), \hat{s}_t^a = f_a(o_t^a), \hat{s}_t^i = f_i(o_t^i)$ $\hat{s}_t = \text{Weighted\_Average}([\hat{s}_t^v, \hat{s}_t^a, \hat{s}_t^i], w)$

优点：保留模态特异性，可解释性好
缺点：忽略模态间交互，权重设计困难

3. 混合融合(Hybrid Fusion)： $h_t^{shared} = \text{CrossAttention}([h_t^v, h_t^a, h_t^i])$ $\hat{s}_t = \text{MLP}([h_t^{shared}, h_t^v, h_t^a, h_t^i])$

优点：兼顾交互和特异性，表达能力强
缺点：计算复杂度高，训练困难

多模态融合的互信息：不同模态间的冗余信息可用互信息量化： $I(o_t^i; o_t^j | s_t) = \iint p(o_t^i, o_t^j | s_t) \log \frac{p(o_t^i, o_t^j | s_t)}{p(o_t^i | s_t)p(o_t^j | s_t)} do_t^i do_t^j$

当$I(o_t^i; o_t^j

s_t) = 0$时，两模态条件独立。

实际融合案例分析：

自动驾驶的传感器融合：

# 伪代码示例
def autonomous_driving_fusion(camera, lidar, radar, gps, imu):
    # 时间对齐
    timestamp = get_reference_time()
    camera_aligned = temporal_interpolate(camera, timestamp)
    lidar_aligned = temporal_interpolate(lidar, timestamp)

    # 空间校准
    lidar_to_camera = apply_extrinsic_calibration(lidar_aligned)

    # 特征提取
    visual_features = cnn_backbone(camera_aligned)
    point_features = pointnet(lidar_to_camera)
    motion_features = integrate_imu(imu, dt=0.01)

    # 多尺度融合
    fused_features = cross_attention([visual_features, point_features])
    state_estimate = kalman_update(motion_features, fused_features)

    return state_estimate

机器人抓取的多模态感知：

视觉: 物体检测、位姿估计、遮挡推理
触觉: 接触力反馈、表面纹理、滑移检测
听觉: 碰撞声音、材质识别、抓取成功判断
本体感觉: 关节角度、扭矩反馈、碰撞检测

2.1.4 线性动态系统的解析解

对于线性时不变(LTI)系统： $\begin{align} s_{t+1} &= As_t + Ba_t + \omega_t \\ o_t &= Cs_t + \nu_t \end{align}$

其中$A \in \mathbb{R}^{d \times d}$是状态转移矩阵，$B \in \mathbb{R}^{d \times p}$是控制矩阵，$C \in \mathbb{R}^{m \times d}$是观测矩阵。

系统状态的解析解：给定初始状态$s_0$和控制序列${a_0, a_1, \ldots, a_{t-1}}$，状态的显式解为： $s_t = A^t s_0 + \sum_{\tau=0}^{t-1} A^{t-1-\tau} Ba_\tau + \sum_{\tau=0}^{t-1} A^{t-1-\tau} \omega_\tau$

系统稳定性分析：系统稳定当且仅当矩阵$A$的所有特征值的模长小于1： $|\lambda_i(A)| < 1, \quad \forall i = 1, 2, \ldots, d$

Lyapunov稳定性判据：系统渐近稳定当且仅当存在正定矩阵$P \succ 0$使得： $A^T P A - P \prec 0$

这等价于离散Lyapunov方程：$A^T P A - P = -Q$有唯一正定解，其中$Q \succ 0$。

可控性与可观测性：

系统可控：可控性矩阵满秩 $\mathcal{C} = [B, AB, A^2B, \ldots, A^{d-1}B], \quad \text{rank}(\mathcal{C}) = d$
系统可观测：可观测性矩阵满秩 $\mathcal{O} = \begin{bmatrix} C \\ CA \\ CA^2 \\ \vdots \\ CA^{d-1} \end{bmatrix}, \quad \text{rank}(\mathcal{O}) = d$

Kalman滤波的最优性：对于线性高斯系统，Kalman滤波给出最小均方误差估计： $\hat{s}_{t|t} = \arg\min_{s_t} \mathbb{E}[\|s_t - \hat{s}_t\|^2 | o_{0:t}]$

预测步骤： $\begin{align} \hat{s}_{t|t-1} &= A\hat{s}_{t-1|t-1} + Ba_{t-1} \\ P_{t|t-1} &= AP_{t-1|t-1}A^T + Q \end{align}$

更新步骤： $\begin{align} K_t &= P_{t|t-1}C^T(CP_{t|t-1}C^T + R)^{-1} \\ \hat{s}_{t|t} &= \hat{s}_{t|t-1} + K_t(o_t - C\hat{s}_{t|t-1}) \\ P_{t|t} &= (I - K_tC)P_{t|t-1} \end{align}$

其中$K_t$是Kalman增益矩阵。

频域分析： LTI系统的传递函数为： $G(z) = C(zI - A)^{-1}B$

系统的频率响应特性可通过$z = e^{j\omega}$分析，这对于理解系统的动态特性至关重要。

2.2 概率图模型与马尔可夫性质

2.2.1 马尔可夫链基础

世界模型的核心假设是马尔可夫性质，即未来状态只依赖于当前状态，与历史无关：

一阶马尔可夫假设： $p(s_{t+1} | s_t, s_{t-1}, \ldots, s_0) = p(s_{t+1} | s_t)$

这个假设大大简化了建模复杂度，使得状态序列形成马尔可夫链。

高阶马尔可夫链：实际系统可能需要更长的历史依赖，$k$阶马尔可夫链定义为： $p(s_{t+1} | s_t, s_{t-1}, \ldots, s_0) = p(s_{t+1} | s_t, s_{t-1}, \ldots, s_{t-k+1})$

通过状态扩充可将高阶链转化为一阶链： $\tilde{s}_t = (s_t, s_{t-1}, \ldots, s_{t-k+1})$

状态转移概率矩阵：对于离散状态空间，转移概率可表示为矩阵$P$： $P_{ij} = p(s_{t+1} = j | s_t = i)$

满足随机矩阵性质：$\sum_j P_{ij} = 1$ 和 $P_{ij} \geq 0$

长期行为与平稳分布：马尔可夫链的长期行为由其平稳分布$\pi$决定： $\pi = \pi P, \quad \sum_i \pi_i = 1$

如果链是不可约且非周期的，则存在唯一平稳分布，且： $\lim_{t \to \infty} p(s_t = j | s_0 = i) = \pi_j$

遍历性定理：对于有限状态不可约非周期马尔可夫链，强大数定律给出： $\lim_{T \to \infty} \frac{1}{T} \sum_{t=1}^T \mathbf{1}_{s_t = j} = \pi_j \quad \text{a.s.}$

混合时间：马尔可夫链收敛到平稳分布的速度由混合时间$t_{mix}$刻画： $t_{mix}(\epsilon) = \min\{t : \max_i \|p_i^{(t)} - \pi\|_{TV} \leq \epsilon\}$

其中$|\cdot|_{TV}$是全变差距离。

连续状态马尔可夫过程：对于连续状态空间，转移概率密度为$p(s_{t+1} | s_t)$，Chapman-Kolmogorov方程： $p(s_{t+n} | s_t) = \int p(s_{t+n} | s_{t+k}) p(s_{t+k} | s_t) ds_{t+k}$

对于齐次马尔可夫过程，这简化为： $p_n(s' | s) = \int p_{n-k}(s' | s'') p_k(s'' | s) ds''$

2.2.2 隐马尔可夫模型(HMM)扩展

在部分可观测环境中，真实状态$s_t$不可直接观测，只能通过观测$o_t$推断状态：

HMM图模型结构：
s_0 → s_1 → s_2 → ... → s_t → s_{t+1} → ...
 ↓     ↓     ↓           ↓       ↓
o_0   o_1   o_2   ...   o_t   o_{t+1}   ...

联合分布分解： $p(s_{0:T}, o_{0:T}) = p(s_0) \prod_{t=1}^T p(s_t | s_{t-1}) \prod_{t=0}^T p(o_t | s_t)$

前向算法：定义前向变量$\alpha_t(i) = p(o_{0:t}, s_t = i)$，递推关系为： $\alpha_{t+1}(j) = p(o_{t+1} | s_{t+1} = j) \sum_i \alpha_t(i) p(s_{t+1} = j | s_t = i)$

观测序列概率：$p(o_{0:T}) = \sum_i \alpha_T(i)$

后向算法：定义后向变量$\beta_t(i) = p(o_{t+1:T} | s_t = i)$，递推关系为： $\beta_t(i) = \sum_j p(s_{t+1} = j | s_t = i) p(o_{t+1} | s_{t+1} = j) \beta_{t+1}(j)$

边界条件：$\beta_T(i) = 1$

前向-后向算法：结合前向和后向概率计算边际概率： $p(s_t = i | o_{0:T}) = \frac{\alpha_t(i) \beta_t(i)}{p(o_{0:T})}$

转移概率的期望： $\xi_t(i,j) = p(s_t = i, s_{t+1} = j | o_{0:T}) = \frac{\alpha_t(i) p(s_{t+1} = j | s_t = i) p(o_{t+1} | s_{t+1} = j) \beta_{t+1}(j)}{p(o_{0:T})}$

维特比算法：寻找最可能的状态序列$\hat{s}_{0:T}$： $\hat{s}_{0:T} = \arg\max_{s_{0:T}} p(s_{0:T} | o_{0:T})$

定义维特比变量：$\delta_t(i) = \max_{s_{0:t-1}} p(s_{0:t-1}, s_t = i, o_{0:t})$

递推公式： $\delta_{t+1}(j) = p(o_{t+1} | s_{t+1} = j) \max_i [\delta_t(i) p(s_{t+1} = j | s_t = i)]$

Baum-Welch算法(EM for HMM)： E步：计算期望充分统计量

$\gamma_t(i) = p(s_t = i o_{0:T})$
$\xi_t(i,j) = p(s_t = i, s_{t+1} = j o_{0:T})$

M步：更新参数

初始概率：$\pi_i = \gamma_0(i)$
转移概率：$A_{ij} = \frac{\sum_{t=0}^{T-1} \xi_t(i,j)}{\sum_{t=0}^{T-1} \gamma_t(i)}$
发射概率：$B_{j}(o_k) = \frac{\sum_{t=0}^{T}, o_t=o_k \gamma_t(j)}{\sum_{t=0}^{T} \gamma_t(j)}$

连续观测HMM：当观测为连续变量时，发射概率通常建模为高斯混合： $p(o_t | s_t = j) = \sum_{m=1}^{M_j} c_{jm} \mathcal{N}(o_t; \mu_{jm}, \Sigma_{jm})$

其中$c_{jm}$是混合权重，$\sum_m c_{jm} = 1$。

2.2.3 条件独立性与d-分离

在复杂的多模态世界模型中，条件独立性假设至关重要：

条件独立定义：随机变量$X$和$Y$在给定$Z$条件下独立，记为$X \perp Y | Z$，当且仅当： $p(x, y | z) = p(x | z) p(y | z)$

d-分离准则：在有向无环图(DAG)中，节点集$A$和$B$被节点集$C$ d-分离，当且仅当$C$阻断了$A$和$B$之间的所有路径。

这个假设虽然简化了计算，但可能忽略模态间的交互信息。

2.2.4 因果推断与结构学习

世界模型不仅要建模相关性，更要理解因果关系：

因果图表示：使用有向无环图表示变量间的因果关系，边$A \rightarrow B$表示$A$是$B$的直接原因。

do-算子与干预： Pearl的do-算子$do(X = x)$表示对变量$X$的外部干预： $p(Y | do(X = x)) \neq p(Y | X = x)$

前者是因果效应，后者是条件概率。

混杂因子控制：在世界模型中，智能体的行动$a_t$是对环境的干预，状态转移概率为： $p(s_{t+1} | do(a_t), s_t) = p(s_{t+1} | a_t, s_t)$

当没有隐藏混杂因子时成立。

2.3 学习算法：最大似然估计与变分推断

2.3.1 最大似然估计基础

给定观测序列$\mathcal{D} = {(o_{0:T}^{(n)}, a_{0:T-1}^{(n)})}_{n=1}^N$，世界模型的参数$\theta$通过最大化似然函数学习：

似然函数： $\mathcal{L}(\theta) = \prod_{n=1}^N p(o_{0:T}^{(n)} | a_{0:T-1}^{(n)}, \theta)$

对数似然： $\ell(\theta) = \sum_{n=1}^N \log p(o_{0:T}^{(n)} | a_{0:T-1}^{(n)}, \theta)$

对于马尔可夫模型，似然函数分解为： $p(o_{0:T} | a_{0:T-1}) = p(o_0) \prod_{t=1}^T \int p(o_t | s_t) p(s_t | s_{t-1}, a_{t-1}) ds_t ds_{t-1}$

EM算法：当存在隐变量(潜在状态)时，使用EM算法迭代优化：

E步：计算后验分布 $Q(\theta | \theta^{(k)}) = \mathbb{E}_{s_{0:T} | o_{0:T}, \theta^{(k)}}[\log p(o_{0:T}, s_{0:T} | \theta)]$

M步：最大化期望似然 $\theta^{(k+1)} = \arg\max_\theta Q(\theta | \theta^{(k)})$

2.3.2 变分推断原理

对于复杂的世界模型，精确推断通常不可行，需要变分推断近似后验分布。

变分下界(ELBO)：设$q(s_{0:T})$是真实后验$p(s_{0:T} | o_{0:T})$的变分近似，则： $\log p(o_{0:T}) \geq \mathbb{E}_{q(s_{0:T})}[\log p(o_{0:T}, s_{0:T})] - \mathbb{E}_{q(s_{0:T})}[\log q(s_{0:T})]$

即： $\log p(o_{0:T}) \geq \mathcal{L}_{ELBO}[q]$

KL散度分解： $\log p(o_{0:T}) = \mathcal{L}_{ELBO}[q] + D_{KL}(q(s_{0:T}) \| p(s_{0:T} | o_{0:T}))$

由于$D_{KL} \geq 0$，ELBO是对数似然的下界。

平均场变分：假设变分分布具有因式分解形式： $q(s_{0:T}) = \prod_{t=0}^T q_t(s_t)$

每个因子的最优解为： $q_t^*(s_t) \propto \exp(\mathbb{E}_{q_{-t}}[\log p(o_{0:T}, s_{0:T})])$

2.3.3 神经变分推断

现代世界模型使用神经网络参数化变分分布：

变分编码器： $q_\phi(s_t | o_{0:t}) = \mathcal{N}(\mu_\phi(o_{0:t}), \sigma_\phi^2(o_{0:t}))$

其中$\mu_\phi$和$\sigma_\phi$是神经网络输出。

重参数化技巧：为了反向传播，使用重参数化采样： $s_t = \mu_\phi(o_{0:t}) + \sigma_\phi(o_{0:t}) \odot \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$

VAE目标函数： $\mathcal{L}_{VAE} = \mathbb{E}_{q_\phi(s_t | o_t)}[\log p_\theta(o_t | s_t)] - D_{KL}(q_\phi(s_t | o_t) \| p(s_t))$

第一项是重构损失，第二项是正则化项。

2.3.4 序贯变分推断

对于时序数据，使用递归形式的变分推断：

滤波分布： $q(s_t | o_{0:t}) = \frac{p(o_t | s_t) \int q(s_{t-1} | o_{0:t-1}) p(s_t | s_{t-1}, a_{t-1}) ds_{t-1}}{p(o_t | o_{0:t-1})}$

平滑分布：后向递归计算全序列条件下的状态分布： $q(s_t | o_{0:T}) \propto q(s_t | o_{0:t}) \int q(s_{t+1} | o_{0:T}) \frac{p(s_{t+1} | s_t, a_t)}{q(s_{t+1} | o_{0:t+1})} ds_{t+1}$

本章小结

本章建立了世界模型的数学理论框架，核心概念包括：

关键概念回顾

状态空间表示：连续/离散/混合状态空间的数学描述
动态系统建模：确定性与随机转移函数，线性时不变系统
马尔可夫性质：简化历史依赖的基础假设
条件独立性：多模态观测的分解假设
因果推断：区分相关性与因果关系的数学工具

核心公式汇总

状态转移：$p(s_{t+1} s_t, a_t) = \mathcal{N}(f(s_t, a_t), Q)$
观测模型：$p(o_t s_t) = \prod_m p(o_t^m s_t)$ (模态独立假设)
变分下界：$\log p(o_{0:T}) \geq \mathcal{L}_{ELBO}[q] = \mathbb{E}_q[\log p(o,s)] - \mathbb{E}_q[\log q(s)]$
VAE损失：$\mathcal{L} = \mathbb{E}[\log p(o s)] - D_{KL}(q(s o) | p(s))$

技术要点

马尔可夫假设简化建模但可能丢失长期依赖
变分推断在计算效率与精度间权衡
神经变分推断结合深度学习的表达能力
多模态融合需要仔细设计条件独立性假设

这些数学工具为后续章节的多模态表示学习和自回归生成机制奠定了坚实基础。在实际应用中，需要根据具体任务特点选择合适的建模假设和推断算法。

下一章预告：第三章: 多模态表示学习将探讨如何在统一的语义空间中对齐和融合多种模态信息。