← 附录A | 附录B | 附录C →

附录B：倒向随机微分方程 (BSDE) 速成

倒向随机微分方程（Backward Stochastic Differential Equations, BSDE）是理解扩散模型反向过程，特别是其与最优控制和经济学联系的重要数学工具。本附录将快速介绍BSDE的核心概念，旨在为读者提供一个更深刻的理论视角。

B.1 从前向到倒向：问题的提出

标准的前向SDE（FSDE）从一个已知的初始状态 X_0 出发，描述系统如何演化到未来。然而，在许多问题中，我们关心的是一个“目标导向”的问题：给定一个在未来时刻 T 的目标（或成本）ξ，我们想知道在当前时刻 t 的“价值”Y_t 以及为了达到该目标需要采取的“策略”Z_t。

定义 B.1 (一般BSDE) 一个BSDE的解是一对随机过程 (Y_t, Z_t)，满足：

$$-dY_t = f(t, Y_t, Z_t)dt - Z_t dW_t$$

并满足一个终端条件 Y_T = ξ。

与FSDE的核心区别：

信息流向：FSDE由初始条件决定，向未来求解。BSDE由终端条件决定，向过去求解。
解的构成：FSDE的解是一个过程 X_t。BSDE的解是一对过程 (Y_t, Z_t)。

直观理解 Y_t 和 Z_t：

Y_t (价值过程): 代表在时刻 t，为了满足终端条件 ξ 所需的“价值”或“成本”。
Z_t (策略/对冲过程): 代表在时刻 t，为了应对随机性 dW_t 而需要采取的“策略”或“控制”。在金融中，这对应于对冲组合；在扩散模型中，它与分数函数 ∇log p_t 密切相关。

B.2 核心理论

B.2.1 存在唯一性

BSDE理论的基石是由Pardoux和彭实戈在1990年证明的存在唯一性定理。

定理 B.2 (Pardoux-Peng, 1990) 如果终端条件 ξ 是平方可积的，且驱动函数 f(t, y, z) 关于 y 和 z 满足Lipschitz连续性，那么BSDE存在唯一的平方可积解 (Y, Z)。

这个定理保证了我们讨论的问题是良定义的。后续的研究将条件放宽到了二次增长的驱动函数，这对于连接BSDE和某些物理或金融模型至关重要。

B.2.2 比较定理

BSDE的一个强大性质是比较定理，它允许我们比较不同BSDE的解。 简而言之：如果一个BSDE的终端条件和驱动函数都“更大”，那么它的解 Y_t 在任何时刻 t 也都“更大”。这在风险度量和最优控制中非常有用。

B.2.3 BSDE与PDE的联系：非线性Feynman-Kac公式

BSDE与偏微分方程（PDE）之间存在深刻的对偶关系，这通过非线性Feynman-Kac公式建立。

🌟 理论核心：一个（半）线性抛物型PDE的解，可以表示为一个BSDE的解的期望。反之，一个BSDE的解 Y_t 也可以看作是某个PDE u(t, X_t) 沿着随机路径 X_t 的演化。具体来说，Y_t = u(t, X_t)，而 Z_t 与 u 的空间梯度 ∇u 相关：Z_t = σ^T * ∇u。

这个联系是双向的：

我们可以用概率方法（模拟BSDE）来求解高维PDE。
我们可以用PDE的理论来分析BSDE的性质。

B.3 BSDE在扩散模型中的应用

BSDE为连续时间扩散模型提供了严格的数学描述。

反向过程的刻画：扩散模型的反向过程，即从噪声 x_T 生成数据 x_0 的过程，本质上是一个终端值问题，可以用BSDE来精确描述。
分数函数的演化：定义 Y_t = log p_t(X_t)，即沿着随机路径 X_t 的对数概率密度。可以证明，Y_t 满足一个驱动函数 f 具有二次增长的非线性BSDE。在这个BSDE中，Z_t 过程与分数函数 ∇log p_t(X_t) 直接相关。

💡 关键洞察：这意味着，学习分数函数的过程，可以被看作是求解一个非线性BSDE的过程。这为设计新的损失函数和训练算法提供了理论依据。例如，我们可以通过最小化BSDE的残差来学习分数模型。
与最优传输的联系：连接两个分布 p_0 和 p_T 的Schrödinger桥问题，可以被转化为求解一个耦合的前向-倒向SDE（FBSDE）系统。这个系统的解给出了在两个分布之间转换的最优随机路径，为扩散模型提供了最优传输的视角。

B.4 数值方法简介

由于大多数BSDE没有解析解，数值方法至关重要。

时间离散化：最常见的是向后欧拉格式。从 Y_T = ξ 开始，反向迭代求解 (Y_{t_i}, Z_{t_i})。每一步都需要计算一个条件期望，这是数值求解的难点。
深度学习方法 (Deep BSDE)：现代方法使用神经网络来参数化未知的 Z_t 过程。其核心思想是：
1. 用一个神经网络 Z_θ(t, x) 来近似 Z_t。
2. 从 t=0 开始，使用 Z_θ 和一个猜测的初始值 Y_0，通过离散化格式前向模拟出 Y_T。
3. 最小化模拟得到的 Y_T 和真实的终端条件 ξ 之间的误差 ||Y_T - ξ||^2。
4. 通过反向传播训练网络参数 θ 和初始值 Y_0。

⚡ 实现挑战：Deep BSDE方法将一个复杂的随机控制问题转化为了一个深度学习的优化问题，但在高维情况下，仍然面临“维度灾难”的挑战。

练习 B.1：线性BSDE的显式解

考虑线性BSDE：-dY_t = (aY_t + f_t)dt - Z_t dW_t，终端条件为 Y_T = ξ，其中 a 是常数，f_t 是确定性函数。

求解：使用积分因子 e^{at}，求解 Y_t 的表达式。
分析：解释解的表达式的金融学含义（将 a 视为贴现率）。
开放探索：如果 a 也是一个随机过程 a_t，解会是什么形式？这在随机利率模型中很常见。

解答思路：

对 tilde(Y)_t = e^{at}Y_t 应用伊藤公式，可以消去 Y_t 的漂移项，得到一个只包含 dt 和 dW_t 的SDE。对其积分再整理，最终得到 Y_t = E[e^{-a(T-t)}ξ + ∫_t^T e^{-a(s-t)}f_s ds | F_t]。
这个解表示，时刻 t 的价值等于未来所有现金流 f_s 和终端价值 ξ 在考虑了贴现因子 e^{-a(s-t)} 后的条件期望。

练习 B.2：BSDE与热方程

证明热方程 ∂u/∂t + 1/2 * Δu = 0，u(T,x) = g(x) 的解可以用一个BSDE表示。

构造过程：定义一个前向过程 X_t^x = x + W_t 和一个新过程 Y_t = u(t, X_t^x)。
应用伊藤公式：对 Y_t 应用伊藤公式。
建立联系：利用 u 是热方程的解这一事实，证明 Y_t 满足一个驱动函数 f=0 的BSDE。

研究思路：这个练习展示了Feynman-Kac公式最简单的情形。思考一下，如果PDE中有一个非线性的项，例如 ∂u/∂t + 1/2 * Δu + (∇u)^2 = 0（Hamilton-Jacobi-Bellman方程），那么对应的BSDE的驱动函数 f 会是什么样的？

本章小结

核心定义：BSDE是从一个未来的终端条件出发，向后求解的随机微分方程，其解为一对 (Y_t, Z_t) 过程。
理论基石：存在唯一性定理和比较定理保证了BSDE的良好性质。非线性Feynman-Kac公式建立了BSDE与PDE的深刻联系。
扩散模型应用：BSDE为描述扩散模型的反向过程和分数函数的演化提供了严格的数学框架，并将其与最优控制和最优传输理论联系起来。

虽然BSDE理论较为抽象，但它为我们理解“目标导向”的随机过程提供了统一而强大的语言，是连接概率论、PDE和机器学习的重要桥梁。