第 10 章 推导节与证明补遗 (chapter10.md)

开篇段落

本章致力于提供神经切线核(NTK)理论核心支柱的详细数学推导。我们将从无限宽度神经网络的随机初始化状态出发,利用中心极限定理(CLT)和大数定律(LLN)建立 NNGP 核和 NTK 的形式。随后,我们严格证明在梯度流下的训练动态与核岭回归的零正则化极限等价。本章内容是理解 NTK 理论的数学基础,要求读者具备扎实的概率论、线性代数和微积分基础。


10.1 NNGP 极限的严格推导

学习目标

理解无限宽($N \to \infty$)神经网络输出函数收敛到高斯过程(GP)的数学机制,并推导出其协方差函数(NNGP 核)的递归关系。

文字论述

我们考虑一个 $L$ 层的全连接网络 $f(x) = f^L(x)$。为保证在 $N \to \infty$ 时输出方差保持 $O(1)$,我们采用 NTK 参数化(通常也被称为标准/正交初始化)。

1. 网络定义与参数化

对于第 $l$ 层的激活 $h^l(x) \in \mathbb{R}^{N_l}$,其输入 $z^l(x) \in \mathbb{R}^{N_l}$ 为: $$ z^l(x) = W^l h^{l-1}(x) + b^l $$ 其中 $W^l \in \mathbb{R}^{N_l \times N_{l-1}}$。我们假设 $N_l = N$ 对所有隐藏层 $l=1, \dots, L-1$ 成立。

NTK 参数化: 权重和偏置独立同分布 (IID) 且满足: $$ W^l_{ij} \sim \mathcal{N}(0, \sigma_w^2 / N_{l-1}), \quad b^l_i \sim \mathcal{N}(0, \sigma_b^2) $$ 对于输出层(第 $L$ 层),我们使用线性激活,并设定: $$ W^L_{i} \sim \mathcal{N}(0, \sigma_v^2 / N_{L-1}) $$

网络输出 $f^L(x)$ 为: $$ f^L(x) = \sum_{i=1}^{N_{L-1}} W^L_{i} h^{L-1}_i(x) $$

2. 中心极限定理的应用

考虑任何一层 $l$ 的输入 $z^l_i(x)$。 $$ z^l_i(x) = \sum_{j=1}^{N_{l-1}} W^l_{ij} h^{l-1}_j(x) + b^l_i $$ 由于 $W^l_{ij}$ IID 且零均值,且 $|h^{l-1}_j(x)|$ 在 $N_{l-1} \to \infty$ 时近似确定, $z^l_i(x)$ 是 $N_{l-1}$ 个独立随机变量的加权和。

根据参数化 $\text{Var}(W^l_{ij}) = \sigma_w^2 / N_{l-1}$,和的方差为: $$ \text{Var}[z^l_i(x)] = \sum_{j=1}^{N_{l-1}} \text{Var}(W^l_{ij}) \cdot \mathbb{E}[(h^{l-1}_j(x))^2] = \frac{\sigma_w^2}{N_{l-1}} \sum_{j=1}^{N_{l-1}} \mathbb{E}[(h^{l-1}_j(x))^2] $$ 在大数定律下,$\frac{1}{N_{l-1}} \sum_{j=1}^{N_{l-1}} \mathbb{E}[(h^{l-1}_j(x))^2]$ 收敛到一个确定值 $\Sigma^{l-1}(x, x)$(即前一层的协方差)。因此 $\text{Var}[z^l_i(x)]$ 收敛到一个 $O(1)$ 的确定值。

根据 CLT,当 $N_{l-1} \to \infty$ 时,任意输入 $x_a, x_b$ 上的激活 $z^l(x_a)$ 和 $z^l(x_b)$ 联合收敛到高斯分布。

$$ \mathbf{z}^l(x_a, x_b) \xrightarrow{N \to \infty} \mathcal{N}(0, \mathbf{\Sigma}^l) $$ 其中,$\mathbf{\Sigma}^l$ 是由 $K^l(x_a, x_b)$ 定义的协方差矩阵。

3. NNGP 核的递归推导

NNGP 核 $K^l(x, x')$ 定义为第 $l$ 层激活的协方差: $$ K^l(x, x') = \lim_{N \to \infty} \mathbb{E}[h^l(x)^\top h^l(x')] / N_l $$ 由于 $h^l_i(x) = \sigma(z^l_i(x))$,且 $z^l_i(x)$ 是 IID 的,我们用大数定律: $$ K^l(x, x') = \lim_{N \to \infty} \frac{1}{N_l} \sum_{i=1}^{N_l} \mathbb{E}[h^l_i(x) h^l_i(x')] = \mathbb{E}_{z^l}[\sigma(z^l(x)) \sigma(z^l(x'))] $$ 其中 $z^l(x)$ 和 $z^l(x')$ 是单个神经元的输入。它们是联合高斯分布,其协方差由前一层的 NNGP 核 $K^{l-1}$ 决定。

定义: $$ \Sigma^{l-1}_{aa} = K^{l-1}(x, x), \quad \Sigma^{l-1}_{bb} = K^{l-1}(x', x'), \quad \Sigma^{l-1}_{ab} = K^{l-1}(x, x') $$ 则 $(z^l(x), z^l(x'))^\top$ 联合高斯,协方差矩阵为 $\mathbf{\Sigma}^{l-1} + \sigma_b^2 I_2$。

递归公式: $$ K^l(x, x') = \sigma_w^2 \cdot \mathbb{E}_{\mathbf{z} \sim \mathcal{N}(0, \mathbf{\Sigma}^{l-1} + \sigma_b^2 I_2)}[\sigma(z_1) \sigma(z_2)] $$ 在初始层 $l=1$,输入 $h^0(x)=x$,则 $K^0(x, x') = x^\top x'$.

结论: 在无限宽度极限下,网络输出 $f^L(x)$ 作为一个有限项的线性组合,其极限也是一个高斯过程 $\mathcal{GP}(0, K^L(x, x'))$,且核 $K^L$ 由上述递归关系完全确定。

章小结

| 概念 | 表达式/描述 | 关键机制 |

概念 表达式/描述 关键机制
NNGP 极限 $f(x) \xrightarrow{N \to \infty} \mathcal{GP}(0, K^L)$ 中心极限定理应用于每层的输入和,确保输出方差 $O(1)$
协方差 $K^l$ $K^l(x, x') = \sigma_w^2 \cdot \mathbb{E}[\sigma(z_1) \sigma(z_2)]$ 高斯输入下的激活函数的联合期望
初始层 $K^0(x, x') = x^\top x'$ 对应于线性核的输入内积

10.2 宽度极限下 NTK 收敛的关键步骤

学习目标

证明在 NTK 参数化下,初始化 NTK 矩阵 $\mathbf{\Theta}^0$ 在宽度 $N \to \infty$ 时收敛到一个确定核 $\mathbf{\Theta}^\infty$,并且在训练过程中保持稳定(不随时间变化)。

文字论述

NTK 在参数 $\theta$ 处的定义是 $\Theta_\theta(x, x') = \nabla_\theta f_\theta(x)^\top \nabla_\theta f_\theta(x')$. 在无限宽度下,NTK 的稳定性依赖于两点:1) 初始化时 NTK 收敛到其期望值;2) 训练过程中参数的更新不足以显著改变梯度。

1. 初始化 NTK $\Theta^0$ 的分解与收敛

对于一个 $L$ 层网络,$\Theta^0(x, x')$ 是所有层参数梯度内积的总和。我们以第 $l$ 层的权重 $W^l$ 为例进行推导。

$$ \Theta^0(x, x') = \sum_{l=1}^L \Theta_{W^l}(x, x') + \sum_{l=1}^L \Theta_{b^l}(x, x') $$

梯度内积项 $\Theta_{W^l}(x, x')$ 的结构:

梯度的链式法则: $$ \nabla_{W^l_{ij}} f(x) = \frac{\partial f(x)}{\partial h^l_i(x)} \frac{\partial h^l_i(x)}{\partial z^l_i(x)} \frac{\partial z^l_i(x)}{\partial W^l_{ij}} = \frac{\partial f(x)}{\partial h^l_i(x)} \sigma'(z^l_i(x)) h^{l-1}_j(x) $$ 将所有 $W^l_{ij}$ 的梯度内积求和(共 $N_l N_{l-1}$ 项): $$ \Theta_{W^l}(x, x') = \sum_{i, j} \nabla_{W^l_{ij}} f(x) \nabla_{W^l_{ij}} f(x') $$

由于我们使用 NTK 参数化 $\text{Var}(W^l) = \sigma_w^2 / N_{l-1}$,且 $W^l$ 是 IID 的,每一项的期望是 $\mathbb{E}[\nabla_{W^l_{ij}} f(x) \nabla_{W^l_{ij}} f(x')]$.

关键步骤:利用 LLN 集中化

在无限度 $N_l, N_{l-1} \to \infty$ 时,我们分析和的期望和方差。我们可以证明 $\Theta_{W^l}(x, x')$ 收敛于其期望: $$ \lim_{N \to \infty} \Theta_{W^l}(x, x') = N_{l-1} N_l \cdot \mathbb{E}[\nabla_{W^l_{11}} f(x) \nabla_{W^l_{11}} f(x')] $$ 通过适当的缩放(例如 $1/N$),可以确保每一层的贡献是 $O(1)$。

NTK 递归关系:

通过归纳法,可以证明 NTK 具有递归形式: $$ \Theta^l(x, x') = K^l(x, x') + \Sigma_w^2 \cdot \mathbb{E}_{\mathbf{z}}[\sigma'(z_1) \sigma'(z_2) \cdot (K^{l-1}(x, x') + \Theta^{l-1}(x, x'))] $$ (注:这里 $K^l$ 对应于前一层输出权重的贡献,第二项对应于本层权重的贡献,它依赖于前一层 $l-1$ 的 NNGP 核 $K^{l-1}$ NTK $\Theta^{l-1}$.) 由于 $K^l$ 和 $\Theta^l$ 都收敛于确定值,NTK $\Theta^0$ 收敛到一个确定核 $\Theta^\infty$.

2. NTK 的训练稳定性(Frozen NTK)

在 NTK 理论中,关键假设是 $\Theta_t(x, x') \approx \Theta^0(x, x')$. 这要求训练程中参数 $\theta$ 的相对变化极小。

我们分析 NTK 随时间的变化率 $\frac{d}{dt} \Theta_t(x, x')$: $$ \frac{d}{dt} \Theta_t(x, x') = \frac{d}{dt} (\nabla_\theta f(x)^\top \nabla_\theta f(x')) $$ $$ = \nabla_\theta f(x)^\top \left( \nabla_\theta \left[ \frac{d}{dt} \nabla_\theta f(x') \right] \right) + \nabla_\theta f(x')^\top \left( \nabla_\theta \left[ \frac{d}{dt} \nabla_\theta f(x) \right] \right) $$

由于 $\frac{d}{dt} \nabla_\theta f(x) = \nabla_\theta \left(\frac{df(x)}{dt}\right)$, 且 $\frac{df(x)}{dt} = J(x) \frac{d\theta}{dt} = - J(x) J^\top (f - \mathbf{y})$, 导数包含二阶导项。

阶数分析:

  1. 初始参数范数 $||\theta_0|| \sim O(\sqrt{N})$.
  2. 梯度范数 $||\nabla_\theta f(x)|| \sim O(\sqrt{N})$.
  3. 梯度更新速度 $||\frac{d\theta}{dt}|| \sim ||\nabla L|| \sim O(1/\sqrt{N})$.

$||\frac{d\theta}{dt}||$ 保证了参数更新不会显著偏离初始化点。更重要的是,$\frac{d}{dt} \Theta_t$ 涉及到三阶导数(Hessian of the Jacobian)在 NTK 尺度下,这些高阶导数项的范数通常是 $O(1/N^{3/2})$ 或更小。

因此, $$ \left| \frac{d}{dt} \Theta_t(x, x') \right| \sim O(1/\sqrt{N}) \cdot O(1/\sqrt{N}) \cdot O(1/\sqrt{N}) \cdot N^2 \approx O(1/\sqrt{N}) $$ 当 $N \to \infty$,$\frac{d}{dt} \Theta_t \to 0$. NTK 矩阵在训练过程中被“冻结”,从而将非线性网络的训练动态线性化。

本章小结

| 概念 | 证明机制 | 结果 |

概念 证明机制 结果
$\Theta^0$ 收敛 大数定律与递归公式 $\Theta^0(x, x')$ 收敛于确定函数 $\Theta^\infty(x, x')$
稳定性条件 参数更新尺度分析 $
线性化基础 $\Theta_t \approx \Theta^\infty$ 网络训练近似于在 RKHS 上进行线性回归

10.3 核回归解与梯度流解的等价证明

学习目标

证明在 NTK 极限下,使用平方损失和梯度流训练的神经网络,其函数空间轨迹收敛到核回归(Kernel Regression)的最小 RKHS 范数解。

文字论述

1. 梯度流方程的线性化

我们考虑在训练数据集 $\mathbf{X} = \{x_1, \dots, x_M\}$ 上的平方损失梯度流: $$ \frac{d\theta}{dt} = - \nabla_\theta L(\theta) = - J_t^\top (f_t(\mathbf{X}) - \mathbf{y}) $$ 在函数空间中,函数输出的演化由线性 ODE 描述: $$ \frac{df_t(\mathbf{X})}{dt} = J_t \frac{d\theta}{dt} = - J_t J_t^\top (f_t(\mathbf{X}) - \mathbf{y}) = - \mathbf{\Theta}_t (f_t - \mathbf{y}) $$ 在 NTK 极限 $N \to \infty$ 下,$\mathbf{\Theta}_t \to \mathbf{\Theta}^\infty = \mathbf{\Theta}$,我们得到恒定系数的线性 ODE: $$ \frac{df_t}{dt} = - \mathbf{\Theta} f_t + \mathbf{\Theta} \mathbf{y} $$

2. ODE 的解析解

这是一个非齐次的线性 ODE,初始条件为 $f_t|_{t=0} = f_0$. 解为: $$ f_t = e^{-\mathbf{\Theta} t} f_0 + \int_0^t e^{-\mathbf{\Theta} (t-\tau)} \mathbf{\Theta} \mathbf{y} d\tau $$ 计算积分项(假设 $\mathbf{\Theta}$ 可逆): $$ \int_0^t e^{-\mathbf{\Theta} (t-\tau)} \mathbf{\Theta} \mathbf{y} d\tau = \mathbf{\Theta} \int_0^t e^{-\mathbf{\Theta} (t-\tau)} d\tau \mathbf{y} $$ 令 $u = t-\tau$, $du = -d\tau$. 积分上下限变为 $t \to 0$。 $$ = \mathbf{\Theta} \int_0^t e^{-\mathbf{\Theta} u} du \mathbf{y} = \mathbf{\Theta} \left[ - \mathbf{\Theta}^{-1} e^{-\mathbf{\Theta} u} \right]_0^t \mathbf{y} $$ $$ = \mathbf{\Theta} \left( \mathbf{\Theta}^{-1} I - \mathbf{\Theta}^{-1} e^{-\mathbf{\Theta} t} \right) \mathbf{y} = (I - e^{-\mathbf{\Theta} t}) \mathbf{y} $$ 将此代回 $f_t$ 的表达式: $$ f_t = e^{-\mathbf{\Theta} t} f_0 + (I - e^{-\mathbf{\Theta} t}) \mathbf{y} = \mathbf{y} + e^{-\mathbf{\Theta} t} (f_0 - \mathbf{y}) $$

3. 稳态解与最小 RKHS 范数

当 $t \to \infty$ 时,梯度流收敛到稳态解 $f_\infty$.

情形 A: $\mathbf{\Theta}$ 可逆 (欠参数化/特征不冗余) 如 10.3 节所述,如果 $\mathbf{\Theta}$ 正定可逆,则 $e^{-\mathbf{\Theta} t} \to 0$, $f_\infty = \mathbf{y}$. 完美插值。

情形 B: $\mathbf{\Theta}$ 奇异 (过参数化) 此时存在零特征值。收敛到 $f_\infty$ 需满足 $\mathbf{\Theta} (f_\infty - \mathbf{y}) = 0$. 也就是说 $f_\infty$ 是 $\mathbf{y}$ 在 $\text{Range}(\mathbf{\Theta})$ 上的投影。

为了找到训练选择的特定插值解,我们必须考虑参数空间中的最小范数条件。在梯度流下,参数 $\theta(t)$ 始终保持在 $\theta_0$ 附近,即 $\theta(t) \approx \theta_0 + \Delta \theta(t)$. 由于 $\frac{d\theta}{dt}$ 始终沿着 $-J_t^\top (f_t - \mathbf{y})$ 方向,且 $\Delta \theta(t)$ 在 $\theta_0$ 处的 $L_2$ 范数会尽可能小。

RKHS 范数关联: 在 NTK 极限下,函数 $f(x)$ 的 RKHS 范数 $|f|_{\mathcal{H}_\Theta}^2$ 与参数的 $L_2$ 范数 $||\Delta \theta||^2$ 强关联。梯度流选择的 $f_\infty$ 对应于满足插值条件 $f_\infty(\mathbf{X}) = \mathbf{y}$ 且最小化 RKHS 范数 $|f_\infty - f_0|_{\mathcal{H}_\Theta}^2$ 的函数。

如果令 $f_0=0$ (假设初始化网络输出为零均值),则收敛到的解 $f_\infty$ 是满足 $f_\infty(\mathbf{X}) = \mathbf{y}$ 的最小 RKHS 范数解: $$ f_\infty = \mathbf{\Theta}^+ \mathbf{y} $$ 其中 $\mathbf{\Theta}^+$ 是摩尔-彭罗斯广义逆。这与核岭回归(KRR)的零正则化极限解完全等价: $$ \lim_{\lambda \to 0} f_{\text{KRR}}(\mathbf{X}) = \lim_{\lambda \to 0} (\mathbf{\Theta} + \lambda I)^{-1} \mathbf{y} = \mathbf{\Theta}^+ \mathbf{y} $$ 因此,NTK 梯度流训练深度网络等价于在由 $\mathbf{\Theta}$ 定义的 RKHS 上寻找最小范数插值解。

本章小结

| 概念 | 过程 | 结果 |

概念 过程 结果
线性 ODE $\frac{df_t}{dt} = - \mathbf{\Theta} (f_t - \mathbf{y})$ 梯度流在函数空间的精确解
稳态条件 $\mathbf{\Theta} (f_\infty - \mathbf{y}) = 0$ 训练收敛到训练误差为零的点
隐式偏置 最小 $L_2$ 参数变化 $f_\infty$ 是最小 $
等价性 $\lim_{t \to \infty} f_t$ vs. $\lim_{\lambda \to 0} f_{\text{KRR}}$ $f_\infty = \mathbf{\Theta}^+ \mathbf{y}$

10.4 典型激活函数下 NTK 闭式公式推导

学习目标

推导两层全连接网络(MLP)在无偏置 ReLU 激活函数下的 NNGP 核和 NTK 的闭式表达式,并掌握其关键的概率几何推导。

文字论述

我们考虑两层 MLP $f(x) = \sum_{i=1}^N v_i \sigma(w_i^\top x / \sqrt{d})$. 使用 NTK 极限和无偏置 ($\sigma_b^2=0$)。 输入 $x, x'$ 标准化为 $||x||=||x'||=1$。设 $\rho = x^\top x'$. 我们所需的期望值是关于 $q_1 = w^\top x$ 和 $q_2 = w^\top x'$ 的联合高斯分布 $\mathcal{N}(0, \mathbf{\Sigma})$, $\mathbf{\Sigma} = \begin{pmatrix} 1 & \rho \\ \rho & 1 \end{pmatrix}$.

1. NNGP 核 $K^{\text{ReLU}}(x, x')$

NNGP 核 $K(x, x')$ 定义为 $C(\rho) = \mathbb{E}[\sigma(q_1) \sigma(q_2)]$.

对于 ReLU $\sigma(z) = \max(0, z)$,积分 $C(\rho)$ 仅在第一象限 $(q_1>0, q_2>0)$ 非零。 $$ C(\rho) = \int_{\mathbb{R}^2} \sigma(q_1) \sigma(q_2) \frac{1}{2\pi \sqrt{1-\rho^2}} \exp\left( -\frac{q_1^2 + q_2^2 - 2\rho q_1 q_2}{2(1-\rho^2)} \right) dq_1 dq_2 $$ 利用高斯分布的几何性质,可以证明以下恒等式: $$ C(\rho) = \frac{1}{2\pi} \left( \sqrt{1-\rho^2} + \rho (\pi - \arccos(\rho)) \right) $$ 由于 $\arccos(\rho) + \arcsin(\rho) = \pi/2$, 且 $\pi - \arccos(\rho) = \arcsin(\rho) + \pi/2$.

更简洁的标准形式(利用 $\arccos(\rho) = \pi/2 - \arcsin(\rho)$): $$ C(\rho) = \frac{1}{2\pi} \left( \sqrt{1-\rho^2} + \rho \arcsin(\rho) \right) + \frac{1}{4} \rho $$ (注意:文献中常使用 $C(\rho) = \frac{1}{2\pi} (\rho (\pi - \arccos(\rho)) + \sqrt{1-\rho^2})$ 或其等价形式。我们使用 $\rho \arcsin(\rho)$ 形式。)

因此 NNGP 核 $K(x, x') = C(\rho)$.

2. NTK 梯度贡献 $\Theta_w(x, x')$

NTK 由两部分组成:$K(x, x')$ 和权重梯度贡献 $\Theta_w(x, x')$。 $$ \Theta_w(x, x') = (x^\top x') \cdot \mathbb{E}[\sigma'(q_1) \sigma'(q_2)] = \rho \cdot J(\rho) $$ 其中 $J(\rho) = \mathbb{E}[\sigma'(q_1) \sigma'(q_2)]$. 对于 ReLU $\sigma'(z) = \mathbf{1}_{z>0}$. $$ J(\rho) = \mathbb{E}[\mathbf{1}_{q_1>0} \mathbf{1}_{q_2>0}] = P(q_1 > 0, q_2 > 0) $$ 这代表了联合高斯分布位于第一象限的概率。

几何解释: 由于 $q_1, q_2$ 是联合高斯,它们的联合分布是中心对称的。 $P(q_1>0)$ 是 $1/2$. 当 $\rho=0$ (独立) 时,$P(q_1>0, q_2>0) = 1/4$. 当 $\rho=1$ (完全相关) 时,$q_1=q_2$,则 $P(q_1>0, q_2>0) = P(q_1>0) = 1/2$.

通过标准的二元高斯分布的累积分布函数 $\Phi_2(\cdot, \cdot; \rho)$ 的导数关系,可以证明: $$ J(\rho) = \frac{1}{4} + \frac{1}{2\pi} \arcsin(\rho) $$

因此 $\Theta_w(x, x') = \rho \left( \frac{1}{4} + \frac{1}{2\pi} \arcsin(\rho) \right)$.

3. 最终 ReLU NTK 形式

$$ \Theta^{\text{ReLU}}(x, x') = K^{\text{ReLU}}(x, x') + \Theta_w(x, x') $$ $$ \Theta^{\text{ReLU}}(x, x') = \left[ \frac{1}{2\pi} (\rho \arcsin(\rho) + \sqrt{1-\rho^2}) + \frac{1}{4} \rho \right] + \left[ \frac{1}{4} \rho + \frac{1}{2\pi} \rho \arcsin(\rho) \right] $$ 整合相似项: $$ \Theta^{\text{ReLU}}(x, x') = \frac{1}{2} \rho + \frac{1}{2\pi} \left[ (1+\rho) \rho \arcsin(\rho) + \sqrt{1-\rho^2} \right] $$

这个闭式公式是分析 ReLU 网络的谱性质、稀疏性和表示能力的基础。

本章小结

| 属性 | NNGP 核 $K(\rho)$ | NTK $\Theta(\rho)$ | 关键差异 |

属性 NNGP 核 $K(\rho)$ NTK $\Theta(\rho)$ 关键差异
定义 $\mathbb{E}[\sigma(q_1) \sigma(q_2)]$ $K(\rho) + \rho \cdot \mathbb{E}[\sigma'(q_1) \sigma'(q_2)]$ 梯度项 $\Theta_w$
几何项 $J(\rho)$ N/A $P(q_1>0, q_2>0) = \frac{1}{4} + \frac{1}{2\pi} \arcsin(\rho)$ 决定了 NTK 对输入的敏感度

10.5 双下降相关的简化模型解析计算

学习目标

利用最小二乘回归的解析解,通过特征分解(SVD)对测试风险进行偏差-方差分解,严格解释过参数化下测试风险的峰值和二次下降机制。

文字论述

我们采用一个简化模型:在 $P$ 维特征空间上的线性回归,其特征矩阵 $\mathbf{F} \in \mathbb{R}^{D \times P}$ 包含 $D$ 个样本。

1. 最小范数插值解

在 NTK 极限下,梯度流收敛到最小 $L_2$ 范数的插值解,这等价于 Tikhonov 正则化 $\lambda \to 0$ 的极限。我们假设真实的参数 $\mathbf{\beta}^*$ 是固定的,并且 $||\mathbf{\beta}^*||$ 有限。

估计值 $\hat{\mathbf{\beta}}$ 使用广义逆 (Pseudo-Inverse): $$ \hat{\mathbf{\beta}} = \mathbf{F}^+ \mathbf{y} $$ 预测函数在测试点 $x^*$ 上的输出 $\hat{f}(x^*) = \mathbf{f}_{x^*}^\top \hat{\mathbf{\beta}}$. (其中 $\mathbf{f}_{x^*}$ 是测试点的特征向量。)

2. 测试风险的分解 (特征空间)

测试风险 $R$ 定义为 $\mathbb{E}_{\mathbf{y}, \mathbf{\epsilon}} [||\hat{\mathbf{y}}_{\text{test}} - \mathbf{y}_{\text{test}}||^2]$. 对于单个测试点 $x^*$, $R(x^*) = \text{Bias}^2(x^*) + \text{Var}(x^*)$.

偏差项 (Bias): 仅取决于真实信号 $\mathbf{F} \mathbf{\beta}^*$. $$ \text{Bias}(\hat{\mathbf{\beta}}) = \mathbb{E}[\hat{\mathbf{\beta}}] - \mathbf{\beta}^* $$ 由于 $\mathbf{y} = \mathbf{F} \mathbf{\beta}^* + \mathbf{\epsilon}$ 且 $\mathbb{E}[\mathbf{\epsilon}]=0$: $$ \mathbb{E}[\hat{\mathbf{\beta}}] = \mathbf{F}^+ \mathbb{E}[\mathbf{y}] = \mathbf{F}^+ \mathbf{F} \mathbf{\beta}^* $$ $\text{Bias}$ 始终存在,除非 $\mathbf{F}^+ \mathbf{F} = I_P$.

方差项 (Variance): 仅取决于噪声 $\mathbf{\epsilon}$. $$ \text{Var}(\hat{\mathbf{\beta}}) = \mathbb{E}[(\hat{\mathbf{\beta}} - \mathbb{E}[\hat{\mathbf{\beta}}]) (\hat{\mathbf{\beta}} - \mathbb{E}[\hat{\mathbf{\beta}}])^\top] = \mathbf{F}^+ \text{Cov}(\mathbf{y}) (\mathbf{F}^+)^\top $$ 假设 $\text{Cov}(\mathbf{y}) = \sigma^2 I_D$. $$ \text{Var}(\hat{\mathbf{\beta}}) = \sigma^2 \mathbf{F}^+ (\mathbf{F}^+)^\top $$

3. 利用 SVD 分析双下降

对 $\mathbf{F}$ 进行奇异值分解 (SVD): $\mathbf{F} = \mathbf{U} \mathbf{S} \mathbf{V}^\top$, 其中 $\mathbf{S} = \text{diag}(s_1, \dots, s_{\min(D, P)})$.

广义逆: $\mathbf{F}^+ = \mathbf{V} \mathbf{S}^{-1} \mathbf{U}^\top$.

预测风险 $R$: 集中分析方差项 $\text{Trace}(\text{Cov}(\hat{\mathbf{y}}))$. 预测方差 $\text{Var}(\hat{\mathbf{y}}) = \sigma^2 \mathbf{F} \mathbf{F}^+ (\mathbf{F}^+)^\top \mathbf{F}^\top$. 在插值点上,该项简化为: $$ \text{Trace}(\text{Cov}(\hat{\mathbf{y}})) = \sigma^2 \cdot \text{Trace}(\mathbf{F} \mathbf{F}^+) $$ 由于 $\mathbf{F} \mathbf{F}^+$ 是 $\text{Range}(\mathbf{F})$ 上的投影矩阵,其秩为 $\text{rank}(\mathbf{F})$.

核心洞察:

  • 欠参数化区 ($P < D$): $\text{rank}(\mathbf{F}) = P$. $\mathbf{F} \mathbf{F}^+ = \mathbf{U}_P \mathbf{U}_P^\top$ (投影到 $P$ 维空间)。 $\text{Trace}(\mathbf{F} \mathbf{F}^+) = P$. 方差 $\propto \sigma^2 P$. 随着 $P$ 增加,方差线性增加,但偏差迅速下降,总风险下降。

  • 临界点 ($P \approx D$): $\text{rank}(\mathbf{F}) = D$. 矩阵 $\mathbf{F}$ 接近奇异。 如果 $P=D$ 且 $\mathbf{F}$ 可逆,则 $\mathbf{F}^+ = \mathbf{F}^{-1}$ 且 $\text{Trace}(\mathbf{F} \mathbf{F}^+) = D$. 然而,关键在于 $\mathbf{F}^{-1}$ 的范数。当 $\mathbf{F}$ 接近奇异时,最小奇异值 $s_{\min} \to 0$. $\mathbf{F}^{-1}$ 的范数爆炸,导致 $\hat{\mathbf{\beta}}$ 对噪声的放大作用最大。

    在正则化解 $\hat{\mathbf{\beta}}_\lambda = (\mathbf{F}^\top \mathbf{F} + \lambda I)^{-1} \mathbf{F}^\top \mathbf{y}$ 中,当 $\lambda \to 0$,方差项 $\sum \frac{s_i^2}{(s_i^2 + \lambda)^2}$ 对于 $s_i \approx 0$ 的奇异值会爆炸(即 $\frac{1}{s_i^2}$)。

  • 过参数化区 ($P > D$): $\text{rank}(\mathbf{F}) = D$. $\mathbf{F}$ 矩阵的行空间维度为 $D$. $\mathbf{F} \mathbf{F}^+ = I_D$. $\text{Trace}(\mathbf{F} \mathbf{F}^+) = D$. 插值方差(训练误差): 训练点上的方差 $\text{Var}(\hat{\mathbf{y}}) \propto \sigma^2 D$.

    测试点方差: 在测试点 $x^*$, $\text{Var}(\hat{f}(x^*)) = \sigma^2 \mathbf{f}_{x^*}^\top \mathbf{F}^+ (\mathbf{F}^+)^\top \mathbf{f}_{x^*}$. 随着 $P$ 增加 $\mathbf{F}^+ (\mathbf{F}^+)^\top = (\mathbf{F}^\top \mathbf{F})^+$. $\text{Var}(\hat{f}(x^*)) = \sigma^2 \mathbf{f}_{x^*}^\top (\mathbf{F}^\top \mathbf{F})^+ \mathbf{f}_{x^*}$.

    当 $P$ 增加时,最小范数解 $\hat{\mathbf{\beta}} = \mathbf{F}^+ \mathbf{y}$ 会在特征空间中选择那些与训练数据 $\mathbf{F}$ 不相关的、范数最小的方向(即 $P>D$ 带来的 $P-D$ 个零奇异值方向)。最小范数约束确保模型不会利用这些额外的维度来放大训练噪声。因此,测试方差从峰值回落。

4. NTK 与双下降的联系

NTK 理论解释了为什么深度网络在过参数化状态下仍能很好地泛化:

  1. NTK 限制了函数空间: 训练动态被限制在由 $\Theta$ 定义的 RKHS 中。
  2. 隐式正则化: 梯度流($\lambda \to 0$ KRR)在奇异情况下选择最小 RKHS 范数的插值解,这等价于在线性模型中选择最小 $L_2$ 范数解 $\mathbf{F}^+ \mathbf{y}$。
  3. 过滤噪声: 这种最小范数偏置有效地过滤掉了特征空间中对噪声最敏感的高频方向(对应于临界点附近的小奇异值),导致测试风险在 $P>D$ 后再次下降。

本章小结

| 现象 | 数学根源 | 解析公式中的体现 |

现象 数学根源 解析公式中的体现
双下降峰值 临界点的病态插值 $\text{Var} \propto \sum 1/s_i^2$ 爆炸 ($s_i \to 0$)
完美拟合 $P \ge D$ 保证了零训练偏差 $\mathbf{F}^+ \mathbf{F} \mathbf{\beta}^* = \mathbf{\beta}^*$
二次下降 最小范数隐式正则化 $\mathbf{F}^+$ 忽略了零奇异值方向,稳定了方差

练习题

基础题

  1. NNGP 递归的初始条件: 证明对于一个单隐层网络 (L=1),若输入 $x$ 经过标准化(如 $||x||=1$),则 $K^0(x, x')$ 必须等于 $x^\top x'$.

    • 提示: 回顾 $K^0$ 定义为第 0 层的协方差,第 0 层的激活 $h^0(x)$ 就是输入 $x$.
  2. NTK 矩阵的正定性: 为什么 NTK 矩阵 $\mathbf{\Theta}(x_i, x_j)$ 必须是半正定的这在梯度流解的收敛性分析中有什么意义?

    • 提示: 矩阵的定义 $\mathbf{\Theta} = J J^\top$ 与二次型的性质。
  3. 线性激活函数的 NTK: 证明对于无偏置的线性激活函数 $\sigma(z) = z$,两层网络的 NTK 简化为 $\Theta(x, x') = 2 x^\top x'$ (假设 $\sigma_w^2=1, \sigma_v^2=1$)。

    • 提示: 线性函数下 $\sigma(z)=z$ 且 $\sigma'(z)=1$.
  4. 矩阵指数与收敛速度: 梯度流的收敛速度由 $e^{-\mathbf{\Theta} t}$ 决定。如果 $\mathbf{\Theta}$ 的最小特征值 $\lambda_{\min}$ 很大,这对训练速度有什么影响?

    • 提示: 收敛由 $e^{-\lambda_{\min} t}$ 控制。

挑战题

  1. NTK 稳定性的精确条件: 在 10.2 节中,我们使用了 $O(1/\sqrt{N})$ 的阶数分析来证明 NTK 的稳定性。请形式化解释:如果学习率 $\eta$ 随着 $N$ 增大而缩放(例如 $\eta \sim N^p$),$p$ 必须满足什么条件才能维持 NTK 线性化机制(即 NTK 保持冻结)?

    • 提示: 需要 $|| \Delta \theta || \cdot ||\nabla \Theta || \ll ||\Theta||$. 关联 $\Delta \theta \sim \eta \cdot 1/\sqrt{N}$ 和 $\Theta \sim O(1)$.
  2. ReLU NNGP 核的退化: 证明当 $\rho \to 1$ 时(即 $x \to x'$),ReLU NNGP 核 $K^{\text{ReLU}}(\rho)$ 收敛于 $K^{\text{ReLU}}(1) = 1/2$. 这在几何上代表什么?

    • 提示: $\arcsin(1) = \pi/2$, $\sqrt{1-\rho^2} \to 0$.
  3. $L_2$ 正则化与 KRR: 如果我们在 NTK 梯度流中引入显式 $L_2$ 正则化项 $\frac{\lambda}{2} ||\theta||^2$,推导新的函数空间梯度流 ODE,并证明其稳态解等价于核岭回归 $f_{\lambda} = \mathbf{\Theta} (\mathbf{\Theta} + \lambda I)^{-1} \mathbf{y}$.

    • 提示: $L(\theta) = L_{\text{data}} + L_{\text{reg}}$. 正则化项 $\nabla_\theta L_{\text{reg}} = \lambda \theta$.
  4. 过参数化与有效秩: 在双下降的线性模型中,假设 $\mathbf{F}$ 的奇异值 $s_1 \ge s_2 \ge \dots \ge s_D$ 且 $s_D > 0$. 解释当 $P$ 从 $D-1$ 增加到 $D+1$ 时,最小 $L_2$ 范数解的“有效秩”如何变化,以及它对泛化误差的影响。

    • 提示: $P=D-1$ 时,有效秩为 $P$. $P=D+1$ 时,有效秩为 $D$. 关注插值空间的变化。

常见陷阱与错误 (Gotchas)

  1. 高斯输入假设的忽视: NNGP 和 NTK 的闭式推导(如 ReLU)严重依赖于联合高斯输入的假设。对于深层网络,该假设是通过 CLT 归纳得出的。如果在实际应用中,前一层的激活(如使用 ReLU 后的输出)不近似高斯分布(例如,由于 BatchNorm 或 LayerNorm 的干预),NTK/NNGP 的解析形式可能会失效。

  2. 混淆参数化方案: 存在三种主要的参数化:

    • 标准参数化 (Standard Parameterization): 权重 $W \sim 1/\sqrt{N_{\text{in}}}$. 导致 $||\theta|| \sim O(\sqrt{N})$, 但 NTK $\Theta \sim O(N)$. 梯度流收敛慢,需要小学习率 $\eta \sim 1/N$. 特征学习强。
    • NTK 参数化: 权重 $W \sim 1/\sqrt{N_{\text{out}}}$ 或 $1/\sqrt{N_{\text{in}}}$, 且输出层缩放 $1/\sqrt{N}$. 导致 $||\theta|| \sim O(\sqrt{N})$, 且 NTK $\Theta \sim O(1)$. 梯度流收敛快, $\eta \sim O(1)$. 线性化。
    • $\mu$-参数化 (Maximal Update Parameterization): 旨在最大化特征学习。
    • 错误: 在分析 NTK 理论时,必须坚持使用 NTK 参数化,否则训练动态将不再等同于核回归。
  3. 对奇异性(Pseudo-Inverse)的理解偏差: 当 $\mathbf{\Theta}$ 奇异时, $\mathbf{\Theta}^+ \mathbf{y}$ 是唯一的最小范数解。初学者可能认为奇异性是训练的灾难,但实际上,在过参数化中奇异性是必然且有益的,它通过最小范数选择提供隐式正则化,是双下降现象的基础。

  4. 双下降中的特征学习角色: 虽然 NTK 理论能解释双下降(通过隐式正则化的核回归),但它忽略了特征学习。实际上,在临界点附近,特征学习可能仍然发挥重要作用,助网络走出病态区域。NTK 的解释是一个优秀的下界理论,但并非所有深度学习现象的完整描述。

  5. 有限时间效应: NTK 理论严格适用于 $t \to \infty$ 的稳态解和 $N \to \infty$ 的极限。在实际训练中,有限的学习率和有限的训练时间(早停)会导致训练轨迹偏离最小范数解,从而影响泛化性能。


练习题答案

点击查看答案
  1. NNGP 递归的初始条件:

    • 第 0 层的“激活” $h^0(x) = x$. $K^0(x, x')$ 定义为 $\lim_{N \to \infty} \mathbb{E}[h^0(x)^\top h^0(x') / N_0]$.
    • 在 NTK 理论中,我们通常将 $N_0=d$ 视为输入维度,且不取极限。
    • $K^0(x, x') = x^\top x' / d$ (如果输入是随机特征)。但在许多文献中,为了简化推导,我们直接将协方差定义为内积:$K^0(x, x') = x^\top x'$. 如果输入已经归一化,则 $K^0(x, x') = \rho$.
  2. NTK 矩阵的正定性:

    • NTK 矩阵 $\mathbf{\Theta}$ 定义为 $\mathbf{\Theta} = J J^\top$, 其中 $J$ 是 Jacobian 矩阵。
    • 对于任何向量 $\mathbf{v} \in \mathbb{R}^M$ ($\mathbf{v} \neq 0$), 二次型 $\mathbf{v}^\top \mathbf{\Theta} \mathbf{v} = \mathbf{v}^\top J J^\top \mathbf{v} = (J^\top \mathbf{v})^\top (J^\top \mathbf{v}) = ||J^\top \mathbf{v}||^2$.
    • 由于范数平方总是非负的,$\mathbf{v}^\top \mathbf{\Theta} \mathbf{v} \ge 0$. 因此 $\mathbf{\Theta}$ 是半正定的。
    • 意义: 在梯度流解中,半正定性保证了 $\mathbf{\Theta}$ 的所有特征值 $\lambda_i \ge 0$. 这确保了 $e^{-\mathbf{\Theta} t}$ 矩阵指数中的 $e^{-\lambda_i t}$ 项随时间衰减或保持不变(如果 $\lambda_i=0$),保证了梯度流的收敛性(不发散)。
  3. 线性激活函数的 NTK:

    • $f(x) = \sum_{i=1}^N v_i (w_i^\top x / \sqrt{N})$. 设 $v_i \sim \mathcal{N}(0, 1)$, $w_i \sim \mathcal{N}(0, I_d)$.
    • $K(x, x') = \mathbb{E}[\sigma(q_1) \sigma(q_2)] = \mathbb{E}[q_1 q_2] = x^\top x'$.
    • $\Theta_w(x, x') = \sum \nabla_{w_i} f(x)^\top \nabla_{w_i} f(x') = \frac{1}{N} \sum v_i^2 \sigma'(q_1) x^\top x' \sigma'(q_2)$.
    • 由于 $\sigma'(z) = 1$, $\Theta_w(x, x') = \frac{1}{N} \sum v_i^2 x^\top x'$. 当 $N \to \infty$, $\frac{1}{N} \sum v_i^2 \to \mathbb{E}[v_i^2] = 1$.
    • $\Theta_w(x, x') = x^\top x'$.
    • $\Theta(x, x') = K(x, x') + \Theta_w(x, x') = 2 x^\top x'$.
  4. 矩阵指数与收敛速度:

    • 收敛速度由 $e^{-\mathbf{\Theta} t}$ 中衰减最慢的项决定,即 $e^{-\lambda_{\min} t}$.
    • 如果 $\lambda_{\min}$ 很大(例如,NTK 矩阵的条件数很小),则 $e^{-\lambda_{\min} t}$ 衰减得非常快。
    • 影响: 训练收敛速度将非常快。这表明 NTK 矩阵具有良好的结构,能够将训练误差迅速降至零。
  5. NTK 稳定性的精确条件:

    • 我们要求 NTK 的相对变化 $\Delta \Theta / \Theta$ 在训练总时长 $T$ 内保持微小。
    • $\Delta \Theta \approx \frac{d\Theta}{dt} \cdot T$. 我们需要 $\frac{d\Theta}{dt} \approx O(1/\sqrt{N}) \cdot \frac{1}{N}$ (涉及到二阶导和参数范数)。更精确地,$\frac{d\Theta}{dt} \sim O(\frac{1}{\sqrt{N}})^3 \cdot P^2 \approx O(\frac{1}{\sqrt{N}})$.
    • 参数变化 $\frac{d\theta}{dt} \sim \eta \cdot O(1/\sqrt{N})$.
    • 为了维持 $\Theta_t \approx \Theta^0$, 需要总参数更新 $||\Delta \theta||_{\text{total}} \ll ||\theta_0|| \sim O(\sqrt{N})$.
    • $||\Delta \theta||_{\text{total}} \approx T \cdot ||\frac{d\theta}{dt}|| \approx T \cdot \eta / \sqrt{N}$.
    • 要求 $T \cdot \eta / \sqrt{N} \ll \sqrt{N}$, 即 $\eta T \ll N$.
    • 如果 $\eta \sim N^p$, 则 $N^p T \ll N$, 或 $p < 1$. 为了让 NTK 极限保持,学习率 $\eta$ 增长速度必须慢于 $O(N)$,通常 $p=0$ (固定 $\eta$)或 $p \le 1/2$.
  6. ReLU NNGP 核的退化:

    • $K^{\text{ReLU}}(\rho) = \frac{1}{2\pi} (\rho \arcsin(\rho) + \sqrt{1-\rho^2}) + \frac{1}{4} \rho$.
    • 当 $\rho \to 1$: $\arcsin(1) = \pi/2$, $\sqrt{1-\rho^2} \to 0$.
    • $K^{\text{ReLU}}(1) = \frac{1}{2\pi} (1 \cdot \pi/2 + 0) + \frac{1}{4} \cdot 1 = 1/4 + 1/4 = 1/2$.
    • 几何意义: $K(1) = \mathbb{E}[\sigma(q)^2]$. 对于 ReLU,$\mathbb{E}[\max(0, q)^2]$. 由于 $q \sim \mathcal{N}(0, 1)$, $\mathbb{E}[q^2] = 1$. $\mathbb{E}[\max(0, q)^2] = 1/2 \cdot \mathbb{E}[q^2] = 1/2$. 这表明当输入完全相同时,NNGP 核收敛于网络输出方差的一半。
  7. $L_2$ 正则化与 KRR:

    • $L(\theta) = \frac{1}{2} ||f_\theta(\mathbf{X}) - \mathbf{y}||^2 + \frac{\lambda}{2} ||\theta - \theta_0||^2$.
    • 梯度流方程:$\frac{d\theta}{dt} = - \nabla_\theta L(\theta) = - J_t^\top (f_t - \mathbf{y}) - \lambda (\theta_t - \theta_0)$.
    • 在 NTK 极限和线性化近似下 $\theta_t \approx \theta_0 + \mathbf{\Theta}^{-1/2} (f_t - f_0)$ (简化记法)。
    • 函数空间导数:$\frac{df_t}{dt} = J_t \frac{d\theta}{dt} \approx J J^\top (\mathbf{y} - f_t) - \lambda J (\theta_t - \theta_0)$.
    • 键是 $\mathbf{\Theta} (\theta_t - \theta_0) \approx f_t - f_0$.
    • 如果 $\lambda$ 足够小且 $\mathbf{\Theta}$ 严格正定,稳态解 $\frac{df_\infty}{dt} = 0$: $\mathbf{\Theta}(\mathbf{y} - f_\infty) - \lambda (f_\infty - f_0) = 0$.
    • $f_\infty (\mathbf{\Theta} + \lambda I) = \mathbf{\Theta} \mathbf{y} + \lambda f_0$.
    • 如果 $f_0=0$: $f_\infty = (\mathbf{\Theta} + \lambda I)^{-1} \mathbf{\Theta} \mathbf{y}$. (这正是 KRR 解的转置形式,通常 KRR 写为 $\mathbf{\Theta} (\mathbf{\Theta} + \lambda I)^{-1} \mathbf{y}$.)
  8. 过参数化与有效秩:

    • $P < D$ (欠参数化): 最小二乘解 $\hat{\mathbf{\beta}}_{\text{LS}} = (\mathbf{F}^\top \mathbf{F})^{-1} \mathbf{F}^\top \mathbf{y}$. 有效秩为 $\text{rank}(\mathbf{F}) = P$. 解被限制在 $P$ 维空间。
    • $P = D$ (临界): 秩为 $D$. 解 $\hat{\mathbf{\beta}} = \mathbf{F}^{-1} \mathbf{y}$. 此时插值恰好饱和,解的范数可能非常大。
    • $P > D$ (过参数化): 小 $L_2$ 范数解 $\hat{\mathbf{\beta}} = \mathbf{F}^+ \mathbf{y}$. $\text{rank}(\mathbf{F})$ 仍为 $D$.
      • 有效秩: 在数据空间,有效秩为 $D$ (即插值空间维度)。
      • 影响: 当 $P$ 从 $D$ 增加到 $D+1$ 时,最小 $L_2$ 范数解 $\mathbf{F}^+ \mathbf{y}$ 会自动选择 $P-D$ 个零特征值方向上的权重为零(即不利用额外的参数空间自由度)。这个“软约束”避免了使用额外的参数来放大训练噪声。因此,尽管模型复杂度 $P$ 增加了,但用于拟合信号和噪声的“有效”复杂度维持在 $D$,导致泛化误差下降。