第 2 章 无限宽神经网络与高斯过程(chapter2.md)
2.1 单隐藏层网络的概率视角
开篇段落
本章旨在构建神经切线核(NTK)理论的概率基础。我们将证明,当神经网络的宽度(隐藏单元数 $N$)趋于无穷时,网络在随机初始化下的函数输出将收敛于一个高斯过程(Gaussian Process, GP)。这种极限状态由一个被称为 NNGP 核(Neural Network Gaussian Process Kernel)的协方差函数唯一确定。理解 NNGP 是理解 NTK 的第一步,它将深度学习的先验函数空间与经典的核方法联系起来。
文字论述
网络的定义与 NTK 参数化
我们首先考虑一个具有 $L$ 层的深度全连接网络(MLP)。为了方便分析无限宽极限,我们采用一种特定的参数初始化和缩放方式,通常被称为 NTK 参数化或 标准参数化。
对于第 $l$ 层的输出 $f^{(l)}(x)$,它由前一层输出 $f^{(l-1)}(x)$ 经过线性变换和激活函数得到:
$$h_i^{(l)}(x) = W_{i}^{(l)} f^{(l-1)}(x) + b_i^{(l)}$$ $$f_i^{(l)}(x) = \sigma(h_i^{(l)}(x))$$ 网络的最终输出 $f(x)$ 通常是对最后一层激活的线性组合。
在 NTK 参数化中,权重和偏置通常独立地从均值为 0 的高斯分布中抽取,并且方差通过网络宽度 $N_{l-1}$ 进行缩放: $$\text{Var}(W^{(l)}) = \frac{\sigma_w^2}{N_{l-1}}, \quad \text{Var}(b^{(l)}) = \sigma_b^2$$ 这种 $\frac{1}{N}$ 的缩放(或者在梯度计算中体现为 $\frac{1}{\sqrt{N}}$)确保了当 $N \to \infty$ 时,网络的输出方差保持稳定。
随机初始化与 IID 贡献
考虑一个单隐藏层网络 ($L=2$): $$f(x) = \frac{1}{\sqrt{N}} \sum_{i=1}^N v_i \sigma(w_i^T x)$$ 我们假设输入层权重 $w_i$ 和输出层权重 $v_i$ 都是独立同分布(IID)的,且均值为零。
网络输出 $f(x)$ 是 $N$ 个独立的随机变量 $Z_i(x) = \frac{1}{\sqrt{N}} v_i \sigma(w_i^T x)$ 的求和: $$f(x) = \sum_{i=1}^N Z_i(x)$$ 由于 $Z_i(x)$ 是 IID 且均值 $\mathbb{E}[Z_i(x)]$ 为 0,我们可以利用中心极限定理来分析 $f(x)$ 的极限分布。
关键:方差的稳定化分析
为了使极限非退化,我们必须确保 $\text{Var}[f(x)]$ 在 $N \to \infty$ 时趋于一个有限的、非零的常数。 $$\text{Var}[f(x)] = \text{Var}\left[\sum_{i=1}^N Z_i(x)\right] = \sum_{i=1}^N \text{Var}[Z_i(x)]$$ $$\text{Var}[Z_i(x)] = \frac{1}{N} \text{Var}\left[v_i \sigma(w_i^T x)\right]$$ 因此, $$\text{Var}[f(x)] = N \cdot \frac{1}{N} \text{Var}\left[v_i \sigma(w_i^T x)\right] = \text{Var}\left[v_i \sigma(w_i^T x)\right]$$ 这个结果是独立于 $N$ 的。因此,$\frac{1}{\sqrt{N}}$ 的缩放是保持方差稳定,从而使 CLT 适用的关键。
2.2 中心极限定理与函数空间极限
有限维收敛与高斯过程定义
对于任意固定的输入 $x$,当 $N \to \infty$ 时,根据中心极限定理 (CLT),输出 $f(x)$ 严格收敛于一个高斯随机变量 $\mathcal{N}(0, \Sigma_{GP}(x, x))$
更重要的是,考虑一组 $M$ 个输入点 $X = \{x_1, \dots, x_M\}$。输出向量 $F = [f(x_1), \dots, f(x_M)]^T$ 的联合分布收敛于一个 $M$ 维的多元高斯分布: $$F \xrightarrow{N \to \infty} \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})$$ 其中 $\boldsymbol{\mu}$ 是均值向量,$\boldsymbol{\Sigma}$ 是 $M \times M$ 的协方差矩阵。
函数空间极限: 这种在任意有限点集上都收敛于多元高斯分布的随机函数 $f(x)$,在极限 $N \to \infty$ 下被称为 高斯过程 (GP)。 $$f(x) \sim \mathcal{GP}(\mu(x), \Sigma_{GP}(x, x'))$$ 由于我们假设权重和偏置均值为零,且激活函数是对称的(或在 $N \to \infty$ 极限下均值稳定),均值函数 $\mu(x)$ 通常为 0。
协方差函数与 NNGP 核的引出
高斯过程完全由其均值函数和协方差函数 $\Sigma_{GP}(x, x')$ 决定。
NNGP 核 $\Sigma_{GP}(x, x')$ 是两个输入 $x$ 和 $x'$ 处的输出之间的协方差。由于我们关注的 $N \to \infty$ 时的极限,它与 $N$ 无关,仅取决于网络的结构、初始化方差和激活函数。 $$\Sigma_{GP}(x, x') = \lim_{N \to \infty} \text{Cov}_{\theta \sim P_0} [f_\theta(x), f_\theta(x')]$$
2.3 NNGP 核(Neural Network Gaussian Process Kernel)
NNGP 核的形式定义与推导(单层)
对于单层网络 $f(x) = \sum_{i=1}^N Z_i(x)$,且 $Z_i(x)$ 独立: $$\text{Cov}[f(x), f(x')] = \sum_{i=1}^N \text{Cov}[Z_i(x), Z_i(x')]$$ 根据 2.1 节的缩放分析,我们在 $N \to \infty$ 时的极限核为: $$\Sigma_{GP}(x, x') = \lim_{N \to \infty} \sum_{i=1}^N \frac{1}{N} \text{Cov}\left[v_i \sigma(w_i^T x), v_i \sigma(w_i^T x')\right]$$ 由于所有隐藏单元是 IID 的,这个和收敛于单个隐藏单元贡献的期望值: $$\Sigma_{GP}(x, x') = \mathbb{E}_{w, v} \left[ v^2 \sigma(w^T x) \sigma(w^T x') \right]$$ 如果 $v$ 与 $w$ 独立,且 $\mathbb{E}[v^2] = \sigma_v^2$,且我们使用标准的高斯初始化 $w \sim \mathcal{N}(0, \sigma_w^2 I)$: $$\Sigma_{GP}(x, x') = \sigma_v^2 \cdot \mathbb{E}_{w} \left[ \sigma(w^T x) \sigma(w^T x') \right]$$ 关键直观: NNGP 核是衡量两个输入 $x$ 和 $x'$ 在随机权重下,通过激活函数后,其特征相似性的期望。
典型激活函数下的闭式表达
由于 $w^T x$ 和 $w^T x'$ 是两个联合高斯变量,它们的分布完全由 $x$ 和 $x'$ 的内积(即协方差)决定。计算 NNGP 核通常归结为计算两个相关高斯变量经过非线性 $\sigma$ 后的期望积分。
1. ReLU 激活函数 $\sigma(z) = \max(0, z)$
ReLU 核的计算涉及到复杂的几何积分。最终形式与输入向量之间的角度紧密相关。 设 $C(x, x') = x^T x'$ 为输入内积,我们可以将核分解为: $$\Sigma_{GP}^{(l)}(x, x') = \sigma_w^2 \cdot \mathbb{E}_{z_1, z_2} [\sigma(z_1) \sigma(z_2)]$$ 其中 $(z_1, z_2)$ 是协方差为 $C^{(l-1)}$ 的高斯向量。对于 ReLU,其递归形式通常表示为 $J_1(C) + \frac{C}{2} J_2(C)$ 的形式,中 $J_1, J_2$ 是关于输入协方差矩阵的函数。
几何解释: ReLU 核是非平移不变的(Translation-Invariant),因为它依赖于输入向量的长度 $|x|$ 和它们之间的角度,而非仅仅依赖于它们之间的距离 $|x-x'|$。这使得无限宽的 ReLU 网络具有一定的局部适应性。
2. Tanh 或 Erf 激活函数
对于某些光滑激活函数,如误差函数 $\text{erf}(z)$,可以得到更优雅的闭式形式(如 2.3 节所述)。
深度 NNGP 核的递归结构
对于 $L$ 层深的网络,NNGP 核的计算是一个迭代过程。 设 $Q^{(l)}(x, x') = \mathbb{E}[f^{(l)}(x) f^{(l)}(x')]$ 是第 $l$ 层的特征协方差。 $$Q^{(l)}(x, x') = \sigma_b^2 + \sigma_w^2 \cdot \mathbb{E}_{u, v \sim \mathcal{N}(0, Q^{(l-1)})} [\sigma(u) \sigma(v)]$$
- $Q^{(0)}(x, x') = x^T x'$ 是输入层的协方差。
- $Q^{(l)}$ 递归地定义了下一层特征的相似性。
- 这个递归的核心在于,由于中心极限定理,即使间层 $f^{(l-1)}(x)$ 经过非线性 $\sigma$ 后可能不再是高斯分布,当计算下一层 $l$ 的输出时,对 $N \to \infty$ 的求和步骤又会通过 CLT 将其拉回到高斯分布。这被称为 NNGP 理论的“高斯封闭性”假设。
2.4 NNGP 与贝叶斯推断
NNGP 作为贝叶斯先验
无限宽网络提供了一个强大的贝叶斯视角: $$\text{初始化网络} \quad f(x) \quad \xrightarrow{N \to \infty} \quad \mathcal{GP}(0, \Sigma_{GP})$$ 这意味着 NNGP 核 $\Sigma_{GP}$ 充当了训练前的先验协方差函数。它规定了哪些函数是网络可能表达的,以及它们之间的相似程度。由 $\Sigma_{GP}$ 定义的再生核 Hilbert 空间(RKHS)$\mathcal{H}_{GP}$ 便是无限宽网络的函数空间。
高斯过程回归(GPR)与解析解
在贝叶斯框架下,给定训练数据 $D = \{(x_i, y_i)\}$ 和 $\Sigma_{GP}$,高斯过程回归(GPR)提供了网络的后验预测均值 $\mu_{post}(x)$ 的解析解。
假设观测噪声 $\epsilon \sim \mathcal{N}(0, \sigma_n^2 I)$,则预测均值 $\mu_{post}(x)$ 是一个标准核回归解: $$\mu_{post}(x) = K_{x D} (K_{D D} + \sigma_n^2 I)^{-1} Y$$ 其中 $Y$ 是标签向量,$K_{D D}$ 是训练数据上的 NNGP 核矩阵, $K_{x D}$ 是测试点 $x$ 与训练点之间的协方差向量。
NNGP 训练: 在 NNGP 理论中,网络的“训练”过程被完全绕过。我们不需要梯度下降,只需计算核矩阵并应用解析的 GPR 公式即可获得预测结果。
NNGP 框架的局限性
NNGP 框架虽然提供了对无限宽网络先验分布的完美描述,但在描述实际深度学习训练时存在本质缺陷:
1. 冻结特征(Frozen Features)
NNGP 理论隐含的假设是:网络在训练中仅更新最外层的权重,或者说,网络的特征提取部分 $f^{(l)}(x)$ 是固定的。
在 GPR 中,我们学习的是 $\Sigma_{GP}$ 定义的函数空间中的系数,而不是核本身。如果隐藏层权重 $W$ 在训中发生变化,核 $\Sigma_{GP}$ 也会随之变化,而 NNGP 理论无法捕捉这种变化。
2. 忽略优化路径
实际训练中,我们使用梯度下降(GD)或随机梯度下降(SGD)。这些优化算法并不会自动跳转到解析的 GPR 后验解(尤其是在使用大规模数据时)。NNGP 理论没有描述网络是如何通过迭代优化到达其解的。
3. 缺乏表示学习(Representation Learning)
深度学习的威力源于其能够通过训练调整特征表示。一个有限宽网络在训练后会学习到比初始化时更好的特征。NNGP 框架将网络固定在了初始化状态,否定了特征学习的存在。
2.5 从 NNGP 走向 NTK 的动机
为了解决 NNGP 框架的局限性,我们需要一个理论来桥接随机初始化(NNGP 极限)和梯度下降优化(实际训练动态)。
训练动态与函数空间轨迹
我们希望描述在梯度流下,网络函数 $f_\theta(x)$ 是如何随时间 $t$ 演变的:$f_{\theta(t)}(x)$。 网络的参数 $\theta$ 遵循梯度流方程(对于 $L_2$ 损失): $$\frac{d \theta}{d t} = - \nabla_\theta \mathcal{L}(\theta)$$ 在函数空间中,我们关心的是: $$\frac{d f_{\theta(t)}(x)}{d t} = ?$$
“切线”近似的提出
核心思想是:如果网络宽度 $N$ 足够大,那么即使我们进行优化,网络参数 $\theta$ 的变化相对于其初始化 $\theta_0$ 来说,变化量 $\Delta \theta = \theta - \theta_0$ 也是相对较小的。
因此,我们可以用一阶泰勒展开来近似网络函数 $f_\theta(x)$ 在训练过程中的变化: $$f_\theta(x) \approx f_{\theta_0}(x) + \nabla_\theta f_{\theta_0}(x)^T (\theta - \theta_0)$$
这个近似将复杂的非线性网络动力学转化为一个线性模型。
关键洞察:
- 网络函数的变化被线性化到 $\theta_0$ 的切线空间。
- 网络的“特征”被固定为初始梯度 $\nabla_\theta f_{\theta_0}(x)$。
这个线性化模型定义了一个新的,即 神经切线核 (NTK),它将描述网络在训练过程中的函数空间轨迹,并表明在无限宽极限下,梯度下降等价于在 NTK 定义的 RKHS 上进行核回归。下一章将详细定义和分析 NTK 的性质。
本章小结
| 概念 | 描述 | 关键公式或性质 |
| 概念 | 描述 | 关键公式或性质 |
|---|---|---|
| NTK 参数化 | 通过 $\frac{1}{\sqrt{N}}$ 缩放,确保网络输出方差在 $N \to \infty$ 时保持有限非零。 | $\text{Var}[f(x)] \sim \mathcal{O}(1)$ |
| 高斯过程极限 | 无限宽网络在初始化时收敛于一个高斯过程。 | $f(x) \sim \mathcal{GP}(0, \Sigma_{GP})$ |
| NNGP 核 $\Sigma_{GP}$ | 无限宽网络的先验协方差,衡量两个输入在随机权重下的特征相似性。 | $\Sigma_{GP}(x, x') = \mathbb{E}_{w, v} \left[ v^2 \sigma(w^T x) \sigma(w^T x') \right]$ |
| 深度 NNGP 递归 | 通过迭代计算每层特征协方差来确定深层网络的 NNGP 核。 | $Q^{(l)}(x, x') = \sigma_b^2 + \sigma_w^2 \cdot \mathbb{E}[\sigma(u) \sigma(v)]$ |
| NNGP 局限 | 忽略了网络训练导致的特征学习,将网络固定在初始化定义的 RKHS 中。 | 无法描述梯度下降的动态或有限宽网络的非线性能力。 |
练习题
基础题
-
NNGP 均值函数: 为什么在无限宽网络极限中,如果权重和偏置的均值都是零,网络输出的均值函数 $\mu(x) = \mathbb{E}[f(x)]$ 通常为零?
- Hint: 考虑 $\mathbb{E}[v_i]$ 和 $\mathbb{E}[\sigma(\cdot)]$ 的关系。
答案
由于 $f(x) = \frac{1}{\sqrt{N}} \sum v_i \sigma(\dots)$,且 $v_i$ 独立且均值为零,$\mathbb{E}[f(x)] = \sum \frac{1}{\sqrt{N}} \mathbb{E}[v_i] \mathbb{E}[\sigma(\dots)] = 0$。即使 $v_i$ 不是零均值,如果激活函数 $\sigma$ 是对称的(如 $\tanh$)且 $w_i, b_i$ 对称,$\mathbb{E}[\sigma(\cdot)]$ 也会为零,从而保持 $\mu(x)=0$。
-
权重固定与 NNGP: 证明如果一个单层网络(含 $N$ 个隐藏单元)在训练中只更新输出层权重 $v_i$,而固定输入层权重 $w_i$,那么该网络等价于一个核回归模型,其核函数是什么?
- Hint: 将 $\Phi(x)_i = \sigma(w_i^T x)$ 视为固定的特征映射。
答案
网络 $f(x) = \sum v_i \Phi(x)_i$ 是特征 $\Phi(x)$ 上的一个线性模型。如果 $N$ 很大,且 $w_i$ 固定,我们实际上是在有限维特征空间 $\mathbb{R}^N$ 上做线性回归。其核函数(Gram 矩阵)是 $\Phi(x)^T \Phi(x')$. 当 $N \to \infty$ 时,根据大数定律,这个经验核收敛于 NNGP 核 $\Sigma_{GP}(x, x')$.
-
常数激活函数: 假设我们使用 $\sigma(z) = c$(一个常数)作为激活函数。计算单隐藏层网络的 NNGP 核 $\Sigma_{GP}(x, x')$。
- Hint: 结果应该与 $x$ 和 $x'$ 无关。
答案
$$\Sigma_{GP}(x, x') = \mathbb{E}_{w, v} \left[ v^2 \sigma(w^T x) \sigma(w^T x') \right] = \mathbb{E}_{v} [v^2] \cdot \mathbb{E}_{w} [c \cdot c] = \sigma_v^2 c^2$$这是一个平凡的常数核,表示所有输入都是完全相关的。
-
$N=1$ 时的分布: 考虑一个 $N=1$ 的单隐藏层网络 $f(x) = v_1 \sigma(w_1^T x)$。此时 $f(x)$ 服从高斯分布吗?为什么?
- Hint: CLT 依赖于大数求和。
答案
不服从。当 $N=1$ 时,网络输出的分布直接由 $v_1, w_1$ 的初始化分布和非线性 $\sigma$ 决定。只有当 $N \to \infty$ 时,通过中心极限定理的机制,函数输出才会趋向高斯分布。
挑战题与开放性思考
-
NNGP 谱与特征学习: NNGP 核的特征谱(特征值)衰减速度对网络的表达能力有何影响?如果 NNGP 核的特征值衰减得非常快(即大部分特征值接近零),这是否意味着网络的泛化能力强,还是表达能力弱?
- Hint: 特征谱决定了 RKHS 的有效维数和复杂度。
案
特征值衰减快意味着 RKHS 的“有效维数”较低,函数空间中的高频/高复杂度函数权重很小。这通常意味着网络具有较强的隐式低通滤波偏置,从而有助于泛化(减少过拟合风险)。但同时,它也意味着网络的初始化表达能力(即在初始化时能表达的函数种类)是有限的,难以拟合高频信号。
-
NNGP 与非零均值: 如果我们初始化偏置 $b_i$ 为一个非零均值 $\mu_b$,这会对 NNGP 核 $\Sigma_{GP}(x, x')$ 产生什么影响?它是否依然描述了一个 GP?
- Hint: 考虑均值项是否稳定。
答案
网络输出的均值 $\mu(x) = \mathbb{E}[f(x)]$ 将不再是零,而是 $\mu(x) = \sum \frac{1}{\sqrt{N}} \mathbb{E}[v_i \sigma(w_i^T x + b_i)]$. 如果 $v_i$ 仍是零均值,则 $\mu(x)=0$. 如果 $v_i$ 具有非零均值 $\mu_v$,则 $\mu(x) = \sqrt{N} \mu_v \cdot \mathbb{E}[\sigma(\dots)]$。这将导致在 $N \to \infty$ 时 $\mu(x) \to \pm \infty$,极限退化。为了保持 GP 极限,通常要求所有参数均值为零,或通过更精细的参数化缩放来确保 $\mu(x)$ 有限。
-
高斯封闭性的局限: 解释深层 NNGP 递归中“高斯封闭性”假设的必要性和潜在的不精确性。在什么情况下,这个假设最可能失败?
- Hint: 每一层的输入必须足够近似高斯才能进行积分。
答案
必要性在于,计算 $\mathbb{E}[\sigma(u) \sigma(v)]$ 需要 $u, v$ 服从联合高斯分布。虽然每层输出 $f^{(l)}$ 是大量 IID 项之和(通过 CLT 趋向高斯),但激活后的特征 $\sigma(f^{(l)})$ 并非高斯。递归假设下一层通过再次求和(宽度趋于无穷)能够重新“高斯化”。当网络层数 $L$ 极深时,或者激活函数 $\sigma$ 具有极强的非线性时(如硬激活函数),即使 $N$ 很大,中间层的分布可能偏离高斯分布太远,从导致 NNGP 递归计算结果的准确性下降。
-
从 NNGP 到特征学习: NNGP 理论暗示,无限宽网络没有特征学习能力。请简述 NTK 如何通过“线性化”的视角,为在无限宽极限下描述有限的、微小的特征调整留下理论空间。
- Hint: 梯度与特征的变化。
答案
NTK 理论通过一阶泰勒展开将网络的函数变化 $f_\theta(x) - f_{\theta_0}(x)$ 映射到参数变化 $\theta - \theta_0$ 上。核心在于,NTK 考虑了 梯度 $\nabla_\theta f_{\theta_0}(x)$ 作为特征。虽然这些梯度特征是在 $\theta_0$ 处固定的,但优化过程是沿着这些特征的方向进行投影和更新的。这使得 NTK 能够描述参数调整带来的函数变化,即使它仍然是一个线性近似,比完全冻结的 NNGP 更进一步。
常见陷阱与错误 (Gotchas)
-
NNGP 理论的混用范围: NNGP 理论仅适用于初始化状态的析。不要用 NNGP 来预测网络训练后的性能,除非你能确定优化对特征学习的影响可以忽略不计(例如,只训练 readout 层)。
-
错误区分参数化: 在文献中,NTK 参数化 ($\frac{1}{\sqrt{N}}$ 缩放,方差稳定) 必须与 $\mu$-参数化(Mean-Field Parameterization,通常是 $\frac{1}{N}$ 缩放,导致方差趋零)严格区分。
- $\mu$-参数化 (Mean-Field): 极限下 $\Sigma_{GP} \to 0$,导致特征学习效应占据主导,而非核极限。
-
忽略 NNGP 的非平移不变性: 许多经典核(如 RBF)是平移不变的(依赖于 $|x-x'|$)。但 ReLU NNGP 核通常依赖于 $|x|, |x'|$ 和 $x^T x'$,因此是非平移不变的。
- 调试技巧: 如果你的 NN(尤其是 ReLU 网络)表现出平移不变的特性,那么它的经验核可能已经偏离 NNGP 极限,或者你使用的激活函数(如 Erf)产生了平滑性效果。
-
深度与高斯近似: 虽 CLT 在宽度极限下提供了高斯性的保障,但对于计算深层 NNGP 递归时,必须接受 $\mathbb{E}[\sigma(u)\sigma(v)]$ 的精确积分非常困难,并且依赖于中间层输出 $u, v$ 是高斯的近似。这种近似的精度会随着网络深度的增加而降低。
-
有限宽度下的波动: 在实际应用中,即使网络宽度 $N$ 很大,经验 NNGP 核(基于实际采样的 $N$ 个隐藏单元)仍会相对于理论 $\Sigma_{GP}$ 存在随机波动。只有当 $N$ 趋于无穷时,这种波动才完全消失。这种波动是下一章讨论的 NTK 随时间变化的重要来源之一。