第 2 章无限宽神经网络与高斯过程（`chapter2.md`）

2.1 单隐藏层网络的概率视角

开篇段落

本章旨在构建神经切线核（NTK）理论的概率基础。我们将证明，当神经网络的宽度（隐藏单元数 $N$）趋于无穷时，网络在随机初始化下的函数输出将收敛于一个高斯过程（Gaussian Process, GP）。这种极限状态由一个被称为 NNGP 核（Neural Network Gaussian Process Kernel）的协方差函数唯一确定。理解 NNGP 是理解 NTK 的第一步，它将深度学习的先验函数空间与经典的核方法联系起来。

文字论述

网络的定义与 NTK 参数化

我们首先考虑一个具有 $L$ 层的深度全连接网络（MLP）。为了方便分析无限宽极限，我们采用一种特定的参数初始化和缩放方式，通常被称为 NTK 参数化或 标准参数化。

对于第 $l$ 层的输出 $f^{(l)}(x)$，它由前一层输出 $f^{(l-1)}(x)$ 经过线性变换和激活函数得到：

$$h_i^{(l)}(x) = W_{i}^{(l)} f^{(l-1)}(x) + b_i^{(l)}$$ $$f_i^{(l)}(x) = \sigma(h_i^{(l)}(x))$$ 网络的最终输出 $f(x)$ 通常是对最后一层激活的线性组合。

在 NTK 参数化中，权重和偏置通常独立地从均值为 0 的高斯分布中抽取，并且方差通过网络宽度 $N_{l-1}$ 进行缩放： $$\text{Var}(W^{(l)}) = \frac{\sigma_w^2}{N_{l-1}}, \quad \text{Var}(b^{(l)}) = \sigma_b^2$$ 这种 $\frac{1}{N}$ 的缩放（或者在梯度计算中体现为 $\frac{1}{\sqrt{N}}$）确保了当 $N \to \infty$ 时，网络的输出方差保持稳定。

随机初始化与 IID 贡献

考虑一个单隐藏层网络 ($L=2$)： $$f(x) = \frac{1}{\sqrt{N}} \sum_{i=1}^N v_i \sigma(w_i^T x)$$ 我们假设输入层权重 $w_i$ 和输出层权重 $v_i$ 都是独立同分布（IID）的，且均值为零。

网络输出 $f(x)$ 是 $N$ 个独立的随机变量 $Z_i(x) = \frac{1}{\sqrt{N}} v_i \sigma(w_i^T x)$ 的求和： $$f(x) = \sum_{i=1}^N Z_i(x)$$ 由于 $Z_i(x)$ 是 IID 且均值 $\mathbb{E}[Z_i(x)]$ 为 0，我们可以利用中心极限定理来分析 $f(x)$ 的极限分布。

关键：方差的稳定化分析

为了使极限非退化，我们必须确保 $\text{Var}[f(x)]$ 在 $N \to \infty$ 时趋于一个有限的、非零的常数。 $$\text{Var}[f(x)] = \text{Var}\left[\sum_{i=1}^N Z_i(x)\right] = \sum_{i=1}^N \text{Var}[Z_i(x)]$$ $$\text{Var}[Z_i(x)] = \frac{1}{N} \text{Var}\left[v_i \sigma(w_i^T x)\right]$$ 因此， $$\text{Var}[f(x)] = N \cdot \frac{1}{N} \text{Var}\left[v_i \sigma(w_i^T x)\right] = \text{Var}\left[v_i \sigma(w_i^T x)\right]$$ 这个结果是独立于 $N$ 的。因此，$\frac{1}{\sqrt{N}}$ 的缩放是保持方差稳定，从而使 CLT 适用的关键。

2.2 中心极限定理与函数空间极限

有限维收敛与高斯过程定义

对于任意固定的输入 $x$，当 $N \to \infty$ 时，根据中心极限定理 (CLT)，输出 $f(x)$ 严格收敛于一个高斯随机变量 $\mathcal{N}(0, \Sigma_{GP}(x, x))$

更重要的是，考虑一组 $M$ 个输入点 $X = \{x_1, \dots, x_M\}$。输出向量 $F = [f(x_1), \dots, f(x_M)]^T$ 的联合分布收敛于一个 $M$ 维的多元高斯分布： $$F \xrightarrow{N \to \infty} \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})$$ 其中 $\boldsymbol{\mu}$ 是均值向量，$\boldsymbol{\Sigma}$ 是 $M \times M$ 的协方差矩阵。

函数空间极限： 这种在任意有限点集上都收敛于多元高斯分布的随机函数 $f(x)$，在极限 $N \to \infty$ 下被称为 高斯过程 (GP)。 $$f(x) \sim \mathcal{GP}(\mu(x), \Sigma_{GP}(x, x'))$$ 由于我们假设权重和偏置均值为零，且激活函数是对称的（或在 $N \to \infty$ 极限下均值稳定），均值函数 $\mu(x)$ 通常为 0。

协方差函数与 NNGP 核的引出

高斯过程完全由其均值函数和协方差函数 $\Sigma_{GP}(x, x')$ 决定。

NNGP 核 $\Sigma_{GP}(x, x')$ 是两个输入 $x$ 和 $x'$ 处的输出之间的协方差。由于我们关注的 $N \to \infty$ 时的极限，它与 $N$ 无关，仅取决于网络的结构、初始化方差和激活函数。 $$\Sigma_{GP}(x, x') = \lim_{N \to \infty} \text{Cov}_{\theta \sim P_0} [f_\theta(x), f_\theta(x')]$$

2.3 NNGP 核（Neural Network Gaussian Process Kernel）

NNGP 核的形式定义与推导（单层）

对于单层网络 $f(x) = \sum_{i=1}^N Z_i(x)$，且 $Z_i(x)$ 独立： $$\text{Cov}[f(x), f(x')] = \sum_{i=1}^N \text{Cov}[Z_i(x), Z_i(x')]$$ 根据 2.1 节的缩放分析，我们在 $N \to \infty$ 时的极限核为： $$\Sigma_{GP}(x, x') = \lim_{N \to \infty} \sum_{i=1}^N \frac{1}{N} \text{Cov}\left[v_i \sigma(w_i^T x), v_i \sigma(w_i^T x')\right]$$ 由于所有隐藏单元是 IID 的，这个和收敛于单个隐藏单元贡献的期望值： $$\Sigma_{GP}(x, x') = \mathbb{E}_{w, v} \left[ v^2 \sigma(w^T x) \sigma(w^T x') \right]$$ 如果 $v$ 与 $w$ 独立，且 $\mathbb{E}[v^2] = \sigma_v^2$，且我们使用标准的高斯初始化 $w \sim \mathcal{N}(0, \sigma_w^2 I)$： $$\Sigma_{GP}(x, x') = \sigma_v^2 \cdot \mathbb{E}_{w} \left[ \sigma(w^T x) \sigma(w^T x') \right]$$ 关键直观： NNGP 核是衡量两个输入 $x$ 和 $x'$ 在随机权重下，通过激活函数后，其特征相似性的期望。

典型激活函数下的闭式表达

由于 $w^T x$ 和 $w^T x'$ 是两个联合高斯变量，它们的分布完全由 $x$ 和 $x'$ 的内积（即协方差）决定。计算 NNGP 核通常归结为计算两个相关高斯变量经过非线性 $\sigma$ 后的期望积分。

1. ReLU 激活函数 $\sigma(z) = \max(0, z)$

ReLU 核的计算涉及到复杂的几何积分。最终形式与输入向量之间的角度紧密相关。设 $C(x, x') = x^T x'$ 为输入内积，我们可以将核分解为： $$\Sigma_{GP}^{(l)}(x, x') = \sigma_w^2 \cdot \mathbb{E}_{z_1, z_2} [\sigma(z_1) \sigma(z_2)]$$ 其中 $(z_1, z_2)$ 是协方差为 $C^{(l-1)}$ 的高斯向量。对于 ReLU，其递归形式通常表示为 $J_1(C) + \frac{C}{2} J_2(C)$ 的形式，中 $J_1, J_2$ 是关于输入协方差矩阵的函数。

几何解释： ReLU 核是非平移不变的（Translation-Invariant），因为它依赖于输入向量的长度 $|x|$ 和它们之间的角度，而非仅仅依赖于它们之间的距离 $|x-x'|$。这使得无限宽的 ReLU 网络具有一定的局部适应性。

2. Tanh 或 Erf 激活函数

对于某些光滑激活函数，如误差函数 $\text{erf}(z)$，可以得到更优雅的闭式形式（如 2.3 节所述）。

深度 NNGP 核的递归结构

对于 $L$ 层深的网络，NNGP 核的计算是一个迭代过程。设 $Q^{(l)}(x, x') = \mathbb{E}[f^{(l)}(x) f^{(l)}(x')]$ 是第 $l$ 层的特征协方差。 $$Q^{(l)}(x, x') = \sigma_b^2 + \sigma_w^2 \cdot \mathbb{E}_{u, v \sim \mathcal{N}(0, Q^{(l-1)})} [\sigma(u) \sigma(v)]$$

$Q^{(0)}(x, x') = x^T x'$ 是输入层的协方差。
$Q^{(l)}$ 递归地定义了下一层特征的相似性。
这个递归的核心在于，由于中心极限定理，即使间层 $f^{(l-1)}(x)$ 经过非线性 $\sigma$ 后可能不再是高斯分布，当计算下一层 $l$ 的输出时，对 $N \to \infty$ 的求和步骤又会通过 CLT 将其拉回到高斯分布。这被称为 NNGP 理论的“高斯封闭性”假设。

2.4 NNGP 与贝叶斯推断

NNGP 作为贝叶斯先验

无限宽网络提供了一个强大的贝叶斯视角： $$\text{初始化网络} \quad f(x) \quad \xrightarrow{N \to \infty} \quad \mathcal{GP}(0, \Sigma_{GP})$$ 这意味着 NNGP 核 $\Sigma_{GP}$ 充当了训练前的先验协方差函数。它规定了哪些函数是网络可能表达的，以及它们之间的相似程度。由 $\Sigma_{GP}$ 定义的再生核 Hilbert 空间（RKHS）$\mathcal{H}_{GP}$ 便是无限宽网络的函数空间。

高斯过程回归（GPR）与解析解

在贝叶斯框架下，给定训练数据 $D = \{(x_i, y_i)\}$ 和 $\Sigma_{GP}$，高斯过程回归（GPR）提供了网络的后验预测均值 $\mu_{post}(x)$ 的解析解。

假设观测噪声 $\epsilon \sim \mathcal{N}(0, \sigma_n^2 I)$，则预测均值 $\mu_{post}(x)$ 是一个标准核回归解： $$\mu_{post}(x) = K_{x D} (K_{D D} + \sigma_n^2 I)^{-1} Y$$ 其中 $Y$ 是标签向量，$K_{D D}$ 是训练数据上的 NNGP 核矩阵， $K_{x D}$ 是测试点 $x$ 与训练点之间的协方差向量。

NNGP 训练： 在 NNGP 理论中，网络的“训练”过程被完全绕过。我们不需要梯度下降，只需计算核矩阵并应用解析的 GPR 公式即可获得预测结果。

NNGP 框架的局限性

NNGP 框架虽然提供了对无限宽网络先验分布的完美描述，但在描述实际深度学习训练时存在本质缺陷：

1. 冻结特征（Frozen Features）

NNGP 理论隐含的假设是：网络在训练中仅更新最外层的权重，或者说，网络的特征提取部分 $f^{(l)}(x)$ 是固定的。

在 GPR 中，我们学习的是 $\Sigma_{GP}$ 定义的函数空间中的系数，而不是核本身。如果隐藏层权重 $W$ 在训中发生变化，核 $\Sigma_{GP}$ 也会随之变化，而 NNGP 理论无法捕捉这种变化。

2. 忽略优化路径

实际训练中，我们使用梯度下降（GD）或随机梯度下降（SGD）。这些优化算法并不会自动跳转到解析的 GPR 后验解（尤其是在使用大规模数据时）。NNGP 理论没有描述网络是如何通过迭代优化到达其解的。

3. 缺乏表示学习（Representation Learning）

深度学习的威力源于其能够通过训练调整特征表示。一个有限宽网络在训练后会学习到比初始化时更好的特征。NNGP 框架将网络固定在了初始化状态，否定了特征学习的存在。

2.5 从 NNGP 走向 NTK 的动机

为了解决 NNGP 框架的局限性，我们需要一个理论来桥接随机初始化（NNGP 极限）和梯度下降优化（实际训练动态）。

训练动态与函数空间轨迹

我们希望描述在梯度流下，网络函数 $f_\theta(x)$ 是如何随时间 $t$ 演变的：$f_{\theta(t)}(x)$。网络的参数 $\theta$ 遵循梯度流方程（对于 $L_2$ 损失）： $$\frac{d \theta}{d t} = - \nabla_\theta \mathcal{L}(\theta)$$ 在函数空间中，我们关心的是： $$\frac{d f_{\theta(t)}(x)}{d t} = ?$$

“切线”近似的提出

核心思想是：如果网络宽度 $N$ 足够大，那么即使我们进行优化，网络参数 $\theta$ 的变化相对于其初始化 $\theta_0$ 来说，变化量 $\Delta \theta = \theta - \theta_0$ 也是相对较小的。

因此，我们可以用一阶泰勒展开来近似网络函数 $f_\theta(x)$ 在训练过程中的变化： $$f_\theta(x) \approx f_{\theta_0}(x) + \nabla_\theta f_{\theta_0}(x)^T (\theta - \theta_0)$$

这个近似将复杂的非线性网络动力学转化为一个线性模型。

关键洞察：

网络函数的变化被线性化到 $\theta_0$ 的切线空间。
网络的“特征”被固定为初始梯度 $\nabla_\theta f_{\theta_0}(x)$。

这个线性化模型定义了一个新的，即 神经切线核 (NTK)，它将描述网络在训练过程中的函数空间轨迹，并表明在无限宽极限下，梯度下降等价于在 NTK 定义的 RKHS 上进行核回归。下一章将详细定义和分析 NTK 的性质。

本章小结

| 概念 | 描述 | 关键公式或性质 |

概念	描述	关键公式或性质
NTK 参数化	通过 $\frac{1}{\sqrt{N}}$ 缩放，确保网络输出方差在 $N \to \infty$ 时保持有限非零。	$\text{Var}[f(x)] \sim \mathcal{O}(1)$
高斯过程极限	无限宽网络在初始化时收敛于一个高斯过程。	$f(x) \sim \mathcal{GP}(0, \Sigma_{GP})$
NNGP 核 $\Sigma_{GP}$	无限宽网络的先验协方差，衡量两个输入在随机权重下的特征相似性。	$\Sigma_{GP}(x, x') = \mathbb{E}_{w, v} \left[ v^2 \sigma(w^T x) \sigma(w^T x') \right]$
深度 NNGP 递归	通过迭代计算每层特征协方差来确定深层网络的 NNGP 核。	$Q^{(l)}(x, x') = \sigma_b^2 + \sigma_w^2 \cdot \mathbb{E}[\sigma(u) \sigma(v)]$
NNGP 局限	忽略了网络训练导致的特征学习，将网络固定在初始化定义的 RKHS 中。	无法描述梯度下降的动态或有限宽网络的非线性能力。

练习题

基础题

NNGP 均值函数: 为什么在无限宽网络极限中，如果权重和偏置的均值都是零，网络输出的均值函数 $\mu(x) = \mathbb{E}[f(x)]$ 通常为零？
- Hint: 考虑 $\mathbb{E}[v_i]$ 和 $\mathbb{E}[\sigma(\cdot)]$ 的关系。
- 答案
  由于 $f(x) = \frac{1}{\sqrt{N}} \sum v_i \sigma(\dots)$，且 $v_i$ 独立且均值为零，$\mathbb{E}[f(x)] = \sum \frac{1}{\sqrt{N}} \mathbb{E}[v_i] \mathbb{E}[\sigma(\dots)] = 0$。即使 $v_i$ 不是零均值，如果激活函数 $\sigma$ 是对称的（如 $\tanh$）且 $w_i, b_i$ 对称，$\mathbb{E}[\sigma(\cdot)]$ 也会为零，从而保持 $\mu(x)=0$。
权重固定与 NNGP: 证明如果一个单层网络（含 $N$ 个隐藏单元）在训练中只更新输出层权重 $v_i$，而固定输入层权重 $w_i$，那么该网络等价于一个核回归模型，其核函数是什么？
- Hint: 将 $\Phi(x)_i = \sigma(w_i^T x)$ 视为固定的特征映射。
- 答案
  网络 $f(x) = \sum v_i \Phi(x)_i$ 是特征 $\Phi(x)$ 上的一个线性模型。如果 $N$ 很大，且 $w_i$ 固定，我们实际上是在有限维特征空间 $\mathbb{R}^N$ 上做线性回归。其核函数（Gram 矩阵）是 $\Phi(x)^T \Phi(x')$. 当 $N \to \infty$ 时，根据大数定律，这个经验核收敛于 NNGP 核 $\Sigma_{GP}(x, x')$.
常数激活函数: 假设我们使用 $\sigma(z) = c$（一个常数）作为激活函数。计算单隐藏层网络的 NNGP 核 $\Sigma_{GP}(x, x')$。
- Hint: 结果应该与 $x$ 和 $x'$ 无关。
- 答案
  $$\Sigma_{GP}(x, x') = \mathbb{E}_{w, v} \left[ v^2 \sigma(w^T x) \sigma(w^T x') \right] = \mathbb{E}_{v} [v^2] \cdot \mathbb{E}_{w} [c \cdot c] = \sigma_v^2 c^2$$这是一个平凡的常数核，表示所有输入都是完全相关的。
$N=1$ 时的分布: 考虑一个 $N=1$ 的单隐藏层网络 $f(x) = v_1 \sigma(w_1^T x)$。此时 $f(x)$ 服从高斯分布吗？为什么？
- Hint: CLT 依赖于大数求和。
- 答案
  不服从。当 $N=1$ 时，网络输出的分布直接由 $v_1, w_1$ 的初始化分布和非线性 $\sigma$ 决定。只有当 $N \to \infty$ 时，通过中心极限定理的机制，函数输出才会趋向高斯分布。

挑战题与开放性思考

NNGP 谱与特征学习: NNGP 核的特征谱（特征值）衰减速度对网络的表达能力有何影响？如果 NNGP 核的特征值衰减得非常快（即大部分特征值接近零），这是否意味着网络的泛化能力强，还是表达能力弱？
- Hint: 特征谱决定了 RKHS 的有效维数和复杂度。
- 案
  特征值衰减快意味着 RKHS 的“有效维数”较低，函数空间中的高频/高复杂度函数权重很小。这通常意味着网络具有较强的隐式低通滤波偏置，从而有助于泛化（减少过拟合风险）。但同时，它也意味着网络的初始化表达能力（即在初始化时能表达的函数种类）是有限的，难以拟合高频信号。
NNGP 与非零均值: 如果我们初始化偏置 $b_i$ 为一个非零均值 $\mu_b$，这会对 NNGP 核 $\Sigma_{GP}(x, x')$ 产生什么影响？它是否依然描述了一个 GP？
- Hint: 考虑均值项是否稳定。
- 答案
  网络输出的均值 $\mu(x) = \mathbb{E}[f(x)]$ 将不再是零，而是 $\mu(x) = \sum \frac{1}{\sqrt{N}} \mathbb{E}[v_i \sigma(w_i^T x + b_i)]$. 如果 $v_i$ 仍是零均值，则 $\mu(x)=0$. 如果 $v_i$ 具有非零均值 $\mu_v$，则 $\mu(x) = \sqrt{N} \mu_v \cdot \mathbb{E}[\sigma(\dots)]$。这将导致在 $N \to \infty$ 时 $\mu(x) \to \pm \infty$，极限退化。为了保持 GP 极限，通常要求所有参数均值为零，或通过更精细的参数化缩放来确保 $\mu(x)$ 有限。
高斯封闭性的局限: 解释深层 NNGP 递归中“高斯封闭性”假设的必要性和潜在的不精确性。在什么情况下，这个假设最可能失败？
- Hint: 每一层的输入必须足够近似高斯才能进行积分。
- 答案
  必要性在于，计算 $\mathbb{E}[\sigma(u) \sigma(v)]$ 需要 $u, v$ 服从联合高斯分布。虽然每层输出 $f^{(l)}$ 是大量 IID 项之和（通过 CLT 趋向高斯），但激活后的特征 $\sigma(f^{(l)})$ 并非高斯。递归假设下一层通过再次求和（宽度趋于无穷）能够重新“高斯化”。当网络层数 $L$ 极深时，或者激活函数 $\sigma$ 具有极强的非线性时（如硬激活函数），即使 $N$ 很大，中间层的分布可能偏离高斯分布太远，从导致 NNGP 递归计算结果的准确性下降。
从 NNGP 到特征学习: NNGP 理论暗示，无限宽网络没有特征学习能力。请简述 NTK 如何通过“线性化”的视角，为在无限宽极限下描述有限的、微小的特征调整留下理论空间。
- Hint: 梯度与特征的变化。
- 答案
  NTK 理论通过一阶泰勒展开将网络的函数变化 $f_\theta(x) - f_{\theta_0}(x)$ 映射到参数变化 $\theta - \theta_0$ 上。核心在于，NTK 考虑了梯度 $\nabla_\theta f_{\theta_0}(x)$ 作为特征。虽然这些梯度特征是在 $\theta_0$ 处固定的，但优化过程是沿着这些特征的方向进行投影和更新的。这使得 NTK 能够描述参数调整带来的函数变化，即使它仍然是一个线性近似，比完全冻结的 NNGP 更进一步。

常见陷阱与错误 (Gotchas)

NNGP 理论的混用范围： NNGP 理论仅适用于初始化状态的析。不要用 NNGP 来预测网络训练后的性能，除非你能确定优化对特征学习的影响可以忽略不计（例如，只训练 readout 层）。
错误区分参数化： 在文献中，NTK 参数化 ($\frac{1}{\sqrt{N}}$ 缩放，方差稳定) 必须与 $\mu$-参数化（Mean-Field Parameterization，通常是 $\frac{1}{N}$ 缩放，导致方差趋零）严格区分。
- $\mu$-参数化 (Mean-Field)： 极限下 $\Sigma_{GP} \to 0$，导致特征学习效应占据主导，而非核极限。
忽略 NNGP 的非平移不变性： 许多经典核（如 RBF）是平移不变的（依赖于 $|x-x'|$）。但 ReLU NNGP 核通常依赖于 $|x|, |x'|$ 和 $x^T x'$，因此是非平移不变的。
- 调试技巧： 如果你的 NN（尤其是 ReLU 网络）表现出平移不变的特性，那么它的经验核可能已经偏离 NNGP 极限，或者你使用的激活函数（如 Erf）产生了平滑性效果。
深度与高斯近似： 虽 CLT 在宽度极限下提供了高斯性的保障，但对于计算深层 NNGP 递归时，必须接受 $\mathbb{E}[\sigma(u)\sigma(v)]$ 的精确积分非常困难，并且依赖于中间层输出 $u, v$ 是高斯的近似。这种近似的精度会随着网络深度的增加而降低。
有限宽度下的波动： 在实际应用中，即使网络宽度 $N$ 很大，经验 NNGP 核（基于实际采样的 $N$ 个隐藏单元）仍会相对于理论 $\Sigma_{GP}$ 存在随机波动。只有当 $N$ 趋于无穷时，这种波动才完全消失。这种波动是下一章讨论的 NTK 随时间变化的重要来源之一。

第 2 章 无限宽神经网络与高斯过程（chapter2.md）