第 5 章泛化、过参数化与双下降现象 (`chapter5.md`)

5.1 经典泛化认识与现代现象冲突

开篇段落

本章旨在剖析深度学习理论中最引人注目的现象之一：在极度过参数化下，模型如何实现完美拟合（零训练误差）的同时保持优异泛化能力，以及由此产生的“双下降”曲线。我们将利用神经切线核（NTK）理论将深度网络训练的动态映射到再生核 Hilbert 空间（RKHS）中的优化问题，从而揭示梯度下降如何通过隐式正则化选择泛化良好的解，并解释模型容量与测试误差之间的复杂非单调关系。

5.1.1 经典统计学习理论的局限性

经典的 Vapnik–Chervonenkis (VC) 维理论或 Rademacher 复杂度理论试图通过模型的容量（例如参数个数 $P$）来界定泛化误差 $E_{gen}$。这些理论通常得出以下结论：为了保证泛化，模型复杂度 $C$ 必须有上界，且 $C$ 必须小于数据量 $N$。

$$ E_{gen} \le E_{train} + \mathcal{O}\left(\sqrt{\frac{C \log(N/C)}{N}}\right) $$ 当 $P$ 远大于 $N$ 时，经典泛化界变得宽松且无意义，因为它预测 $E_{gen}$ 趋于无穷大，与经验观察（深度网络泛化良好）完全矛盾。

5.1.2 过参数化与零训练误差现象的必要条件

现代深度学习模型通常处于过参数化体制 ($P \gg N$)。在这种体制下：

零训练误差（Interpolation）： 存在无穷多个参数 $\mathbf{\theta}$，使得 $f_\mathbf{\theta}(x_i) = y_i$ 对于所有训练样本成立。
选择问题： 优化算法（如梯度下降）必须从这个无限大的插值解集合中选择一个解 $f^*$。

深度学习的奥秘在于，优化算法选择的解 $f^*$ 具有出乎意料的良好泛化性能。这表明，优化过程本身（即梯度下降/梯度流）扮演了一种正则化器的角色。

5.1.3 经验上的“双下降”现象的结构

双下降曲线是连接经典理论（U型曲线）和现代现象的关键桥梁。测试误差 $E_{test}$ 随着模型复杂度 $C$（如宽度 $W$）的变化呈现以下三个阶段：

欠参数化区域 ($C < N$): $E_{train} > 0$. 模型容量不足，泛化误差随 $C$ 增加而下降。
插值阈值/临界区域 ($C \approx N$): $E_{train} \approx 0$. 测试误差达到峰值（"Peak"）。这是最危险的区域。
过参数化区域 ($C > N$): $E_{train} = 0$. 随着 $C$ 进一步增加，测试误差开始第二次下降，泛化性能持续改善。

Test Error
     ^
     |      Classic Region
     |        / \      Overparameterized Region
     |       /   \            \
     |      /     \            \
     |-----*-------*------------*------> C (Model Capacity / P)
            ^     ^
            |     |
          Min Max (Interpolation Threshold)

5.2 NTK 视角下的插值解与隐式正则化

在 NTK 极限下，深度网络训练被简化为核回归问题，这使得我们可以精确分析优化算法在插解空间中的选择偏好。

5.2.1 梯度流与最小 RKHS 范数解

在无限宽度 ($W \to \infty$)、小学习率 ($\eta \to 0$) 的设置下，网络的训练动态由梯度流给出，并且 NTK $\mathbf{\Theta}$ 保持不变。网络输出的变化可以写为： $$ \frac{d f(x, t)}{dt} = - \sum_{i=1}^N \Theta(x, x_i) (f(x_i, t) - y_i) $$ 对于平方损失，当 $t \to \infty$ 时，梯度流将收敛到一个插值解 $f^*$，即 $f^*(x_i) = y_i$.

根据变分原理，在所有满足插值条件的解 $f$ 中，梯度流选择的 $f^*$ 是唯一满足最小 RKHS 范数的解： $$ f^* = \arg \min_{f: f(x_i)=y_i \forall i} ||f||_{\mathcal{H}_\Theta}^2 $$ 其中，RKHS 范数 $||f||_{\mathcal{H}_\Theta}$ 是由 NTK $\Theta$ 定义的函数空间复杂度度量。这种优化动态对低范数解的偏好，就是 NTK 理论对隐式正则化的精确刻画。

5.2.2 核回归与零正则化极限

最小 RKHS 范数插值解 $f^*$ 可以通过核岭回归（KRR）的零正则化极来理解。KRR 的目标是： $$ \hat{f}_\lambda = \arg \min_f \left\{ \sum_{i=1}^N (f(x_i) - y_i)^2 + \lambda ||f||_{\mathcal{H}_\Theta}^2 \right\} $$ 其解在数据点上的表示为 $\mathbf{\alpha}_\lambda = (\mathbf{\Theta} + \lambda \mathbf{I})^{-1} \mathbf{y}$。

在无限训练时间 ($t \to \infty$) 和零正则化 ($\lambda \to 0$) 的极限下：

欠参数化区域 ($\mathbf{\Theta}$ 满秩): 解 $\mathbf{\alpha}$ 唯一。
过参数化区域 ($\mathbf{\Theta}$ 奇异或近似奇异): 当 $\lambda \to 0$ 时，核岭回归解收敛到 $\mathbf{\Theta}$ 的最小范数伪逆 $\mathbf{\Theta}^+$ 定义的解： $$ \mathbf{\alpha}^* = \mathbf{\Theta}^+ \mathbf{y} $$ 这个 $\mathbf{\alpha}^*$ 恰好是所有插值解中，范数 $\mathbf{\alpha}^\top \mathbf{\Theta} \mathbf{\alpha}$ 最小的那个。NTK 理论通过将深度学习动力学映射到 $\mathbf{\Theta}^+$，明确了网络在过参数化下的选择偏好。

5.2.3 NTK 矩阵的零空间与泛化

在过参化体制 $P > N$ 下，经验 NTK 矩阵 $\mathbf{\Theta} \in \mathbb{R}^{N \times N}$ 是由 $N$ 个数据点定义的。如果 $P$ 足够大（理论上 $W \to \infty$），$\mathbf{\Theta}$ 可以在函数空间中被视为低秩或近似低秩。

关键在于 $\mathbf{\Theta}$ 的零空间 (Null Space)： $$ \text{Null}(\mathbf{\Theta}) = \{\mathbf{\alpha} \in \mathbb{R}^N : \mathbf{\Theta} \mathbf{\alpha} = \mathbf{0}\} $$ 零空间中的向量 $\mathbf{\alpha}_{null}$ 满足 $\mathbf{\Theta} \mathbf{\alpha}_{null} = \mathbf{0}$，这意味着将 $\mathbf{\alpha}_{null}$ 加到任何插值解 $\mathbf{\alpha}^*$ 上，新的解 $\mathbf{\alpha}^* + \mathbf{\alpha}_{null}$ 仍然满足插值条件，因为 $\mathbf{\Theta}(\mathbf{\alpha}^* + \mathbf{\alpha}_{null}) = \mathbf{y} + \mathbf{0} = \mathbf{y}$。

隐式正则化的作用是：梯度流选择的解 $\mathbf{\alpha}^*$ 必须正交于 $\mathbf{\Theta}$ 的零空间。这意味着它倾向于选择不包含那些“不影响训练差但可能导致测试误差恶化”的成分。

5.3 核回归的泛化分析与 NTK 谱偏置

5.3.1 RKHS 范数作为泛化指标

在 NTK 框架下，泛化误差 $E_{gen}$ 与最小 RKHS 范数解的复杂度密切相关。对于一个目标函数 $f_{true}$ 和有噪声的数据 $y_i = f_{true}(x_i) + \epsilon_i$，泛化误差可以近似分解为：

近似误差 (Bias): $||f_{true} - f_{proj}||_{\mathcal{L}_2}$，即目标函数与 RKHS 空间中最优近似的距离。
估计误差 (Variance): 来源于数据噪声 $\epsilon$，并受解的范数 $||f^*||_{\mathcal{H}_\Theta}^2$ 的控制。

$$ E_{gen} \approx E_{bias} + \mathcal{O}\left(\frac{||f^*||_{\mathcal{H}_\Theta}^2}{N}\right) $$ 为了获得良好的泛化，我们不仅需要 $f^*$ 接近 $f_{true}$ (低偏差)，还需要 $f^*$ 具有小的 RKHS 范数 (低方差)。

5.3.2 NTK 的谱偏置 (Spectral Bias)

NTK 矩阵 $\mathbf{\Theta}$ 的特征值 $\lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_N$ 决定了网络在函数空间中的归纳偏置。

大特征值 对应的特征向量（通常是低频函数）是网络最容易学习的方向。
小特征值 对应的特征向量（通常是高频或振荡函数）是网络学习难度较高的方向。

梯度流的隐式正则化本质上是对特征值施加惩罚： $$ \mathbf{\alpha}^* = \sum_{i=1}^N \frac{u_i^\top \mathbf{y}}{\lambda_i} u_i $$ 其中 $u_i$ 是 $\mathbf{\Theta}$ 的特征向量。该式表明，如果 $\lambda_i$ 很小，即使输入信号 $u_i^\top \mathbf{y}$ 很小，系数 $\alpha_i$ 也会很大，导致 $f^*$ 剧烈震荡（高方差）。

谱衰减与泛化： 如果 NTK 的特征值衰减速度很快（$\lambda_i$ 迅速趋近于 0），则意味着网络对高频噪声成分具有很强的抑制能力（低方差），是良好的归纳偏置。深度网络结构的优越性部分体现在其 NTK 能够产生有利于泛化的谱衰减模式。

5.3.3 有效维数与模型复杂度的重新定义

NTK 框架下的模型复杂度不再是 $P$，而是由 有效维数 $d_{eff}$ 决定，常定义为： $$ d_{eff}(\lambda) = \text{Tr}((\mathbf{\Theta} + \lambda \mathbf{I})^{-1} \mathbf{\Theta}) = \sum_{i=1}^N \frac{\lambda_i}{\lambda_i + \lambda} $$ 其中 $\lambda$ 是正则化强度。在隐式正则化极限 ($\lambda \to 0$)，有效维数接近 $\text{Rank}(\mathbf{\Theta})$。泛化误差与有效维数和 RKHS 范数成正比。

5.4 双下降现象的 NTK 解释的深度分析

双下降现象是 RKHS 范数 $||f^*||_{\mathcal{H}_\Theta}$ 随着模型容量 $C$（通过 $N$ 阶矩阵 $\mathbf{\Theta}$ 的性质体现）变化的直接体现。

5.4.1 欠参数化区域 ($C < N$)：经典下降

在这个区域，模型容量不足，无法完美拟合数据。训练误差 $E_{train}$ 和测试误差 $E_{test}$ 都由偏差（Bias）主导。随着 $C$ 增加，模型拟合能力增强，偏差下降，两者同步下降。NTK 矩阵 $\mathbf{\Theta}$ 通常是满秩且条件良好

5.4.2 插值阈值峰值 ($C \approx N$)：条件数爆炸

当模型容量 $C$ 刚好达到插值能力时，NTK 矩阵 $\mathbf{\Theta}$ 接近 $N \times N$ 满秩，但往往病态 (Ill-conditioned)。这意味着：

唯一的解： 系统 $\mathbf{\Theta} \mathbf{\alpha} = \mathbf{y}$ 存在唯一解 $\mathbf{\alpha} = \mathbf{\Theta}^{-1} \mathbf{y}$。
噪声放大： 由于 $\mathbf{\Theta}$ 病态（条件数 $\kappa(\mathbf{\Theta}) = \lambda_{max}/\lambda_{min}$ 极大），其逆 $\mathbf{\Theta}^{-1}$ 对 $\mathbf{y}$ 中的微小噪声 $\mathbf{\epsilon}$ 极度敏感。即使 $E_{train} = 0$，解 $\mathbf{\alpha}$ 的范数也会被放大： $$ ||\mathbf{\alpha}|| \propto \kappa(\mathbf{\Theta}) \cdot ||\mathbf{\epsilon}|| $$ 这种对噪声的过拟合导致了 $f^*$ 的 RKHS 范数 $||f^*||_{\mathcal{H}_\Theta}$ 达到最大值，引发测试误差峰值。

5.4.3 过参数化区域 ($C > N$)：最小范数选择

当 $C$ 超过 $N$ 以后，我们进入 $P \gg N$ 的体制。假设我们处理的是极限下的 $N \times N$ NTK 矩阵 $\mathbf{\Theta}$，虽然其秩可能仍为 $N$ (满秩)，但由于 $P$ 巨大，我们现在关注的是 参数空间中的解的自由度。

在函数空间中，存在一个巨大的零空间 $\text{Null}(\mathbf{\Theta})$。梯度流的隐式正则化强制选择 $\mathbf{\alpha}^* = \mathbf{\Theta}^+ \mathbf{y}$，即最小范数伪逆解。

关键机制：

对高频噪声的鲁棒性： 伪逆 $\mathbf{\Theta}^+$ 自动忽略了 $\mathbf{\Theta}$ 谱中的最小特征值（最病态的方向）。这意味着最小范数解 $f^*$ 不会像峰值时那样被强制利用高频噪声分量进行插值。
范数收缩： 当 $C$ 继续增大，网络的内在结构（例如，更深的层和更宽的宽度）使得 NTK 的谱偏置更加强烈，有效维数更低，这使得最小 RKHS 范数 $||f^*||_{\mathcal{H}_\Theta}$ 再次下降。较低的范数意味着更平滑的函数和更好的泛化性能，从而实现测试误差的第二次下降。

NTK 解释图示：

RKHS Norm ||f*||^2
Test Error
     ^
     |
     |    Peak (Noise Amplification)
     |     / \
     |    /   \
     |---*-----*----------------> (Second Descent: Norm Minimization)
     |           (Minimizing Error)
     +---------------------------> Capacity C / P
         (Under)  (Threshold)    (Over)

5.5 对深度学习实践的启示

5.5.1 宽度与深度的安全设计

NTK 理论提供了一个模型设计的基本原则：

宽度优先策略： 为了保证网络进入安全的过参数化区域并受益于隐式正则化，应优先增加模型宽度 $W$ 使其远大于 $N$。
避免临界区： 除非有强烈的显式正则化（如 dropout 或强 L2），否则应避免设计 $P \approx N$ 的模型。

5.5.2 正则化与模型选择

NTK 理论证实了正则化（无论是显式还是隐式）的核心作用是控制 RKHS 范数。

L2 权重衰减 (显式)： 在 NTK 极限下，这精确地对应于核岭回归中的 $\lambda$。它能通过限制范数来“削平”插值峰值，使训练更鲁棒。
早停 (Implicit)： 训练时间 $T$ 充当了正则化参数。在 $T$ 较小时，解 $\mathbf{\alpha}(t)$ 类似于大 $\lambda$ 下的 KRR 解，范数较小。

5.5.3 评估归纳偏置：谱分析

对于给定任务和网络结构，如果需要评估其泛化潜力，可以进行经验 NTK 的谱分析：

计算经验 NTK $\hat{\mathbf{\Theta}}$： 在训练数据子集上计算 NTK 矩阵。
计算特征值 $\lambda_i$： 观察 $\lambda_i$ 的衰减速度。
推断偏置： 快速衰减意味着强谱偏置，偏向简单（低频）函数，更有利于泛化。结构调整（如加入残差连接或更换激活函数）如果加速了 $\lambda_i$ 的衰减，通常会提升泛化能力。

本章小结

| 概念 | 描述 | 分析工具 |

概念	描述	分析工具
泛化悖论	极度过参数化 ($P \gg N$) 仍良好泛化，挑战经典复杂度界限。	RKHS 范数 $
隐式正则化	梯度流偏向选择最小 RKHS 范数的插值解。	最小范数伪逆 $\mathbf{\Theta}^+$
双下降	测试误差的非单调曲线，由两次下降组成。	NTK 矩阵 $\mathbf{\Theta}$ 的条件数
插值峰值	发生在 $P \approx N$ 处。矩阵 $\mathbf{\Theta}$ 病态，解对噪声敏感，范数爆炸。	$\kappa(\mathbf{\Theta}) = \lambda_{max}/\lambda_{min}$ 极大
第二次下降	发生在 $P \gg N$ 处。自由度高，梯度流选择低范数解，避免拟合噪声。	$\mathbf{\alpha}^* = \mathbf{\Theta}^+ \mathbf{y}$
谱偏置	NTK 特征值衰减速度决定了网络对不同频率函数的学习偏好。	特征值 $\lambda_i$ 衰减分析

练习题

基础题

5.1.1 RKHS 范数与正则项 请写出核岭回归 (KRR) 的优化目标函数，并指出其中的显式正则化项与 NTK 理论中的 RKHS 范数之间的关系。

提示

核岭回归在 RKHS 中的形式。

答案

KRR 优化目标：$L(\mathbf{\alpha}) = ||\mathbf{y} - \mathbf{\Theta} \mathbf{\alpha}||_2^2 + \lambda ||f||_{\mathcal{H}_\Theta}^2$。在 RKHS 中，正则化项 $||f||_{\mathcal{H}_\Theta}^2$ 可以写为 $\mathbf{\alpha}^\top \mathbf{\Theta} \mathbf{\alpha}$。因此，显式正则化项正是由 NTK $\mathbf{\Theta}$ 定义的函数范数。

5.1.2 最小范数解的性质 假设在 $P \gg N$ 的体制下，存在两个插值解 $f_1$ 和 $f_2$ 满足 $f_1(x_i)=y_i$ 和 $f_2(x_i)=y_i$。如果 $||f_1||_{\mathcal{H}_\Theta} < ||f_2||_{\mathcal{H}_\Theta}$，梯度下降（在 NTK 极限下）会收敛到哪个解？请简要解释。

提示

回顾隐式正则化的定义。

答案

梯度下降会收敛到 $f_1$。因为 NTK 极限下的梯度流动力学实现了隐式正则化，倾于选择在所有插值解中具有最小 RKHS 范数的解。

5.1.3 零空间与插值 在过参数化体制下，如果向量 $\mathbf{\alpha}_{null}$ 位于 NTK 矩阵 $\mathbf{\Theta}$ 的零空间内，即 $\mathbf{\Theta} \mathbf{\alpha}_{null} = \mathbf{0}$。如果 $f^*$ 是一个插值解，那么 $f^* + \sum_{i=1}^k \mathbf{\alpha}_{null, i}$ 还是一个插值解吗？为什么？

提示

检查新的解在训练数据点上的输出。

答案

是的，它仍然是插值解。因为 $\mathbf{\Theta} (\mathbf{\alpha}^* + \mathbf{\alpha}_{null}) = \mathbf{\Theta} \mathbf{\alpha}^* + \mathbf{\Theta} \mathbf{\alpha}_{null} = \mathbf{y} + \mathbf{0} = \mathbf{y}$。零空间中的分量不影响训练误差，但会影响 $f$ 的范数和泛化能力。

5.1.4 谱偏置与高低频 如果一个 NTK $\mathbf{\Theta}_A$ 的所有特征值在 $i > N/2$ 之后都迅速衰减到零，而另一个 NTK $\mathbf{\Theta}_B$ 的特征值衰减得非常缓慢。你认为哪个核对数据中的高频（噪声）信息更敏感？

提示

特征值大小与学习难度和对噪声的敏感度。

答案

NTK $\mathbf{\Theta}_B$ 对高频噪声信息更敏感。快速衰减（如 $\mathbf{\Theta}_A$）意味着网络无法有效地表示高频函数，因此具有强大的低频归纳偏置，对噪声鲁棒。慢衰减（如 $\mathbf{\Theta}_B$）意味着高频成分仍然与相对较大的特征值相关联，梯度下降在插值时更容易被噪声利用。

挑战题

5.1.5 双下降峰值的消除 设计一个思想实验：如果训练数据 $\mathbf{y}$ 是完全无噪声的（即 $\mathbf{y} = f_{true}(\mathbf{x})$），你预期双下降的峰值还会出现吗？请用 NTK 矩阵的条件数和噪声放大的观点来解释。

提示

峰值是由噪声放大导致的。如果噪声为零公式 $\mathbf{\alpha} = \mathbf{\Theta}^{-1} \mathbf{y}$ 是否仍会导致范数剧增？

答案

如果数据完全无噪声，理论上双下降的峰值可能会消失或显著减小。峰值的产生是由于临界点 $\mathbf{\Theta}$ 的病态性放大了数据中的随机噪声 $\mathbf{\epsilon}$。如果 $\mathbf{\epsilon} = 0$，虽然 $\mathbf{\Theta}$ 仍然病态，但解 $\mathbf{\alpha} = \mathbf{\Theta}^{-1} \mathbf{y}$ 的范数可能不会像噪声存在时那样剧烈增大，因为 $\mathbf{y}$ 本身可能落在 $\mathbf{\Theta}$ 的特征空间中偏向大特征值的方向。换句话说，无噪声目标函数 $f_{true}$ 本身的 RKHS 范数可能很小，从而避免了峰值。

5.1.6 过参数化与特征学习的衔接（开放性） 在有限宽度的真实网络中，双下降现象依然存在，但此时网络会发生特征学习（NTK $\mathbf{\Theta}$ 随时间变化）。请讨论 NTK 理论提供的“最小范”解释，如何与特征学习体制下模型的隐式偏置进行衔接或差异分析。

提示

考虑特征学习体制下，优化器（SGD）会倾向于最小化哪个范数？

答案

在特征学习体制下，网络的目标函数 $f$ 不仅受限于 RKHS 范数，还受限于参数空间中的权重范数 $||\mathbf{\theta}||$. 梯度下降（特别是 SGD）在过参数化下倾向于最小化权重范数 $||\mathbf{\theta}||$. 衔接： 这两种正则化是相关的。许多理论研究表明，对于某些网络，最小权重范数解在一定程度上也对应于函数空间中的平滑解。因此，NTK 的最小 RKHS 范数解释提供了核心机制（即在插值解空间中选择最简单的解），而特征学习只是改变了“简单”的定义（从 RKHS 范数到权重范数或 $\mu$P 理论定义的范数）。 差异： 在特征学习体制下，网络可以通过调整 $\mathbf{\Theta}$ 本来更好地匹配数据，而非仅仅使用固定的 $\mathbf{\Theta}$。

常见陷阱与错误 (Gotchas)

误解 NTK 矩阵的维度： * 错误认识： “NTK 矩阵 $\mathbf{\Theta}$ 的维度是 $P \times P$（参数数量）。” * NTK 视角： 虽然 NTK 定义涉及 $P$ 维梯度向量的内积，但应用于训练动态的经验 NTK 矩阵是 $N \times N$ 维（数据点数量）。$P$ 的影响是通过确定 $N \times N$ 矩阵 $\mathbf{\Theta}$ 的性质（如特征谱和零空间）体现的。
混淆训练时间和模型容量的双下降： * 错误认识： “双下降曲线只与模型容量有关。” * NTK 视角： 双下降可以发生在两个维度上：模型容量（如宽度 $W$）和训练时间/迭代次数。基于时间的双下降可以通过早停来避免，而基于容量的双下降是结构性的，由 NTK 矩阵的谱结构决定。
过度依赖 NTK 预测双下降的精确位置： * 错误认识： “根据数据量 $N$，我精确知道双下降峰值会发生在 $P=N$。” * NTK 视角： $P \approx N$ 只是一个粗略的指标。在实际深度网络中，由于有限宽度效应、激活函数的非线性、以及模型实际的有效秩，峰值的位置 $P_{critical}$ 可能会偏移，并且取决于数据内在维度、噪声水平和结构。NTK 提供了定性而非精确的定量预测。
忽视噪声在峰值中的作用： * 错误认识： “峰值只是模型复杂度太高导致的。” * NTK 视角： 峰值是病态的矩阵 $\mathbf{\Theta}$ 与数据噪声 $\mathbf{\epsilon}$ 共同作用的结果。如果数据无噪声，峰值会消失。因此，噪声水平越高，插值峰值会越尖锐、越高。

第 5 章 泛化、过参数化与双下降现象 (chapter5.md)