第 5 章 泛化、过参数化与双下降现象 (chapter5.md)
5.1 经典泛化认识与现代现象冲突
开篇段落
本章旨在剖析深度学习理论中最引人注目的现象之一:在极度过参数化下,模型如何实现完美拟合(零训练误差)的同时保持优异泛化能力,以及由此产生的“双下降”曲线。我们将利用神经切线核(NTK)理论将深度网络训练的动态映射到再生核 Hilbert 空间(RKHS)中的优化问题,从而揭示梯度下降如何通过隐式正则化选择泛化良好的解,并解释模型容量与测试误差之间的复杂非单调关系。
5.1.1 经典统计学习理论的局限性
经典的 Vapnik–Chervonenkis (VC) 维理论或 Rademacher 复杂度理论试图通过模型的容量(例如参数个数 $P$)来界定泛化误差 $E_{gen}$。这些理论通常得出以下结论:为了保证泛化,模型复杂度 $C$ 必须有上界,且 $C$ 必须小于数据量 $N$。
$$ E_{gen} \le E_{train} + \mathcal{O}\left(\sqrt{\frac{C \log(N/C)}{N}}\right) $$ 当 $P$ 远大于 $N$ 时,经典泛化界变得宽松且无意义,因为它预测 $E_{gen}$ 趋于无穷大,与经验观察(深度网络泛化良好)完全矛盾。
5.1.2 过参数化与零训练误差现象的必要条件
现代深度学习模型通常处于过参数化体制 ($P \gg N$)。在这种体制下:
- 零训练误差(Interpolation): 存在无穷多个参数 $\mathbf{\theta}$,使得 $f_\mathbf{\theta}(x_i) = y_i$ 对于所有训练样本成立。
- 选择问题: 优化算法(如梯度下降)必须从这个无限大的插值解集合中选择一个解 $f^*$。
深度学习的奥秘在于,优化算法选择的解 $f^*$ 具有出乎意料的良好泛化性能。这表明,优化过程本身(即梯度下降/梯度流)扮演了一种正则化器的角色。
5.1.3 经验上的“双下降”现象的结构
双下降曲线是连接经典理论(U型曲线)和现代现象的关键桥梁。测试误差 $E_{test}$ 随着模型复杂度 $C$(如宽度 $W$)的变化呈现以下三个阶段:
- 欠参数化区域 ($C < N$): $E_{train} > 0$. 模型容量不足,泛化误差随 $C$ 增加而下降。
- 插值阈值/临界区域 ($C \approx N$): $E_{train} \approx 0$. 测试误差达到峰值("Peak")。这是最危险的区域。
- 过参数化区域 ($C > N$): $E_{train} = 0$. 随着 $C$ 进一步增加,测试误差开始第二次下降,泛化性能持续改善。
Test Error
^
| Classic Region
| / \ Overparameterized Region
| / \ \
| / \ \
|-----*-------*------------*------> C (Model Capacity / P)
^ ^
| |
Min Max (Interpolation Threshold)
5.2 NTK 视角下的插值解与隐式正则化
在 NTK 极限下,深度网络训练被简化为核回归问题,这使得我们可以精确分析优化算法在插解空间中的选择偏好。
5.2.1 梯度流与最小 RKHS 范数解
在无限宽度 ($W \to \infty$)、小学习率 ($\eta \to 0$) 的设置下,网络的训练动态由梯度流给出,并且 NTK $\mathbf{\Theta}$ 保持不变。网络输出的变化可以写为: $$ \frac{d f(x, t)}{dt} = - \sum_{i=1}^N \Theta(x, x_i) (f(x_i, t) - y_i) $$ 对于平方损失,当 $t \to \infty$ 时,梯度流将收敛到一个插值解 $f^*$,即 $f^*(x_i) = y_i$.
根据变分原理,在所有满足插值条件的解 $f$ 中,梯度流选择的 $f^*$ 是唯一满足最小 RKHS 范数的解: $$ f^* = \arg \min_{f: f(x_i)=y_i \forall i} ||f||_{\mathcal{H}_\Theta}^2 $$ 其中,RKHS 范数 $||f||_{\mathcal{H}_\Theta}$ 是由 NTK $\Theta$ 定义的函数空间复杂度度量。这种优化动态对低范数解的偏好,就是 NTK 理论对隐式正则化的精确刻画。
5.2.2 核回归与零正则化极限
最小 RKHS 范数插值解 $f^*$ 可以通过核岭回归(KRR)的零正则化极来理解。KRR 的目标是: $$ \hat{f}_\lambda = \arg \min_f \left\{ \sum_{i=1}^N (f(x_i) - y_i)^2 + \lambda ||f||_{\mathcal{H}_\Theta}^2 \right\} $$ 其解在数据点上的表示为 $\mathbf{\alpha}_\lambda = (\mathbf{\Theta} + \lambda \mathbf{I})^{-1} \mathbf{y}$。
在无限训练时间 ($t \to \infty$) 和零正则化 ($\lambda \to 0$) 的极限下:
- 欠参数化区域 ($\mathbf{\Theta}$ 满秩): 解 $\mathbf{\alpha}$ 唯一。
- 过参数化区域 ($\mathbf{\Theta}$ 奇异或近似奇异): 当 $\lambda \to 0$ 时,核岭回归解收敛到 $\mathbf{\Theta}$ 的最小范数伪逆 $\mathbf{\Theta}^+$ 定义的解: $$ \mathbf{\alpha}^* = \mathbf{\Theta}^+ \mathbf{y} $$ 这个 $\mathbf{\alpha}^*$ 恰好是所有插值解中,范数 $\mathbf{\alpha}^\top \mathbf{\Theta} \mathbf{\alpha}$ 最小的那个。NTK 理论通过将深度学习动力学映射到 $\mathbf{\Theta}^+$,明确了网络在过参数化下的选择偏好。
5.2.3 NTK 矩阵的零空间与泛化
在过参化体制 $P > N$ 下,经验 NTK 矩阵 $\mathbf{\Theta} \in \mathbb{R}^{N \times N}$ 是由 $N$ 个数据点定义的。如果 $P$ 足够大(理论上 $W \to \infty$),$\mathbf{\Theta}$ 可以在函数空间中被视为低秩或近似低秩。
关键在于 $\mathbf{\Theta}$ 的零空间 (Null Space): $$ \text{Null}(\mathbf{\Theta}) = \{\mathbf{\alpha} \in \mathbb{R}^N : \mathbf{\Theta} \mathbf{\alpha} = \mathbf{0}\} $$ 零空间中的向量 $\mathbf{\alpha}_{null}$ 满足 $\mathbf{\Theta} \mathbf{\alpha}_{null} = \mathbf{0}$,这意味着将 $\mathbf{\alpha}_{null}$ 加到任何插值解 $\mathbf{\alpha}^*$ 上,新的解 $\mathbf{\alpha}^* + \mathbf{\alpha}_{null}$ 仍然满足插值条件,因为 $\mathbf{\Theta}(\mathbf{\alpha}^* + \mathbf{\alpha}_{null}) = \mathbf{y} + \mathbf{0} = \mathbf{y}$。
隐式正则化的作用是:梯度流选择的解 $\mathbf{\alpha}^*$ 必须正交于 $\mathbf{\Theta}$ 的零空间。这意味着它倾向于选择不包含那些“不影响训练差但可能导致测试误差恶化”的成分。
5.3 核回归的泛化分析与 NTK 谱偏置
5.3.1 RKHS 范数作为泛化指标
在 NTK 框架下,泛化误差 $E_{gen}$ 与最小 RKHS 范数解的复杂度密切相关。对于一个目标函数 $f_{true}$ 和有噪声的数据 $y_i = f_{true}(x_i) + \epsilon_i$,泛化误差可以近似分解为:
- 近似误差 (Bias): $||f_{true} - f_{proj}||_{\mathcal{L}_2}$,即目标函数与 RKHS 空间中最优近似的距离。
- 估计误差 (Variance): 来源于数据噪声 $\epsilon$,并受解的范数 $||f^*||_{\mathcal{H}_\Theta}^2$ 的控制。
$$ E_{gen} \approx E_{bias} + \mathcal{O}\left(\frac{||f^*||_{\mathcal{H}_\Theta}^2}{N}\right) $$ 为了获得良好的泛化,我们不仅需要 $f^*$ 接近 $f_{true}$ (低偏差),还需要 $f^*$ 具有小的 RKHS 范数 (低方差)。
5.3.2 NTK 的谱偏置 (Spectral Bias)
NTK 矩阵 $\mathbf{\Theta}$ 的特征值 $\lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_N$ 决定了网络在函数空间中的归纳偏置。
- 大特征值 对应的特征向量(通常是低频函数)是网络最容易学习的方向。
- 小特征值 对应的特征向量(通常是高频或振荡函数)是网络学习难度较高的方向。
梯度流的隐式正则化本质上是对特征值施加惩罚: $$ \mathbf{\alpha}^* = \sum_{i=1}^N \frac{u_i^\top \mathbf{y}}{\lambda_i} u_i $$ 其中 $u_i$ 是 $\mathbf{\Theta}$ 的特征向量。该式表明,如果 $\lambda_i$ 很小,即使输入信号 $u_i^\top \mathbf{y}$ 很小,系数 $\alpha_i$ 也会很大,导致 $f^*$ 剧烈震荡(高方差)。
谱衰减与泛化: 如果 NTK 的特征值衰减速度很快($\lambda_i$ 迅速趋近于 0),则意味着网络对高频噪声成分具有很强的抑制能力(低方差),是良好的归纳偏置。深度网络结构的优越性部分体现在其 NTK 能够产生有利于泛化的谱衰减模式。
5.3.3 有效维数与模型复杂度的重新定义
NTK 框架下的模型复杂度不再是 $P$,而是由 有效维数 $d_{eff}$ 决定,常定义为: $$ d_{eff}(\lambda) = \text{Tr}((\mathbf{\Theta} + \lambda \mathbf{I})^{-1} \mathbf{\Theta}) = \sum_{i=1}^N \frac{\lambda_i}{\lambda_i + \lambda} $$ 其中 $\lambda$ 是正则化强度。在隐式正则化极限 ($\lambda \to 0$),有效维数接近 $\text{Rank}(\mathbf{\Theta})$。泛化误差与有效维数和 RKHS 范数成正比。
5.4 双下降现象的 NTK 解释的深度分析
双下降现象是 RKHS 范数 $||f^*||_{\mathcal{H}_\Theta}$ 随着模型容量 $C$(通过 $N$ 阶矩阵 $\mathbf{\Theta}$ 的性质体现)变化的直接体现。
5.4.1 欠参数化区域 ($C < N$):经典下降
在这个区域,模型容量不足,无法完美拟合数据。训练误差 $E_{train}$ 和测试误差 $E_{test}$ 都由偏差(Bias)主导。随着 $C$ 增加,模型拟合能力增强,偏差下降,两者同步下降。NTK 矩阵 $\mathbf{\Theta}$ 通常是满秩且条件良好
5.4.2 插值阈值峰值 ($C \approx N$):条件数爆炸
当模型容量 $C$ 刚好达到插值能力时,NTK 矩阵 $\mathbf{\Theta}$ 接近 $N \times N$ 满秩,但往往病态 (Ill-conditioned)。这意味着:
- 唯一的解: 系统 $\mathbf{\Theta} \mathbf{\alpha} = \mathbf{y}$ 存在唯一解 $\mathbf{\alpha} = \mathbf{\Theta}^{-1} \mathbf{y}$。
- 噪声放大: 由于 $\mathbf{\Theta}$ 病态(条件数 $\kappa(\mathbf{\Theta}) = \lambda_{max}/\lambda_{min}$ 极大),其逆 $\mathbf{\Theta}^{-1}$ 对 $\mathbf{y}$ 中的微小噪声 $\mathbf{\epsilon}$ 极度敏感。即使 $E_{train} = 0$,解 $\mathbf{\alpha}$ 的范数也会被放大: $$ ||\mathbf{\alpha}|| \propto \kappa(\mathbf{\Theta}) \cdot ||\mathbf{\epsilon}|| $$ 这种对噪声的过拟合导致了 $f^*$ 的 RKHS 范数 $||f^*||_{\mathcal{H}_\Theta}$ 达到最大值,引发测试误差峰值。
5.4.3 过参数化区域 ($C > N$):最小范数选择
当 $C$ 超过 $N$ 以后,我们进入 $P \gg N$ 的体制。假设我们处理的是极限下的 $N \times N$ NTK 矩阵 $\mathbf{\Theta}$,虽然其秩可能仍为 $N$ (满秩),但由于 $P$ 巨大,我们现在关注的是 参数空间中的解的自由度。
在函数空间中,存在一个巨大的零空间 $\text{Null}(\mathbf{\Theta})$。梯度流的隐式正则化强制选择 $\mathbf{\alpha}^* = \mathbf{\Theta}^+ \mathbf{y}$,即最小范数伪逆解。
关键机制:
- 对高频噪声的鲁棒性: 伪逆 $\mathbf{\Theta}^+$ 自动忽略了 $\mathbf{\Theta}$ 谱中的最小特征值(最病态的方向)。这意味着最小范数解 $f^*$ 不会像峰值时那样被强制利用高频噪声分量进行插值。
- 范数收缩: 当 $C$ 继续增大,网络的内在结构(例如,更深的层和更宽的宽度)使得 NTK 的谱偏置更加强烈,有效维数更低,这使得最小 RKHS 范数 $||f^*||_{\mathcal{H}_\Theta}$ 再次下降。较低的范数意味着更平滑的函数和更好的泛化性能,从而实现测试误差的第二次下降。
NTK 解释图示:
RKHS Norm ||f*||^2
Test Error
^
|
| Peak (Noise Amplification)
| / \
| / \
|---*-----*----------------> (Second Descent: Norm Minimization)
| (Minimizing Error)
+---------------------------> Capacity C / P
(Under) (Threshold) (Over)
5.5 对深度学习实践的启示
5.5.1 宽度与深度的安全设计
NTK 理论提供了一个模型设计的基本原则:
- 宽度优先策略: 为了保证网络进入安全的过参数化区域并受益于隐式正则化,应优先增加模型宽度 $W$ 使其远大于 $N$。
- 避免临界区: 除非有强烈的显式正则化(如 dropout 或强 L2),否则应避免设计 $P \approx N$ 的模型。
5.5.2 正则化与模型选择
NTK 理论证实了正则化(无论是显式还是隐式)的核心作用是控制 RKHS 范数。
- L2 权重衰减 (显式): 在 NTK 极限下,这精确地对应于核岭回归中的 $\lambda$。它能通过限制范数来“削平”插值峰值,使训练更鲁棒。
- 早停 (Implicit): 训练时间 $T$ 充当了正则化参数。在 $T$ 较小时,解 $\mathbf{\alpha}(t)$ 类似于大 $\lambda$ 下的 KRR 解,范数较小。
5.5.3 评估归纳偏置:谱分析
对于给定任务和网络结构,如果需要评估其泛化潜力,可以进行经验 NTK 的谱分析:
- 计算经验 NTK $\hat{\mathbf{\Theta}}$: 在训练数据子集上计算 NTK 矩阵。
- 计算特征值 $\lambda_i$: 观察 $\lambda_i$ 的衰减速度。
- 推断偏置: 快速衰减意味着强谱偏置,偏向简单(低频)函数,更有利于泛化。结构调整(如加入残差连接或更换激活函数)如果加速了 $\lambda_i$ 的衰减,通常会提升泛化能力。
本章小结
| 概念 | 描述 | 分析工具 |
| 概念 | 描述 | 分析工具 |
|---|---|---|
| 泛化悖论 | 极度过参数化 ($P \gg N$) 仍良好泛化,挑战经典复杂度界限。 | RKHS 范数 $ |
| 隐式正则化 | 梯度流偏向选择最小 RKHS 范数的插值解。 | 最小范数伪逆 $\mathbf{\Theta}^+$ |
| 双下降 | 测试误差的非单调曲线,由两次下降组成。 | NTK 矩阵 $\mathbf{\Theta}$ 的条件数 |
| 插值峰值 | 发生在 $P \approx N$ 处。矩阵 $\mathbf{\Theta}$ 病态,解对噪声敏感,范数爆炸。 | $\kappa(\mathbf{\Theta}) = \lambda_{max}/\lambda_{min}$ 极大 |
| 第二次下降 | 发生在 $P \gg N$ 处。自由度高,梯度流选择低范数解,避免拟合噪声。 | $\mathbf{\alpha}^* = \mathbf{\Theta}^+ \mathbf{y}$ |
| 谱偏置 | NTK 特征值衰减速度决定了网络对不同频率函数的学习偏好。 | 特征值 $\lambda_i$ 衰减分析 |
练习题
基础题
5.1.1 RKHS 范数与正则项 请写出核岭回归 (KRR) 的优化目标函数,并指出其中的显式正则化项与 NTK 理论中的 RKHS 范数之间的关系。
提示
核岭回归在 RKHS 中的形式。
答案
KRR 优化目标:$L(\mathbf{\alpha}) = ||\mathbf{y} - \mathbf{\Theta} \mathbf{\alpha}||_2^2 + \lambda ||f||_{\mathcal{H}_\Theta}^2$。在 RKHS 中,正则化项 $||f||_{\mathcal{H}_\Theta}^2$ 可以写为 $\mathbf{\alpha}^\top \mathbf{\Theta} \mathbf{\alpha}$。因此,显式正则化项正是由 NTK $\mathbf{\Theta}$ 定义的函数范数。
5.1.2 最小范数解的性质 假设在 $P \gg N$ 的体制下,存在两个插值解 $f_1$ 和 $f_2$ 满足 $f_1(x_i)=y_i$ 和 $f_2(x_i)=y_i$。如果 $||f_1||_{\mathcal{H}_\Theta} < ||f_2||_{\mathcal{H}_\Theta}$,梯度下降(在 NTK 极限下)会收敛到哪个解?请简要解释。
提示
回顾隐式正则化的定义。
答案
梯度下降会收敛到 $f_1$。因为 NTK 极限下的梯度流动力学实现了隐式正则化,倾于选择在所有插值解中具有最小 RKHS 范数的解。
5.1.3 零空间与插值 在过参数化体制下,如果向量 $\mathbf{\alpha}_{null}$ 位于 NTK 矩阵 $\mathbf{\Theta}$ 的零空间内,即 $\mathbf{\Theta} \mathbf{\alpha}_{null} = \mathbf{0}$。如果 $f^*$ 是一个插值解,那么 $f^* + \sum_{i=1}^k \mathbf{\alpha}_{null, i}$ 还是一个插值解吗?为什么?
提示
检查新的解在训练数据点上的输出。
答案
是的,它仍然是插值解。因为 $\mathbf{\Theta} (\mathbf{\alpha}^* + \mathbf{\alpha}_{null}) = \mathbf{\Theta} \mathbf{\alpha}^* + \mathbf{\Theta} \mathbf{\alpha}_{null} = \mathbf{y} + \mathbf{0} = \mathbf{y}$。零空间中的分量不影响训练误差,但会影响 $f$ 的范数和泛化能力。
5.1.4 谱偏置与高低频 如果一个 NTK $\mathbf{\Theta}_A$ 的所有特征值在 $i > N/2$ 之后都迅速衰减到零,而另一个 NTK $\mathbf{\Theta}_B$ 的特征值衰减得非常缓慢。你认为哪个核对数据中的高频(噪声)信息更敏感?
提示
特征值大小与学习难度和对噪声的敏感度。
答案
NTK $\mathbf{\Theta}_B$ 对高频噪声信息更敏感。快速衰减(如 $\mathbf{\Theta}_A$)意味着网络无法有效地表示高频函数,因此具有强大的低频归纳偏置,对噪声鲁棒。慢衰减(如 $\mathbf{\Theta}_B$)意味着高频成分仍然与相对较大的特征值相关联,梯度下降在插值时更容易被噪声利用。
挑战题
5.1.5 双下降峰值的消除 设计一个思想实验:如果训练数据 $\mathbf{y}$ 是完全无噪声的(即 $\mathbf{y} = f_{true}(\mathbf{x})$),你预期双下降的峰值还会出现吗?请用 NTK 矩阵的条件数和噪声放大的观点来解释。
提示
峰值是由噪声放大导致的。如果噪声为零公式 $\mathbf{\alpha} = \mathbf{\Theta}^{-1} \mathbf{y}$ 是否仍会导致范数剧增?
答案
如果数据完全无噪声,理论上双下降的峰值可能会消失或显著减小。峰值的产生是由于临界点 $\mathbf{\Theta}$ 的病态性放大了数据中的随机噪声 $\mathbf{\epsilon}$。如果 $\mathbf{\epsilon} = 0$,虽然 $\mathbf{\Theta}$ 仍然病态,但解 $\mathbf{\alpha} = \mathbf{\Theta}^{-1} \mathbf{y}$ 的范数可能不会像噪声存在时那样剧烈增大,因为 $\mathbf{y}$ 本身可能落在 $\mathbf{\Theta}$ 的特征空间中偏向大特征值的方向。换句话说,无噪声目标函数 $f_{true}$ 本身的 RKHS 范数可能很小,从而避免了峰值。
5.1.6 过参数化与特征学习的衔接(开放性) 在有限宽度的真实网络中,双下降现象依然存在,但此时网络会发生特征学习(NTK $\mathbf{\Theta}$ 随时间变化)。请讨论 NTK 理论提供的“最小范”解释,如何与特征学习体制下模型的隐式偏置进行衔接或差异分析。
提示
考虑特征学习体制下,优化器(SGD)会倾向于最小化哪个范数?
答案
在特征学习体制下,网络的目标函数 $f$ 不仅受限于 RKHS 范数,还受限于参数空间中的权重范数 $||\mathbf{\theta}||$. 梯度下降(特别是 SGD)在过参数化下倾向于最小化权重范数 $||\mathbf{\theta}||$. 衔接: 这两种正则化是相关的。许多理论研究表明,对于某些网络,最小权重范数解在一定程度上也对应于函数空间中的平滑解。因此,NTK 的最小 RKHS 范数解释提供了核心机制(即在插值解空间中选择最简单的解),而特征学习只是改变了“简单”的定义(从 RKHS 范数到权重范数或 $\mu$P 理论定义的范数)。 差异: 在特征学习体制下,网络可以通过调整 $\mathbf{\Theta}$ 本来更好地匹配数据,而非仅仅使用固定的 $\mathbf{\Theta}$。
常见陷阱与错误 (Gotchas)
-
误解 NTK 矩阵的维度: * 错误认识: “NTK 矩阵 $\mathbf{\Theta}$ 的维度是 $P \times P$(参数数量)。” * NTK 视角: 虽然 NTK 定义涉及 $P$ 维梯度向量的内积,但应用于训练动态的经验 NTK 矩阵是 $N \times N$ 维(数据点数量)。$P$ 的影响是通过确定 $N \times N$ 矩阵 $\mathbf{\Theta}$ 的性质(如特征谱和零空间)体现的。
-
混淆训练时间和模型容量的双下降: * 错误认识: “双下降曲线只与模型容量有关。” * NTK 视角: 双下降可以发生在两个维度上:模型容量(如宽度 $W$)和训练时间/迭代次数。基于时间的双下降可以通过早停来避免,而基于容量的双下降是结构性的,由 NTK 矩阵的谱结构决定。
-
过度依赖 NTK 预测双下降的精确位置: * 错误认识: “根据数据量 $N$,我精确知道双下降峰值会发生在 $P=N$。” * NTK 视角: $P \approx N$ 只是一个粗略的指标。在实际深度网络中,由于有限宽度效应、激活函数的非线性、以及模型实际的有效秩,峰值的位置 $P_{critical}$ 可能会偏移,并且取决于数据内在维度、噪声水平和结构。NTK 提供了定性而非精确的定量预测。
-
忽视噪声在峰值中的作用: * 错误认识: “峰值只是模型复杂度太高导致的。” * NTK 视角: 峰值是病态的矩阵 $\mathbf{\Theta}$ 与数据噪声 $\mathbf{\epsilon}$ 共同作用的结果。如果数据无噪声,峰值会消失。因此,噪声水平越高,插值峰值会越尖锐、越高。