第 7 章 有限宽度效应与超出 NTK 的现象(chapter7.md

开篇段落

神经切线核(NTK)理论是分析深度学习优化和泛化能力的强大工具,但它建立在两个理想化支柱之上:无限宽度 ($W \to \infty$) 和无限小学习率(梯度流)。本章旨在拆解这些假设,考察实际的有限宽度离散大步长训练如何改变网络动力学。我们将深入分析有限宽度网络(Finite-Width Networks)引入的随机性,并探讨更重要的现象:特征学习(Feature Learning)。特征学习是网络主动改变其特征表示的能力,它使现代深度网络超越了经典核方法的限制,也标志着 NTK 理论适用边界的终结。


7.1 有限宽度下 NTK 的随机波动与集中现象

7.1.1 经验 NTK 的统计学特性

对于有限宽度的网络 $W$,经验 NTK $\Theta^W(x, x') = \nabla_{\theta} f_{\theta_0}(x)^\top \nabla_{\theta} f_{\theta_0}(x')$ 是一个随机变量,依赖于随初始化 $\theta_0$。

根据强大的核集中现象(Kernel Concentration Phenomenon),当 $W$ 足够大时,经验 NTK 会以高概率集中在其确定的极限 $\Theta^\infty$ 附近。这种集中程度通常由 $O(1/\sqrt{W})$ 尺度控制。

$$ \text{Prob}\left[ \sup_{x, x'} |\Theta^W(x, x') - \Theta^\infty(x, x')| > \epsilon \right] \to 0, \quad \text{随着 } W \to \infty $$

实际影响:

  1. 随机性对优化路径的影响: 有限宽度的随机性使得每次初始化后的优化路径略有不同。在超参数空间中,这种随机性可以被视为一种隐式的微小扰动,有助于逃离浅局部极小值。
  2. 对特征谱的影响: 经验 NTK 矩阵 $\mathbf{\Theta}^W$ 的特征值和特征向量也围绕 $\mathbf{\Theta}^\infty$ 的谱进行随机波动。这种波动可能会影响梯度流的收敛速度,特别是对于那些特征值接近零的模式。

7.1.2 宽度有限时 NTK 随训练的确定性变化

即便我们假设学习率极小,训练步长无穷小(即梯度流),有限宽度网络仍然无法完全保持 NTK 冻结。

在 $W \to \infty$ 极限下,参数更新 $\Delta \theta$ 对 NTK 的影响是零: $$ \lim_{W \to \infty} \frac{d}{dt} \Theta(\theta(t)) = 0 $$

然而,对于有限 $W$,NTK 的变化率是非零的。如果采用 NTK parameterization,使得 $\Theta(\theta_0) \sim O(1)$ 且 $\theta_0 \sim O(1)$,那么可以分析梯度特征映射的变化:

$$ \Theta(\theta(t)) = \Theta(\theta_0) + \frac{d\Theta}{dt} t + O(t^2) $$

关键的洞察是,NTK 的变化 $\frac{d}{dt} \Theta$ 依赖于参数更新 $\Delta \theta = -\eta \nabla_\theta \mathcal{L}$,其相对尺度与 $1/W$ 成正比。

$$\frac{d}{dt} \Theta \sim O\left(\frac{1}{W}\right)$$ 几何解释: 在 $W \to \infty$ 时,参数空间中的函数流形(Manifold)是“平坦”的,训练轨迹保持在初始切平面上。当 $W$ 有限时,函数流形具有微小的曲率,训练过程会使得网络稍微偏离切平面其偏离程度由 $1/W$ 决定。

7.1.3 $W$ 有限下的隐式正则化效应

有限宽度不仅引入了随机波动,还可能作为一种隐式正则化

  1. RKHS 范数的最小化: 在 NTK regime,训练过程找到最小化 $\mathcal{L}$ 的同时最小化 $\mathcal{R}(\theta - \theta_0) = \frac{1}{2} |\theta - \theta_0|^2$ 的解。这对应于最小化 RKHS 范数的插值解。
  2. 有限宽度对解的选择: 当 $W$ 有限时,梯度流不再完美地遵循纯粹的 RKHS 范数最小化。$O(1/W)$ 的变化可能会导致训练动力学倾向于某些特定的低复杂度解,这可能在泛化上优于标准的 NTK 解。这是一种微弱的特征学习偏置,即使在惰性区域也能发挥作用。

7.2 特征学习动力学与线性化失效

7.2.1 惰性训练与特征学习机制的正式区分

我们考察网络输出 $f_{\theta}(x)$ 随训练时间 $t$ 的演化。

  1. 惰性训练机制 (Lazy Regime): 参数更新 $\Delta \theta$ 必须足够小,使得网络行为完全由初始化时的梯度决定。 $$ f_{\theta(t)}(x) - f_{\theta_0}(x) = \nabla_{\theta} f_{\theta_0}(x)^\top (\theta(t) - \theta_0) + \text{Remainder} $$ 在 Lazy Regime 中,我们要求 Remainder 项相对于线性项是可忽略的,即: $$ |\text{Remainder}| \ll |\nabla_{\theta} f_{\theta_0}(x)^\top (\theta(t) - \theta_0)| $$ 这要求参数的移动距离 $|\theta(t) - \theta_0|$ 在 $W \to \infty$ 时趋近于零,例如 $O(1/\sqrt{W})$ 或 $O(1/W)$。

  2. 特征学习机制 (Feature Learning Regime): 当参数移动距离足够大,以至于 Remainder 项(即梯度特征图的变化引起的项)与线性项具有相同的量级,甚至支配线性项时,网络进入特征学习机制。 $$|\text{Remainder}| \sim O(|\text{Linear Term}|)$$ 此时,梯度 $\nabla_{\theta} f_{\theta}(x)$ 随着训练显著改变,网络有效地重新定义了特征空间。

7.2.2 切线核演化 (Tangent Kernel Evolution, TKE)

为定量描述特征学习,我们关注 NTK 矩阵 $\Theta(\theta(t))$ 的演化。

特征学习的本质是网络改变了其 RKHS。如果 $\Theta(t)$ 随时间变化显著,则网络正在学习特征。

导致特征学习的因素:

  1. 参数化: 使用 Standard Parameterization (梯度幅度 $O(\sqrt{W})$) 结合 $O(1)$ 学习率,会导致参数的相对移动 $O(1)$,显著激活 TKE。
  2. 学习任务: 解决需要低层特征提取的任务(如图像分类)通常需要强大的特征学习。

TKE 的分析: TKE 可以通过分析 $\frac{d\Theta}{dt}$ 随时间的演化来实现。这涉及到泰勒展开的二阶和高阶项,将梯度流方程转化为描述 $\Theta(t)$ 演化的非线性积分微分方程,这远比 NTK 理论中的线性 ODE 复杂。

7.2.3 非线性与损失函数曲率的关联

NTK 理论通过线性化将损失函数近似为二次形式。 $$ \mathcal{L}(\theta) \approx \mathcal{L}(\theta_0) + \nabla_\theta \mathcal{L}(\theta_0)^\top (\theta - \theta_0) + \frac{1}{2} (\theta - \theta_0)^\top \mathbf{H}(\theta_0) (\theta - \theta_0) $$ 其中 Hessian 矩阵 $\mathbf{H}(\theta_0)$ 在 NTK regime 下被近似为 Gram 矩阵 $\mathbf{\Theta}_0$。

在特征学习 regime 中,这种近似失效。Hessian 矩阵的非线性项(与特征变化相关的项)变得重要。这意味着:

  1. 更平坦的极小值: 特征学习可能导向更平坦、泛化能力更强的损失函数极小值,这是 NTK 理论难以解释的。
  2. 更复杂的动力学: 训练轨迹不再是简单的线性路径,可能包含快速的“弯曲”和“跳转”,以便在函数空间中找到更优的特征表示。

Rule-of-Thumb 7.2 (特征学习与泛化): 如果网络在训练结束后,泛化性能显著优于使用其初始 NTK 训练的核回归解,则网络必然进行了有效的特征学习。这一差距是衡量网络“脱离惰性”程度的关键指标。


7.3 学习率、训练时间与非线性效应

7.3.1 NTK 时间尺度与临界学习率的精确定义

为了正式区分 Lazy Regime 和 Feature Learning Regime,我们需要引入时间尺度的概念。

设 $R$ 为参数更新的 $L_2$ 范数。惰性训练要求 $R$ 足够小,以便泰勒展开有效。我们关注两个时间尺度:

  1. 优化时间尺度 ($T_{\text{opt}}$): 达到零训练误差所需的总训练时间。
  2. NTK 特征学习时间尺度 ($T_{\text{NTK}}$): 特征核 $\Theta(t)$ 发生 $O(1)$ 变化所需的时间。

惰性条件: 只有当 $T_{\text{opt}} \ll T_{\text{NTK}}$ 时,NTK 近似才成立。

在标准参数化下,可以推导出: $$ T_{\text{NTK}} \propto \frac{W}{\eta} $$ 其中 $\eta$ 是学习率。

临界学习率的推导: 假设达到零误差所需的总更新次数 $T_{\text{steps}}$ 是固定的。那么 $T_{\text{opt}} \approx \eta T_{\text{steps}}$。 若要保持惰性,我们需要 $T_{\text{opt}} \ll T_{\text{NTK}}$,即 $\eta T_{\text{steps}} \ll W/\eta$。 这给出学习率的限制: $$\eta \ll \sqrt{\frac{W}{T_{\text{steps}}}} \approx O(\sqrt{W})$$ 如果 $\eta$ 超过这个 $O(\sqrt{W})$ 尺度,网络将进入特征学习 regime。

这为实践提供了指导:在超宽网络中,我们可以适度增大 $\eta$ (与 $\sqrt{W}$ 成比例) 来加速训练,同时仍保持在 NTK 区域。

7.3.2 离散大步长 SGD 的影响

现实中,我们使用离散的 SGD,而非梯度流。使用大步长(Large Learning Rate)带来的效应远超 NTK 理论的预测。

  1. 跳跃行为: 大 $\eta$ 使得参数在单步内跳过许多低曲率区域,可能直接进入深层特征学习所需的损失函数峡谷。
  2. 正则化: SGD 的随机性与大 $\eta$ 结合,提供了强大的随机正则化,有助于找到平坦极小值,这与 NTK 倾向于最小范数解(可能对应尖锐极小值)的结论形成对比。
  3. 非线性激活: 大 $\eta$ 意味着网络在训练早期即显著改变其参数。这激活了激活函数(如 ReLU)的非线性区域,使得隐藏层的输出分布发生根本性变化,从而改变特征表示。

7.4 参数化方式与宽度极限的细致分析

参数化方式(Parameterization)是决定 $W \to \infty$ 极限行为的控制杆。

7.4.1 Standard Parameterization 与 Mean-Field 极限

在标准参数化中,权重 $\mathbf{W}^{(l)}$ 和偏置 $\mathbf{b}^{(l)}$ 的方差均设置为 $O(1)$。

  • 函数值尺度: 初始函数输出 $f_{\theta_0}(x) \sim O(1)$。
  • 梯度尺度: 梯度范数 $|\nabla_\theta f_{\theta_0}(x)|$ 随宽度增长,通常为 $O(\sqrt{W})$。
  • 训练动态: 由于 $\nabla f \sim O(\sqrt{W})$,对于 $O(1)$ 尺度的学习率 $\eta$,参数更新 $\Delta \theta = -\eta \nabla \mathcal{L}$ 也是 $O(\sqrt{W})$。这导致参数相对移动显著 ($|\Delta \theta| / |\theta_0| \sim O(1)$),NTK 随时间剧烈变化。

这种极限导向Mean-Field 理论。Mean-Field 理论将每个经元视为一个粒子,关注其概率密度演化,它捕捉了网络作为一个整体的特征学习能力。

7.4.2 NTK Parameterization (Lazy Regime)

NTK Param 旨在通过缩放,抑制梯度尺度的增长,从而冻结 NTK。

  • 缩放: 权重方差 $\sigma_w^2 \propto 1/W$ (如 $\mathbf{W}^{(l)}_{ij} \sim \mathcal{N}(0, 1/W)$)。
  • 结果: 梯度范数 $|\nabla_\theta f_{\theta_0}(x)| \sim O(1)$。初始 NTK 矩阵 $\Theta(\theta_0) \sim O(1)$。
  • 动态: 如果使用 $O(1)$ 的学习率,参数更新 $\Delta \theta$ 也是 $O(1)$。但由于 $\theta_0$ 也是 $O(1)$,我们需要额外调整学习率,使得 $\eta \to 0$ 且 $\eta W \to \infty$ (例如 $\eta \sim O(1/W)$)才能保持严格的惰性。在 $W \to \infty$ 时,$\Theta(t)$ 冻结。

7.4.3 $\mu$-Parameterization ($\mu$P) 与最大化更新

$\mu$P 是一种精心设计的参数化,由 Yang 和 Hu (2020) 提出,旨在统一 Mean-Field 和 NTK 极限。它允许网络在 $W \to \infty$ 时,既保持 $O(1)$ 的函数值 $f_{\theta_0}(x)$,又能够进行 $O(1)$ 尺度的特征学习。

关键思想: $\mu$P 识别出网络中对梯度流贡献最大的部分(通常是最后一层或残差连接),并对其进行缩放,以确保其更新幅度不随 $W$ 消失。

| 缩放目标 | 描述 | $\mu$P 缩放举例 (MLP) |

缩放目标 描述 $\mu$P 缩放举例 (MLP)
函数值 $f$ 确保 $f_{\theta_0}(x) \sim O(1)$ 最后一层权重 $W^{(L)}$ 保持 $O(1)$
梯度 $\nabla f$ 确保 $\nabla f$ 的更新幅度 $O(1)$ 隐藏层权重 $W^{(l<L)}$ 保持 $O(1/\sqrt{W})$

通过这种混合缩放,$\mu$P 使得:

  1. 信号传播稳定: 确保前向和后向传播中的信号方差保持 $O(1)$。
  2. 特征学习保持: 允许隐藏层神经元进行 $O(1)$ 尺度的独立更新,从而保持特征学习的能力,即便在 $W \to \infty$ 极限下也是如此。

实践意义: $\mu$P 理论认为,只有采用正确的参数化,我们才能正实现超宽网络的潜力,并观察到与有限网络相似的优化和泛化行为。


7.5 与其它理论的衔接

7.5.1 Mean-field 极限与特征学习

Mean-field (MF) 理论提供了一种分析强特征学习 regime 的数学框架。它关注于神经元分布 $P_t(\theta)$ 随时间的演化。

核心方程: 经验分布 $P_W(t) = \frac{1}{W} \sum_{i=1}^W \delta(\theta_i(t))$ 在 $W \to \infty$ 时收敛到概率密度 $P_t(\theta)$,该密度遵循一个非线性的偏微分方程(如 Vlasov 方程或 Fokker-Planck 方程)。 $$ \frac{\partial P_t(\theta)}{\partial t} = \nabla_\theta \cdot \left[ P_t(\theta) \nabla_\theta \mathcal{L}(P_t) \right] $$

  • 与 NTK 的区别: NTK 关注单个函数的演化 $f_{\theta(t)}$,将其线性化。MF 关注整个神经元群体的统计行为。MF 极限允许特征学习,因为参数分布 $P_t(\theta)$ 本身是随时间变化的。
  • 衔接: NTK 动力学可以被视为 MF 动力学的线性化形,即当 $\nabla_\theta \mathcal{L}(P_t)$ 可以被近似为 $\nabla_\theta \mathcal{L}(P_0)$ 时。

7.5.2 动态特征学习与高阶 NTK

为了更精确地捕捉脱离惰性训练的动力学,研究人员提出了高阶 NTK 理论

标准的 NTK 是基于一阶泰勒展开。如果我们将函数 $f_\theta$ 的泰勒展开扩展到二阶: $$ f_{\theta}(x) = f_{\theta_0}(x) + \nabla f_0 \cdot \Delta \theta + \frac{1}{2} (\Delta \theta)^\top \mathbf{H}_0 \Delta \theta + \dots $$

梯度流方程的解将不再是一个简单的线性 ODE。高阶项引入了非线性动力学,这些项恰好描述了特征映射 $\nabla f_\theta$ 本身如何随着 $\Delta \theta$ 而变化。

二阶效应的物理意义: 二阶项(Hessian $\mathbf{H}_0$)描述了函数流形 $f_\theta$ 的曲率。当训练轨迹沿着曲率方向移动时,NTK 矩阵 $\Theta(t)$ 将发生显著变化,网络学习新特征。这些高阶项构成了从惰性训练到强特征学习的桥梁。

7.5.3 稀疏性与 Lottery Ticket Hypothesis (LTH)

有限宽度和特征学习的另一个重要联系是稀疏性

LTH 提出大型网络包含一些“中奖彩票”(Winning Tickets),这些子网络如果以原始权重初始化并独立训练,可以达到与原始网络相当的性能。

  • NTK 视角: NTK 理论隐含地假设所有参数都平等贡献。在惰性区域,所有参数都以相对较小的量进行更新。
  • 特征学习视角: 在特征学习 regime,网络会选择性地更新并放大那些对任务最重要的“中奖”参数,使得有效网络变得稀疏。这种选择性更新,即参数的非均匀变化,是脱离 NTK 惰性的一个重要标志。

本章小结

| 概念 | 描述 | 与 $W$ 的关系 |

概念 描述 与 $W$ 的关系
经验 NTK 波动 随机初始化导致 NTK 矩阵围绕极限值波动。 $O(1/\sqrt{W})$
NTK 演化速度 NTK 矩阵随训练时间发生的确定性变化。 $O(1/W)$
惰性练条件 优化时间 $T_{\text{opt}}$ 远小于特征学习时间 $T_{\text{NTK}}$。 $T_{\text{opt}} \ll W/\eta$
特征学习机制 训练轨迹显著偏离初始切平面,梯度特征图发生 $O(1)$ 变化。 在 Standard Param 或 $\mu$P 且 $W \to \infty$ 时可发生。
NTK Parameterization 缩放参数以实现 $W \to \infty$ 惰性极限。 $\sigma_w^2 \propto 1/W$
$\mu$-Parameterization ($\mu$P) 混合缩放以实现 $W \to \infty$ 强特征学习极限。 保证 $f_{\theta_0} \sim O(1)$ 且 $\Delta f \sim O(1)$
Mean-Field 理论 描述强特征学习下参数经验分布的演化。 $W \to \infty$ 时的非线性动力学。

练习题

基础题

7.6.1 区分波动与演化 在有限宽度 $W$ 的网络中,NTK 存在两种变化:随机波动和随时间演化。请说明这两种变化的 $W$ 依赖关系,并解释哪一种变化更容易被观测到(假设 $W$ 很大)。

Hint: 比较 $O(1/\sqrt{W})$ $O(1/W)$ 的大小。 答案 (折叠): 随机波动尺度为 $O(1/\sqrt{W})$,随时间演化的尺度为 $O(1/W)$。对于很大的 $W$, $1/\sqrt{W}$ 远大于 $1/W$。因此,初始化的随机波动更容易被观测到。

7.6.2 $\mu$P 的目标 $\mu$P 在其缩放设计中,试图确保初始函数值 $f_{\theta_0}(x)$ 和训练中的函数值变化 $\Delta f$ 都保持 $O(1)$ 尺度。请解释为什么 NTK Parameterization 无法同时满足这两个条件。

Hint: NTK Param 强制 $\nabla f \sim O(1)$。如果 $\Delta \theta \sim O(1/W)$(梯度流下的移动),那么 $\Delta f$ 的尺度是多少? 答案 (折叠): 在 NTK Param 下,若要保持惰性,参数移动 $\Delta \theta \sim O(1/W)$。由于 $f_{\theta_0} \sim O(1/\sqrt{W})$ 或 $O(0)$ 且 $\nabla f \sim O(1)$,那么 $\Delta f \approx \nabla f \cdot \Delta \theta \sim O(1/W)$。因此,NTK Param 导致函数值的变化在 $W \to \infty$ 时消失,不满足 $\Delta f \sim O(1)$ 的特征学习求。

7.6.3 识别特征学习 你在训练一个宽度 $W=5000$ 的网络,并计算了初始 NTK 矩阵 $\mathbf{\Theta}(0)$ 和训练 100 轮后的 NTK 矩阵 $\mathbf{\Theta}(100)$。如果 $|\mathbf{\Theta}(100) - \mathbf{\Theta}(0)| / |\mathbf{\Theta}(0)| \approx 0.3$(30% 的相对变化),你将如何定性判断网络所处的训练机制?

Hint: 比较 30% 这个 $O(1)$ 的变化幅度与惰性训练预测的 $O(1/W)$ 变化幅度。 答案 (折叠): 相对变化为 30% 是一个 $O(1)$ 尺度的变化。如果网络处于严格的惰性训练,变化幅度应为 $O(1/W) = 1/5000 = 0.0002$(0.02%)。30% 的变化强烈表明网络已经脱离了惰性区域,进入了强大的特征学习机制。

挑战题与开放性思考

7.6.4 深度对 NTK 惰性的影响 对于深度 $L$ 的网络,在保持 $W$ 不变的情况下,深度 $L$ 的增加通常被认为有助于特征学习。请从梯度传播和激活函数非线性激活的角度,解释为么深度的增加会加速网络脱离 NTK 惰性。

Hint: 深度增加了复合非线性操作的数量。如果梯度传播在深层网络中表现出乘积效应(而非求和效应),会如何? 答案 (折叠): 深度增加了非线性操作的复杂性。在浅层网络中,非线性效应可能被初始化权重稀释。但在深层网络中,即使参数的微小变化,也可能通过多层非线性的累积效应被放大。这使得梯度特征映射 $\nabla f_\theta$ 对 $\theta$ 的敏感度更高,从而更容易激活特征学习,使网络偏离其初始化切平面。

7.6.5 动态 NTK 的挑战 如果你希望建立一个“动态 NTK”理论,用微分方程描述 $\Theta(t)$ 的演化。请说明,与标准 NTK 理论的线性 ODE 相比,这个描述 $\Theta(t)$ 的方程将包含哪些额外的复杂性(即方程的数学性质会发生什么变化)?

Hint: 梯度流方程是 $\frac{d f}{dt} = - \Theta(t) f$。如果 $\Theta(t)$ 随 $f$ 变,则方程不再是线性的。 答案 (折叠): 动态 NTK 理论的挑战在于 $\Theta(t)$ 本身是函数 $f$(通过 $\theta(t)$)的函数。因此,描述 $\frac{d\Theta}{dt}$ 的方程将是非线性耦合的。它将不再是一个简单的线性微分方程系统。这使得闭式解几乎不可能,必须采用平均场理论或高阶泰勒展开等方法进行近似分析。

7.6.6 $\mu$P 理论对 NTK 理论的评价 从 $\mu$P 理论支持者的角度来看,NTK 理论的主要缺陷是什么?请用一句话总结 $\mu$P 如何“修复”这个缺陷。

Hint: 缺陷在于 NTK 强制网络在 $W \to \infty$ 时保持惰性,这与实际观察到的深层网络表现相悖。 答案 (折叠): NTK 理论的主要缺陷在于其参数化选择(NTK Param)导致在无限宽度极限下,网络丧失了学习特征的能力,成为一个“惰性”的核机器。$\mu$P 通过精巧的缩放,确保了在 $W \to \infty$ 时,网络能够保持 $O(1)$ 的特征学习能力,从而导向一个更真实的极限行为。

7.6.7 开放性思考:核方法与深网的泛化差距 为什么在实践中,尽管 NTK 理论预测核方法具有强大的泛化能力,但一个经过特征学习的深层网络在复杂任务(如 ImageNet)上仍然能够显著超越其 NTK 对应物?请讨论特征学习提供的具体优势。

Hint: 考虑数据固有的结构(如局部性、层次性)和核函数如何捕捉这些结构。 答案 (折叠): NTK 只是一个初始化核,它固化了网络在初始化时对特征空间的偏好。对于复杂数据集,这种初始化偏好通常不足以捕捉数据所有的层次结构(如图像的局部性、语义级别)。特征学习允许网络学习出数据依赖任务依赖的特征表示。这种自适应性,特别是学习低维有效特征空间的能力,是纯粹的初始化核方法无法提供的。


常见陷阱与错误 (Gotchas)

G7.5 误解惰性训练下的解一定是劣解

  • 错误认知: 既然 NTK 只是线性近似,它找到的解一定不如特征学习找到的解。
  • 真相: 不一定。在许多情况下(尤其是过参数化程度极高,数据量相对较小或数据噪声较低时),NTK 解(最小 RKHS 范数解)本身就具有很好的泛化能力。NTK 的优势在于稳定性可预测性。特征学习可能找到一个更好的解,但也可能导致过拟合或更不稳定的优化路径。

G7.6 忽略初始化缩放与学习率的相互作用

  • 错误认知: 我只需要使用小学习率,就能进入 NTK regime。
  • 真相: 学习率 $\eta$ 必须与宽度 $W$ 和参数化方式协同缩放。如果你使用 Standard Parameterization,即使 $\eta=0.01$,由于梯度 $\nabla f \sim O(\sqrt{W})$,参数的相对移动可能仍然很大,导致强特征学习。要进入严格的 NTK regime,你必须确保 $\eta \cdot |\nabla f|$ 相对于 $|\theta_0|$ 是可忽略的。

G7.7 经验 NTK 矩阵的计算陷阱

  • 问题: 许多 NTK 库计算的是理论极限 $\Theta^\infty$。如果你想验证特征学习,你需要计算经验 NTK $\Theta^W(t)$。
  • 调试技巧: 计算经验 NTK 必须使用当前参数 $\theta(t)$ 的梯度内积 $\nabla_\theta f_{\theta(t)} \cdot \nabla_\theta f_{\theta(t)}^\top$。为了判断特征学习是否发生,需要将 $\Theta^W(t)$ 与 $\Theta^W(0)$ 进行矩阵范数比较(如 Frobenius 范数)。如果相对变化远大于 $O(1/W)$,则确认发生了特征学习。

G7.8 Mean-Field 理论的适用性限制

  • 错误认知: Mean-Field 理论可以解释所有现实中的特征学习现象。
  • 真相: Mean-Field 理论通常要求 $W$ 很大,并且参数更新是独立且同分布的。它在深度增加时,尤其是在存在残差连接或复杂注意力机制时,变得极难分析,并且通常忽略了神经元之间的强依赖关系。它是 NTK 理论的一个重要补充,但并非深度学习动态的完整描述。