第 7 章有限宽度效应与超出 NTK 的现象（`chapter7.md`）

开篇段落

神经切线核（NTK）理论是分析深度学习优化和泛化能力的强大工具，但它建立在两个理想化支柱之上：无限宽度 ($W \to \infty$) 和无限小学习率（梯度流）。本章旨在拆解这些假设，考察实际的有限宽度和离散大步长训练如何改变网络动力学。我们将深入分析有限宽度网络（Finite-Width Networks）引入的随机性，并探讨更重要的现象：特征学习（Feature Learning）。特征学习是网络主动改变其特征表示的能力，它使现代深度网络超越了经典核方法的限制，也标志着 NTK 理论适用边界的终结。

7.1 有限宽度下 NTK 的随机波动与集中现象

7.1.1 经验 NTK 的统计学特性

对于有限宽度的网络 $W$，经验 NTK $\Theta^W(x, x') = \nabla_{\theta} f_{\theta_0}(x)^\top \nabla_{\theta} f_{\theta_0}(x')$ 是一个随机变量，依赖于随初始化 $\theta_0$。

根据强大的核集中现象（Kernel Concentration Phenomenon），当 $W$ 足够大时，经验 NTK 会以高概率集中在其确定的极限 $\Theta^\infty$ 附近。这种集中程度通常由 $O(1/\sqrt{W})$ 尺度控制。

$$ \text{Prob}\left[ \sup_{x, x'} |\Theta^W(x, x') - \Theta^\infty(x, x')| > \epsilon \right] \to 0, \quad \text{随着 } W \to \infty $$

实际影响：

随机性对优化路径的影响： 有限宽度的随机性使得每次初始化后的优化路径略有不同。在超参数空间中，这种随机性可以被视为一种隐式的微小扰动，有助于逃离浅局部极小值。
对特征谱的影响： 经验 NTK 矩阵 $\mathbf{\Theta}^W$ 的特征值和特征向量也围绕 $\mathbf{\Theta}^\infty$ 的谱进行随机波动。这种波动可能会影响梯度流的收敛速度，特别是对于那些特征值接近零的模式。

7.1.2 宽度有限时 NTK 随训练的确定性变化

即便我们假设学习率极小，训练步长无穷小（即梯度流），有限宽度网络仍然无法完全保持 NTK 冻结。

在 $W \to \infty$ 极限下，参数更新 $\Delta \theta$ 对 NTK 的影响是零： $$ \lim_{W \to \infty} \frac{d}{dt} \Theta(\theta(t)) = 0 $$

然而，对于有限 $W$，NTK 的变化率是非零的。如果采用 NTK parameterization，使得 $\Theta(\theta_0) \sim O(1)$ 且 $\theta_0 \sim O(1)$，那么可以分析梯度特征映射的变化：

$$ \Theta(\theta(t)) = \Theta(\theta_0) + \frac{d\Theta}{dt} t + O(t^2) $$

关键的洞察是，NTK 的变化 $\frac{d}{dt} \Theta$ 依赖于参数更新 $\Delta \theta = -\eta \nabla_\theta \mathcal{L}$，其相对尺度与 $1/W$ 成正比。

$$\frac{d}{dt} \Theta \sim O\left(\frac{1}{W}\right)$$ 几何解释： 在 $W \to \infty$ 时，参数空间中的函数流形（Manifold）是“平坦”的，训练轨迹保持在初始切平面上。当 $W$ 有限时，函数流形具有微小的曲率，训练过程会使得网络稍微偏离切平面其偏离程度由 $1/W$ 决定。

7.1.3 $W$ 有限下的隐式正则化效应

有限宽度不仅引入了随机波动，还可能作为一种隐式正则化。

RKHS 范数的最小化： 在 NTK regime，训练过程找到最小化 $\mathcal{L}$ 的同时最小化 $\mathcal{R}(\theta - \theta_0) = \frac{1}{2} |\theta - \theta_0|^2$ 的解。这对应于最小化 RKHS 范数的插值解。
有限宽度对解的选择： 当 $W$ 有限时，梯度流不再完美地遵循纯粹的 RKHS 范数最小化。$O(1/W)$ 的变化可能会导致训练动力学倾向于某些特定的低复杂度解，这可能在泛化上优于标准的 NTK 解。这是一种微弱的特征学习偏置，即使在惰性区域也能发挥作用。

7.2 特征学习动力学与线性化失效

7.2.1 惰性训练与特征学习机制的正式区分

我们考察网络输出 $f_{\theta}(x)$ 随训练时间 $t$ 的演化。

惰性训练机制 (Lazy Regime): 参数更新 $\Delta \theta$ 必须足够小，使得网络行为完全由初始化时的梯度决定。 $$ f_{\theta(t)}(x) - f_{\theta_0}(x) = \nabla_{\theta} f_{\theta_0}(x)^\top (\theta(t) - \theta_0) + \text{Remainder} $$ 在 Lazy Regime 中，我们要求 Remainder 项相对于线性项是可忽略的，即： $$ |\text{Remainder}| \ll |\nabla_{\theta} f_{\theta_0}(x)^\top (\theta(t) - \theta_0)| $$ 这要求参数的移动距离 $|\theta(t) - \theta_0|$ 在 $W \to \infty$ 时趋近于零，例如 $O(1/\sqrt{W})$ 或 $O(1/W)$。
特征学习机制 (Feature Learning Regime): 当参数移动距离足够大，以至于 Remainder 项（即梯度特征图的变化引起的项）与线性项具有相同的量级，甚至支配线性项时，网络进入特征学习机制。 $$|\text{Remainder}| \sim O(|\text{Linear Term}|)$$ 此时，梯度 $\nabla_{\theta} f_{\theta}(x)$ 随着训练显著改变，网络有效地重新定义了特征空间。

7.2.2 切线核演化 (Tangent Kernel Evolution, TKE)

为定量描述特征学习，我们关注 NTK 矩阵 $\Theta(\theta(t))$ 的演化。

特征学习的本质是网络改变了其 RKHS。如果 $\Theta(t)$ 随时间变化显著，则网络正在学习特征。

导致特征学习的因素：

参数化： 使用 Standard Parameterization (梯度幅度 $O(\sqrt{W})$) 结合 $O(1)$ 学习率，会导致参数的相对移动 $O(1)$，显著激活 TKE。
学习任务： 解决需要低层特征提取的任务（如图像分类）通常需要强大的特征学习。

TKE 的分析： TKE 可以通过分析 $\frac{d\Theta}{dt}$ 随时间的演化来实现。这涉及到泰勒展开的二阶和高阶项，将梯度流方程转化为描述 $\Theta(t)$ 演化的非线性积分微分方程，这远比 NTK 理论中的线性 ODE 复杂。

7.2.3 非线性与损失函数曲率的关联

NTK 理论通过线性化将损失函数近似为二次形式。 $$ \mathcal{L}(\theta) \approx \mathcal{L}(\theta_0) + \nabla_\theta \mathcal{L}(\theta_0)^\top (\theta - \theta_0) + \frac{1}{2} (\theta - \theta_0)^\top \mathbf{H}(\theta_0) (\theta - \theta_0) $$ 其中 Hessian 矩阵 $\mathbf{H}(\theta_0)$ 在 NTK regime 下被近似为 Gram 矩阵 $\mathbf{\Theta}_0$。

在特征学习 regime 中，这种近似失效。Hessian 矩阵的非线性项（与特征变化相关的项）变得重要。这意味着：

更平坦的极小值： 特征学习可能导向更平坦、泛化能力更强的损失函数极小值，这是 NTK 理论难以解释的。
更复杂的动力学： 训练轨迹不再是简单的线性路径，可能包含快速的“弯曲”和“跳转”，以便在函数空间中找到更优的特征表示。

Rule-of-Thumb 7.2 (特征学习与泛化): 如果网络在训练结束后，泛化性能显著优于使用其初始 NTK 训练的核回归解，则网络必然进行了有效的特征学习。这一差距是衡量网络“脱离惰性”程度的关键指标。

7.3 学习率、训练时间与非线性效应

7.3.1 NTK 时间尺度与临界学习率的精确定义

为了正式区分 Lazy Regime 和 Feature Learning Regime，我们需要引入时间尺度的概念。

设 $R$ 为参数更新的 $L_2$ 范数。惰性训练要求 $R$ 足够小，以便泰勒展开有效。我们关注两个时间尺度：

优化时间尺度 ($T_{\text{opt}}$): 达到零训练误差所需的总训练时间。
NTK 特征学习时间尺度 ($T_{\text{NTK}}$): 特征核 $\Theta(t)$ 发生 $O(1)$ 变化所需的时间。

惰性条件： 只有当 $T_{\text{opt}} \ll T_{\text{NTK}}$ 时，NTK 近似才成立。

在标准参数化下，可以推导出： $$ T_{\text{NTK}} \propto \frac{W}{\eta} $$ 其中 $\eta$ 是学习率。

临界学习率的推导： 假设达到零误差所需的总更新次数 $T_{\text{steps}}$ 是固定的。那么 $T_{\text{opt}} \approx \eta T_{\text{steps}}$。若要保持惰性，我们需要 $T_{\text{opt}} \ll T_{\text{NTK}}$，即 $\eta T_{\text{steps}} \ll W/\eta$。这给出学习率的限制： $$\eta \ll \sqrt{\frac{W}{T_{\text{steps}}}} \approx O(\sqrt{W})$$ 如果 $\eta$ 超过这个 $O(\sqrt{W})$ 尺度，网络将进入特征学习 regime。

这为实践提供了指导：在超宽网络中，我们可以适度增大 $\eta$ (与 $\sqrt{W}$ 成比例) 来加速训练，同时仍保持在 NTK 区域。

7.3.2 离散大步长 SGD 的影响

现实中，我们使用离散的 SGD，而非梯度流。使用大步长（Large Learning Rate）带来的效应远超 NTK 理论的预测。

跳跃行为： 大 $\eta$ 使得参数在单步内跳过许多低曲率区域，可能直接进入深层特征学习所需的损失函数峡谷。
正则化： SGD 的随机性与大 $\eta$ 结合，提供了强大的随机正则化，有助于找到平坦极小值，这与 NTK 倾向于最小范数解（可能对应尖锐极小值）的结论形成对比。
非线性激活： 大 $\eta$ 意味着网络在训练早期即显著改变其参数。这激活了激活函数（如 ReLU）的非线性区域，使得隐藏层的输出分布发生根本性变化，从而改变特征表示。

7.4 参数化方式与宽度极限的细致分析

参数化方式（Parameterization）是决定 $W \to \infty$ 极限行为的控制杆。

7.4.1 Standard Parameterization 与 Mean-Field 极限

在标准参数化中，权重 $\mathbf{W}^{(l)}$ 和偏置 $\mathbf{b}^{(l)}$ 的方差均设置为 $O(1)$。

函数值尺度： 初始函数输出 $f_{\theta_0}(x) \sim O(1)$。
梯度尺度： 梯度范数 $|\nabla_\theta f_{\theta_0}(x)|$ 随宽度增长，通常为 $O(\sqrt{W})$。
训练动态： 由于 $\nabla f \sim O(\sqrt{W})$，对于 $O(1)$ 尺度的学习率 $\eta$，参数更新 $\Delta \theta = -\eta \nabla \mathcal{L}$ 也是 $O(\sqrt{W})$。这导致参数相对移动显著 ($|\Delta \theta| / |\theta_0| \sim O(1)$)，NTK 随时间剧烈变化。

这种极限导向Mean-Field 理论。Mean-Field 理论将每个经元视为一个粒子，关注其概率密度演化，它捕捉了网络作为一个整体的特征学习能力。

7.4.2 NTK Parameterization (Lazy Regime)

NTK Param 旨在通过缩放，抑制梯度尺度的增长，从而冻结 NTK。

缩放： 权重方差 $\sigma_w^2 \propto 1/W$ (如 $\mathbf{W}^{(l)}_{ij} \sim \mathcal{N}(0, 1/W)$)。
结果： 梯度范数 $|\nabla_\theta f_{\theta_0}(x)| \sim O(1)$。初始 NTK 矩阵 $\Theta(\theta_0) \sim O(1)$。
动态： 如果使用 $O(1)$ 的学习率，参数更新 $\Delta \theta$ 也是 $O(1)$。但由于 $\theta_0$ 也是 $O(1)$，我们需要额外调整学习率，使得 $\eta \to 0$ 且 $\eta W \to \infty$ (例如 $\eta \sim O(1/W)$)才能保持严格的惰性。在 $W \to \infty$ 时，$\Theta(t)$ 冻结。

7.4.3 $\mu$-Parameterization ($\mu$P) 与最大化更新

$\mu$P 是一种精心设计的参数化，由 Yang 和 Hu (2020) 提出，旨在统一 Mean-Field 和 NTK 极限。它允许网络在 $W \to \infty$ 时，既保持 $O(1)$ 的函数值 $f_{\theta_0}(x)$，又能够进行 $O(1)$ 尺度的特征学习。

关键思想： $\mu$P 识别出网络中对梯度流贡献最大的部分（通常是最后一层或残差连接），并对其进行缩放，以确保其更新幅度不随 $W$ 消失。

| 缩放目标 | 描述 | $\mu$P 缩放举例 (MLP) |

缩放目标	描述	$\mu$P 缩放举例 (MLP)
函数值 $f$	确保 $f_{\theta_0}(x) \sim O(1)$	最后一层权重 $W^{(L)}$ 保持 $O(1)$
梯度 $\nabla f$	确保 $\nabla f$ 的更新幅度 $O(1)$	隐藏层权重 $W^{(l<L)}$ 保持 $O(1/\sqrt{W})$

通过这种混合缩放，$\mu$P 使得：

信号传播稳定： 确保前向和后向传播中的信号方差保持 $O(1)$。
特征学习保持： 允许隐藏层神经元进行 $O(1)$ 尺度的独立更新，从而保持特征学习的能力，即便在 $W \to \infty$ 极限下也是如此。

实践意义： $\mu$P 理论认为，只有采用正确的参数化，我们才能正实现超宽网络的潜力，并观察到与有限网络相似的优化和泛化行为。

7.5 与其它理论的衔接

7.5.1 Mean-field 极限与特征学习

Mean-field (MF) 理论提供了一种分析强特征学习 regime 的数学框架。它关注于神经元分布 $P_t(\theta)$ 随时间的演化。

核心方程： 经验分布 $P_W(t) = \frac{1}{W} \sum_{i=1}^W \delta(\theta_i(t))$ 在 $W \to \infty$ 时收敛到概率密度 $P_t(\theta)$，该密度遵循一个非线性的偏微分方程（如 Vlasov 方程或 Fokker-Planck 方程）。 $$ \frac{\partial P_t(\theta)}{\partial t} = \nabla_\theta \cdot \left[ P_t(\theta) \nabla_\theta \mathcal{L}(P_t) \right] $$

与 NTK 的区别： NTK 关注单个函数的演化 $f_{\theta(t)}$，将其线性化。MF 关注整个神经元群体的统计行为。MF 极限允许特征学习，因为参数分布 $P_t(\theta)$ 本身是随时间变化的。
衔接： NTK 动力学可以被视为 MF 动力学的线性化形，即当 $\nabla_\theta \mathcal{L}(P_t)$ 可以被近似为 $\nabla_\theta \mathcal{L}(P_0)$ 时。

7.5.2 动态特征学习与高阶 NTK

为了更精确地捕捉脱离惰性训练的动力学，研究人员提出了高阶 NTK 理论。

标准的 NTK 是基于一阶泰勒展开。如果我们将函数 $f_\theta$ 的泰勒展开扩展到二阶： $$ f_{\theta}(x) = f_{\theta_0}(x) + \nabla f_0 \cdot \Delta \theta + \frac{1}{2} (\Delta \theta)^\top \mathbf{H}_0 \Delta \theta + \dots $$

梯度流方程的解将不再是一个简单的线性 ODE。高阶项引入了非线性动力学，这些项恰好描述了特征映射 $\nabla f_\theta$ 本身如何随着 $\Delta \theta$ 而变化。

二阶效应的物理意义： 二阶项（Hessian $\mathbf{H}_0$）描述了函数流形 $f_\theta$ 的曲率。当训练轨迹沿着曲率方向移动时，NTK 矩阵 $\Theta(t)$ 将发生显著变化，网络学习新特征。这些高阶项构成了从惰性训练到强特征学习的桥梁。

7.5.3 稀疏性与 Lottery Ticket Hypothesis (LTH)

有限宽度和特征学习的另一个重要联系是稀疏性。

LTH 提出大型网络包含一些“中奖彩票”（Winning Tickets），这些子网络如果以原始权重初始化并独立训练，可以达到与原始网络相当的性能。

NTK 视角： NTK 理论隐含地假设所有参数都平等贡献。在惰性区域，所有参数都以相对较小的量进行更新。
特征学习视角： 在特征学习 regime，网络会选择性地更新并放大那些对任务最重要的“中奖”参数，使得有效网络变得稀疏。这种选择性更新，即参数的非均匀变化，是脱离 NTK 惰性的一个重要标志。

本章小结

| 概念 | 描述 | 与 $W$ 的关系 |

概念	描述	与 $W$ 的关系
经验 NTK 波动	随机初始化导致 NTK 矩阵围绕极限值波动。	$O(1/\sqrt{W})$
NTK 演化速度	NTK 矩阵随训练时间发生的确定性变化。	$O(1/W)$
惰性练条件	优化时间 $T_{\text{opt}}$ 远小于特征学习时间 $T_{\text{NTK}}$。	$T_{\text{opt}} \ll W/\eta$
特征学习机制	训练轨迹显著偏离初始切平面，梯度特征图发生 $O(1)$ 变化。	在 Standard Param 或 $\mu$P 且 $W \to \infty$ 时可发生。
NTK Parameterization	缩放参数以实现 $W \to \infty$ 惰性极限。	$\sigma_w^2 \propto 1/W$
$\mu$-Parameterization ($\mu$P)	混合缩放以实现 $W \to \infty$ 强特征学习极限。	保证 $f_{\theta_0} \sim O(1)$ 且 $\Delta f \sim O(1)$
Mean-Field 理论	描述强特征学习下参数经验分布的演化。	$W \to \infty$ 时的非线性动力学。

练习题

基础题

7.6.1 区分波动与演化 在有限宽度 $W$ 的网络中，NTK 存在两种变化：随机波动和随时间演化。请说明这两种变化的 $W$ 依赖关系，并解释哪一种变化更容易被观测到（假设 $W$ 很大）。

Hint: 比较 $O(1/\sqrt{W})$ $O(1/W)$ 的大小。 答案 (折叠): 随机波动尺度为 $O(1/\sqrt{W})$，随时间演化的尺度为 $O(1/W)$。对于很大的 $W$， $1/\sqrt{W}$ 远大于 $1/W$。因此，初始化的随机波动更容易被观测到。

7.6.2 $\mu$P 的目标 $\mu$P 在其缩放设计中，试图确保初始函数值 $f_{\theta_0}(x)$ 和训练中的函数值变化 $\Delta f$ 都保持 $O(1)$ 尺度。请解释为什么 NTK Parameterization 无法同时满足这两个条件。

Hint: NTK Param 强制 $\nabla f \sim O(1)$。如果 $\Delta \theta \sim O(1/W)$（梯度流下的移动），那么 $\Delta f$ 的尺度是多少？ 答案 (折叠): 在 NTK Param 下，若要保持惰性，参数移动 $\Delta \theta \sim O(1/W)$。由于 $f_{\theta_0} \sim O(1/\sqrt{W})$ 或 $O(0)$ 且 $\nabla f \sim O(1)$，那么 $\Delta f \approx \nabla f \cdot \Delta \theta \sim O(1/W)$。因此，NTK Param 导致函数值的变化在 $W \to \infty$ 时消失，不满足 $\Delta f \sim O(1)$ 的特征学习求。

7.6.3 识别特征学习 你在训练一个宽度 $W=5000$ 的网络，并计算了初始 NTK 矩阵 $\mathbf{\Theta}(0)$ 和训练 100 轮后的 NTK 矩阵 $\mathbf{\Theta}(100)$。如果 $|\mathbf{\Theta}(100) - \mathbf{\Theta}(0)| / |\mathbf{\Theta}(0)| \approx 0.3$（30% 的相对变化），你将如何定性判断网络所处的训练机制？

Hint: 比较 30% 这个 $O(1)$ 的变化幅度与惰性训练预测的 $O(1/W)$ 变化幅度。 答案 (折叠): 相对变化为 30% 是一个 $O(1)$ 尺度的变化。如果网络处于严格的惰性训练，变化幅度应为 $O(1/W) = 1/5000 = 0.0002$（0.02%）。30% 的变化强烈表明网络已经脱离了惰性区域，进入了强大的特征学习机制。

挑战题与开放性思考

7.6.4 深度对 NTK 惰性的影响 对于深度 $L$ 的网络，在保持 $W$ 不变的情况下，深度 $L$ 的增加通常被认为有助于特征学习。请从梯度传播和激活函数非线性激活的角度，解释为么深度的增加会加速网络脱离 NTK 惰性。

Hint: 深度增加了复合非线性操作的数量。如果梯度传播在深层网络中表现出乘积效应（而非求和效应），会如何？ 答案 (折叠): 深度增加了非线性操作的复杂性。在浅层网络中，非线性效应可能被初始化权重稀释。但在深层网络中，即使参数的微小变化，也可能通过多层非线性的累积效应被放大。这使得梯度特征映射 $\nabla f_\theta$ 对 $\theta$ 的敏感度更高，从而更容易激活特征学习，使网络偏离其初始化切平面。

7.6.5 动态 NTK 的挑战 如果你希望建立一个“动态 NTK”理论，用微分方程描述 $\Theta(t)$ 的演化。请说明，与标准 NTK 理论的线性 ODE 相比，这个描述 $\Theta(t)$ 的方程将包含哪些额外的复杂性（即方程的数学性质会发生什么变化）？

Hint: 梯度流方程是 $\frac{d f}{dt} = - \Theta(t) f$。如果 $\Theta(t)$ 随 $f$ 变，则方程不再是线性的。 答案 (折叠): 动态 NTK 理论的挑战在于 $\Theta(t)$ 本身是函数 $f$（通过 $\theta(t)$）的函数。因此，描述 $\frac{d\Theta}{dt}$ 的方程将是非线性且耦合的。它将不再是一个简单的线性微分方程系统。这使得闭式解几乎不可能，必须采用平均场理论或高阶泰勒展开等方法进行近似分析。

7.6.6 $\mu$P 理论对 NTK 理论的评价 从 $\mu$P 理论支持者的角度来看，NTK 理论的主要缺陷是什么？请用一句话总结 $\mu$P 如何“修复”这个缺陷。

Hint: 缺陷在于 NTK 强制网络在 $W \to \infty$ 时保持惰性，这与实际观察到的深层网络表现相悖。 答案 (折叠): NTK 理论的主要缺陷在于其参数化选择（NTK Param）导致在无限宽度极限下，网络丧失了学习特征的能力，成为一个“惰性”的核机器。$\mu$P 通过精巧的缩放，确保了在 $W \to \infty$ 时，网络能够保持 $O(1)$ 的特征学习能力，从而导向一个更真实的极限行为。

7.6.7 开放性思考：核方法与深网的泛化差距 为什么在实践中，尽管 NTK 理论预测核方法具有强大的泛化能力，但一个经过特征学习的深层网络在复杂任务（如 ImageNet）上仍然能够显著超越其 NTK 对应物？请讨论特征学习提供的具体优势。

Hint: 考虑数据固有的结构（如局部性、层次性）和核函数如何捕捉这些结构。 答案 (折叠): NTK 只是一个初始化核，它固化了网络在初始化时对特征空间的偏好。对于复杂数据集，这种初始化偏好通常不足以捕捉数据所有的层次结构（如图像的局部性、语义级别）。特征学习允许网络学习出数据依赖和任务依赖的特征表示。这种自适应性，特别是学习低维有效特征空间的能力，是纯粹的初始化核方法无法提供的。

常见陷阱与错误 (Gotchas)

G7.5 误解惰性训练下的解一定是劣解

错误认知： 既然 NTK 只是线性近似，它找到的解一定不如特征学习找到的解。
真相： 不一定。在许多情况下（尤其是过参数化程度极高，数据量相对较小或数据噪声较低时），NTK 解（最小 RKHS 范数解）本身就具有很好的泛化能力。NTK 的优势在于稳定性和可预测性。特征学习可能找到一个更好的解，但也可能导致过拟合或更不稳定的优化路径。

G7.6 忽略初始化缩放与学习率的相互作用

错误认知： 我只需要使用小学习率，就能进入 NTK regime。
真相： 学习率 $\eta$ 必须与宽度 $W$ 和参数化方式协同缩放。如果你使用 Standard Parameterization，即使 $\eta=0.01$，由于梯度 $\nabla f \sim O(\sqrt{W})$，参数的相对移动可能仍然很大，导致强特征学习。要进入严格的 NTK regime，你必须确保 $\eta \cdot |\nabla f|$ 相对于 $|\theta_0|$ 是可忽略的。

G7.7 经验 NTK 矩阵的计算陷阱

问题： 许多 NTK 库计算的是理论极限 $\Theta^\infty$。如果你想验证特征学习，你需要计算经验 NTK $\Theta^W(t)$。
调试技巧： 计算经验 NTK 必须使用当前参数 $\theta(t)$ 的梯度内积 $\nabla_\theta f_{\theta(t)} \cdot \nabla_\theta f_{\theta(t)}^\top$。为了判断特征学习是否发生，需要将 $\Theta^W(t)$ 与 $\Theta^W(0)$ 进行矩阵范数比较（如 Frobenius 范数）。如果相对变化远大于 $O(1/W)$，则确认发生了特征学习。

G7.8 Mean-Field 理论的适用性限制

错误认知： Mean-Field 理论可以解释所有现实中的特征学习现象。
真相： Mean-Field 理论通常要求 $W$ 很大，并且参数更新是独立且同分布的。它在深度增加时，尤其是在存在残差连接或复杂注意力机制时，变得极难分析，并且通常忽略了神经元之间的强依赖关系。它是 NTK 理论的一个重要补充，但并非深度学习动态的完整描述。

第 7 章 有限宽度效应与超出 NTK 的现象（chapter7.md）