第 4 章不同网络结构下的 NTK 形式（`chapter4.md`）

开篇段落

神经切线核（NTK）理论的核心是网络在参数空间初始化点的一阶线性化。然而，神经网络结构的多样性——从简单的全连接到复杂的卷积、残差和注意力机制——意味着没有一个单一的通用 NTK。本章将系统性地探讨主流深度学习架构（MLP、CNN、ResNet）如何通过其特定的连接模式、权重共享机制以及组件（如归一化层和激活函数）来塑造其对应的 NTK 形式。我们将通过递归公式深入理解这些结构对梯度流的影响，并分析其如何决定网络在无限宽极限下的学习能力和归纳偏置。

4.1 全连接网络（MLP）的 NTK

全连接网络（MLP）是 NTK 理论的基石。其深度结构要求我们采用递归方式定义 NTK，将整个核分解为每层参数贡献的累积。

4.1.1 深层 MLP 的递归核公式详解

我们定义一个 $L$ 层的 MLP，其中 $f^{(l)}(x)$ 是第 $l$ 层的激活输出（在非线性激活之前）。

1. NNGP 核的递归： 第 $l$ 层的 NNGP 核 $K^{(l)}(x, x')$ 描述了两个输入 $x, x'$ 经过 $l$ 层后的激活向量之间的协方差。

$$K^{(l)}(x, x') = \mathbb{E} \left[ \sigma(\mathbf{z}_i^{(l)}) \sigma(\mathbf{z}_j^{(l)}) \right]$$ 其中 $\mathbf{z}^{(l)}$ 是输入到激活函数 $\sigma$ 之前的值。在无限宽极限下，$\mathbf{z}^{(l)}$ 趋近于高斯过程，其协方差 $\Sigma^{(l)}(x, x')$ 仅依赖于前一层 $K^{(l-1)}(x, x')$。

2. NTK 的递归关系： 第 $l$ 层的 NTK $\Theta^{(l)}(x, x')$ 包含了前 $l-1$ 层的参数贡献，以及第 $l$ 层新参数（权重 $W^{(l)}$ 和偏置 $b^{(l)}$）的贡献。 $$\Theta^{(l)}(x, x') = \Theta_{\text{New}}^{(l)}(x, x') + \Theta_{\text{Old}}^{(l)}(x, x')$$ 在标准 NTK parameterization 下，当 $l > 1$ 时，最终的递归公式为： $$\Theta^{(l)}(x, x') = K^{(l)}(x, x') + \dot{K}^{(l-1)}(x, x') \Theta^{(l-1)}(x, x')$$ 其中：

$K^{(l)}(x, x')$ 是第 $l$ 层的 NNGP 核，对应于第 $l$ 层新参数对输出的贡献。
$\Theta^{(l-1)}(x, x')$ 是前 $l-1$ 层的总 NTK。
$\dot{K}^{(l-1)}(x, x')$ 是一个梯度传播因子，由激活函数 $\sigma$ 的导数 $\sigma'$ 决定，描述了前一层 NTK 信号如何通过第 $l$ 层的非线性结构传播。

4.1.2 深度增加与核退化（Kernel Collapse）

随着深度 $L$ 的增加，MLP 的 NTK 存在退化（Kernel Collapse）的风险。

机制分析：

在每一层，新的权重 $W^{(l)}$ 都会将输入映射到新的空间。如果激活函数（如 ReLU）或初始化方式导致大部分隐藏单元饱和或失活（即进入“死区”），那么：

NNGP 衰减： $K^{(l)}(x, x')$ 倾向于收敛到一个常数，即 $K^{(l)}(x, x') \to \text{const}$。这意味着网络输出的协方差不再能区分不同的输入。
NTK 衰减： 梯度传播因子 $\dot{K}^{(l)}$ 也可能趋近于零。在递归中，这导致 $\Theta^{(L)}$ 对 $\Theta^{(L-1)}$ 的依赖性减弱，最终整个 $\Theta^{(L)}$ 也变得几乎不变或收敛到低秩结构。

后果： 核退化意味着深层网络在 NTK 极限下，其函数空间几乎与浅层网络相同，甚至比浅层网络更简单。网络失去了利用深度来区分复杂特征的能力，其归纳偏置被限制在一个非常简单的函数类别中。

Rule-of-Thumb: 具有 ReLU 激活和标准参数化的深层 MLP，在无限宽极限下容易发生核退化。这是 ResNet 结构诞生的理论动机之一——通过跳连来对抗这种乘法效应导致的退化。

4.2 卷积神经网络（CNN）的 NTK

卷积结构引入了两个核心特性：局部性（Local Connectivity）和权重共享（Weight Sharing），这使得 CNN NTK 具有独特的形式。

4.2.1 局部连接、权重共享与 NTK 的结构

在 CNN 中，梯度 $\nabla_\theta f(x)$ 的计算涉及对所有空间位置上梯度贡献的求和。

平移等变性 (Equivariance)： 对于一个标准 CNN，其输出 $f(x)$ 具有平移等变性。当我们在输入数据上计算 NTK 矩阵 $\mathbf{\Theta}$ 时，这种结构体现在 $\mathbf{\Theta}$ 的 循环/块-Toeplitz 结构上。
- $\Theta(x_i, x_j)$ 的值不依赖于 $i$ 和 $j$ 的绝对坐标，而是主要依赖于 $x_i$ 和 $x_j$ 在图像中的相对位置关系（位移）。
局部性约束： 由于卷积核的大小有限（如 $3 \times 3$），输入 $x$ 的某些像素仅影响其局部邻域的输出。这使得 CNN NTK 比 MLP NTK 具有更强的局部归纳偏置。在计算梯度内积时，只有具有重叠感受野的参数梯度项才会是非零的，这在一定程度上反映了 NTK 矩阵的结构化稀疏性。

4.2.2 卷积核的递归与空间平均

CNN NTK 的递归推导与 MLP 类似，但必须在每个阶段纳入空间上的求和或平均。

在计算第 $l$ 层的 $K^{(l)}$ 和 $\Theta^{(l)}$ 时，我们需要对前一层特征图 $H^{(l-1)}$ 上的所有可能 patch 进行平均，来模拟无限宽的随机权重 $W^{(l)}$。 $$\Theta_{\text{CNN}}^{(l)} \propto \sum_{p, q} \mathbb{E} \left[ \nabla_{W} f(x)_p^\top \nabla_{W} f(x')_q \right]$$ （其中 $p, q$ 表示空间位置索引。）

这种空间平均确保了无限宽的卷积网络即使在有限图像尺寸上也能收敛到确定的核。

4.2.3 步长、池化与 NTK 的特征谱

步长 (Strides) 和扩张 (Dilations):

步长 $>1$ 引入下采样，有效地缩小了后续层的 NTK 矩阵的空间维度。它强制网络在计算核时，只考虑特定间隔的特征点之间的关系，从而影响核的平滑性。
扩张卷积 (Dilated Convolution) 可以在不增加参数量的情况下扩大感受野，这使得 NTK 能够捕捉到更远距离的像素相关性，从而可能增加核的有效维数。

池化操作的挑战：

平均池化 (Average Pooling): 作为一个线性操作，它容易被整合到 NTK 递归中。本质上是平滑核函数，因为它是对局部区域的平均。
最大池化 (Max Pooling): Max Pooling 是 NTK 理论分析中最棘手的组件之一。 在计算梯度时，Max Pooling 引入了选通机制（Gate）：只有局部区域的最大值神经元会向上传播梯度。这个选通是输入依赖的，且在最大值切换点不可导。
- 理论处理： 严格的无限宽 Max Pooling NTK 需要计算导数的期望。这通常导致解析形式复杂，或要求对 Max Pooling 进行平滑近似（如 $\text{Softmax}$ 近似）。Max Pooling 会使得核函数更加尖锐和局部化。

4.3 残差网络与跳连结构

残差网络（ResNet）通过恒等跳连（Identity Skip Connection）解决了深层网络的优化问题，也从根本上改变了深层 NTK 的性质。

4.3.1 从乘法到加法：残差结构对梯度的稳定作用

在一个标准的深层 MLP 中，梯度在反向传播过程中是层梯度乘积的链式法则： $$\nabla_{\theta^{(1)}} f^{(L)} \propto \prod_{l=2}^{L} \left( \frac{\partial f^{(l)}}{\partial f^{(l-1)}} \right) \cdot \nabla_{\theta^{(1)}} f^{(1)}$$ 如果权重矩阵的奇异值分布不当，乘积会导致梯度指数级消失或爆炸。

在残差网络中，梯度传播项包含恒等矩阵 $I$： $$ \nabla_{\theta^{(l-1)}} f^{(l)}(x) = \left( I + \frac{\partial g^{(l)}}{\partial f^{(l-1)}} \right) \nabla_{\theta^{(l-1)}} f^{(l-1)}(x) $$ 关键在于 $I$ 项的存在。整个梯度乘积链变为 $(I + \Delta_L)(I + \Delta_{L-1}) \dots (I + \Delta_2)$. 当 $\Delta_l$ 项足够小（如通过 NTK parameterization 缩放）时，这个乘积可以近似为： $$\prod_{l=2}^{L} (I + \Delta_l) \approx I + \sum_{l=2}^{L} \Delta_l$$ 这表明梯度流从乘法机制转向了加法机制。

4.3.2 残差网络 NTK 的线性累积性

正是由于这种加法稳定性，深层 ResNet 的 NTK $\Theta^{(L)}$ 也表现出线性累积性： $$\Theta_{\text{ResNet}}^{(L)}(x, x') \approx \Theta_{\text{initial}}(x, x') + \sum_{l=2}^{L} \Theta_{\text{block}}^{(l)}(x, x')$$ 其中 $\Theta_{\text{initial}}$ 是网络的“骨架”部分（通常是线性项），而 $\Theta_{\text{block}}^{(l)}$ 是第 $l$ 个残差块中新参数的贡献。

有效深度 vs 实际深度： ResNet NTK 的这种加法结构保证了即使网络非常深，其核也不会退化。每个块对总核的贡献独立累积。这种性质使得 ResNet 在 NTK 极限下的有效深度更接近于 $L$（与深度成正比），而不会像 MLP 那样陷入退化。

4.3.3 深度缩放与 NTK 稳定性

为了使深层 ResNet 的 NTK 在 $L \to \infty$ 时保持 $O(1)$ 的幅值，通常需要对残差分支 $g^{(l)}$ 引入缩放因子 $\alpha = 1/\sqrt{L}$： $$f^{(l)}(x) = f^{(l-1)}(x) + \frac{1}{\sqrt{L}} g^{(l)}(\dots)$$ 这种缩放保证了每个块对总梯度的贡献是 $O(1/\sqrt{L})$，从而使得 $L$ 个块的总贡献 $\sum_{l=1}^L O(1/\sqrt{L}) = O(\sqrt{L})$。当计算 NTK（梯度内积）时，其总模为 $O(L) \times O(1/\sqrt{L}) \times O(1/\sqrt{L}) = O(1)$。这正是 NTK 理论所要求的稳定 $O(1)$ 极限。

4.4 归一化层与参数化方式

归一化层和参数化选择是连接理论 NTK 极限与实际深度学习实践的桥梁。

4.4.1 归一化层对 NTK 假设的挑战

Batch Normalization (BN): BN 的统计量（均值 $\mu_B$ 和方差 $\sigma_B^2$）是在训练 Batch 上计算的。 $$\hat{x} = \frac{x - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$$ 这意味着网络输出 $f(x_i)$ 对参数的梯度 $\nabla_\theta f(x_i)$ 不仅依赖于 $x_i$ 和 $\theta$，还隐式地依赖于 Batch $B$ 中所有其他样本 $\{x_j\}_{j \ne i}$。

违反 NTK 假设：

非平滑性： 当 BN 统计量变化时，BN 引入了非平滑性。
批间耦合： NTK 理论假设函数 $f(x)$ 仅依赖于参数 $\theta$ 和输入 $x$。BN 打破了这种独立性。

理论妥协： 在严格的 NTK 极限研究中，通常要么完全避免 BN，要么使用 Frozen BN（即在训练开始前固定 BN 的 $\mu$ 和 $\sigma^2$）。

Layer Normalization (LN): LN 在特征维度上对单个样本进行归一化，与 Batch 大小无关。由于 LN 只依赖于输入 $x$ 本身的统计量，它对 NTK 理论的适用性影响较小，更容易纳入递归公式中。LN 的存在通常被认为是更兼容 NTK 极限的实践选择。

4.4.2 NTK Parameterization vs. $\mu$-Parameterization

参数化方式决定了宽度 $n \to \infty$ 时网络的极限行为。

| 维度 | NTK Parameterization (NTK-P) | $\mu$-Parameterization ($\mu$-P) |

维度	NTK Parameterization (NTK-P)	$\mu$-Parameterization ($\mu$-P)
目标极限	梯度幅值 $O(1)$，NTK 固定（Frozen NTK Limit）	权重更新 $\Delta\theta$ 导致特征场变化 $O(1)$
权重缩放	使得梯度内积 $O(1)$	使得 Mean Field 动力学有效
函数行为	$f_\theta(x) \approx f_{\theta_0}(x) + \nabla_\theta f_{\theta_0} \cdot (\theta - \theta_0)$	$f_\theta(x)$ 在训练中发生显著非线性变化
学能力	核回归（Kernel Regression）	特征学习（Feature Learning）
学习率	必须很小（$O(1/n)$ 或更小）	允许大步长（$O(1)$）

NTK-P 的核心： 它保证了网络在整个训练过程中都停留在参数空间的线性化区域。训练过程等价于核岭回归。

$\mu$-P 的出现： 为了解决 NTK 无法解释深度学习强大特征学习能力的限制，$\mu$-P 被提出。它是一种更激进的参数化，它确保了在宽度 $n \to \infty$ 时，网络的函数 $f(x)$ 仍然能显著地偏离其初始状态，即特征仍在学习。

Rule-of-Thumb: 如果你的网络表现出强大的特征抽取能力（例如，ResNet 在 ImageNet 上的性能），它很可能运行在 $\mu$-P 或类似的高学习率/特征学习 regime，而非严格的 NTK 线性 regime。

4.5 激活函数与 NTK

激活函数 $\sigma$ 的选择对 NTK 影响巨大，因为它定义了梯度的传播因子 $\dot{K}$，从而决定了核的滑性、几何结构和频谱特性。

4.5.1 激活函数对核几何的塑造

NTK $\Theta(x, x')$ 总是度量输入 $x$ 和 $x'$ 之间的相似性。激活函数决定了这种相似性的度量方式：

ReLU NTK 与尺度不变性： 对于 ReLU 激活函数，当输入 $x, x'$ 被归一化到单位球面上时，NNGP 核和 NTK 仅依赖于输入向量的夹角 $\theta = \arccos(x^\top x')$。
- $K_{\text{ReLU}}(x, x') = |x| |x'| \cdot f_{\text{angle}}(\cos\theta)$
- 这种对角度的依赖性赋予了 ReLU NTK 一种 内在的尺度不变性（Scale Invariance），即 $\Theta(ax, bx') \ne a b \Theta(x, x')$。这对于视觉处理等任务至关重要。
平滑激活函数 (Tanh/Erf) NTK： 这些核通常对输入向量的幅值和角度都敏感。它们定义了更平滑、更接近高斯过程（RBF 核）的几何结构。

4.5.2 光滑性、频谱偏置与 NTK 谱

核的平滑度直接对应于它所诱导的再生核 Hilbert 空间 (RKHS) 的复杂度。

平滑性高 (Smooth Activation, e.g., $\text{Erf}$): 对应的核 $\Theta(x, x')$ 变化缓慢。其特征值谱 $\lambda_k$ 衰减得非常快（通常是指数级或超多项式级）。
- 归纳偏置： 强烈的 频谱偏置 (Spectral Bias)，倾向于学习由少数低频特征构成的平滑函数。
平滑性低 (Non-smooth Activation, e.g., ReLU): 对应的核具有尖锐的特征（如 ReLU NTK 的分段线性边界）。其特征值谱 $\lambda_k$ 衰减得较慢（通常是多项式级）。
- 归纳偏置： 能够有效学习和表达高频特征。 $$ \text{平滑核} (\text{Erf}) \Rightarrow \text{快速衰减} \Rightarrow \text{低频函数} $$ $$ \text{非平滑核} (\text{ReLU}) \Rightarrow \text{慢速衰减} \Rightarrow \text{高频函数} $$

4.5.3 案例：ReLU 与 Tanh 的 NTK 比较

| 特性 | ReLU NTK | Tanh NTK |

特性	ReLU NTK	Tanh NTK
闭式形式	依赖于角度的解析函数	依赖于高斯积分误差函数 (Erf)
正则性 (平滑度)	低（分段可导）	高（无限可导）
特征谱衰减	慢（多项式）	快（指数）
归纳偏置	偏爱复杂/高频函数	偏爱简单/低频函数

本章小结

| 架构/组件 | 关键机制 | NTK 性质/影响 |

架构/组件	关键机制	NTK 性质/影响
深层 MLP	乘法链式法则	易发生核退化（Kernel Collapse），有效深度受限
CNN	局部性/权重共享	具有块-Toeplitz 结构；引入局部性偏置
ResNet	恒等跳连	梯度流稳定；NTK 表现为块贡献的线性累积
NTK-P	$O(1)$ 梯度幅值	冻结 NTK；等价于核回归
$\mu$-P	$O(1)$ 特征更新	动态 NTK；允许特征学习
ReLU	非平滑导数	谱衰减慢；偏向高频学习，具有尺度不变性
Max Pooling	输入依赖的选通	引入非光滑性；理论分析困难，实践中偏离 NTK

练习题

基础题

4.1 梯度传播因子作用 请解释在深层 MLP 的 NTK 递归公式 $\Theta^{(l)} = K^{(l)} + \dot{K}^{(l-1)} \Theta^{(l-1)}$ 中，因子 $\dot{K}^{(l-1)}$ 的作用是什么？如果使用 $\text{Identity}$ 激活函数（即线性网络），$\dot{K}^{(l-1)}$ 将是什么形式？

提示

$\dot{K}$ 是激活函数导数内积的期望，表示前层梯度信号通过当前非线性层时的衰减或缩放。对于 Identity 激活 ($\sigma(z)=z$)，其导数 $\sigma'(z)=1$，因此 $\dot{K}$ 将是一个常数（依赖于参数化）。

4.2 CNN NTK 的平移不变性 如果一个 CNN 层的权重是共享的，那么为什么其 NTK 矩阵 $\mathbf{\Theta}$ 会表现出平移等变性（而不是完全的不变性）？请从 $\Theta(x, x')$ 依赖于相对位置的角度进行解释。

提示

完全的平移不变性意味着 $\Theta(x_i, x_j)$ 仅依赖于 $x_i$ 和 $x_j$ 之间的距离。CNN NTK 依赖于 $x_i$ 和 $x_j$ 上的特征向量相对位置的内积，因此它等变于输入平移。例如，将两张图像平移相同的量，它们的 NTK 值应该保持不变。

4.3 $1/\sqrt{L}$ 缩放的定量分析 考虑一个 $L$ 层的 ResNet，其中每个残差块 $g^{(l)}$ 贡献一个 $O(1)$ 的 NTK $\Theta_{\text{block}}$。如果没有 $1/\sqrt{L}$ 缩放，请计算总 NTK $\Theta^{(L)}$ 的幅值（用 $O(\cdot)$ 表示）。引入 $1/\sqrt{L}$ 缩放后，$\Theta^{(L)}$ 的幅值是多少？

提示

没有缩放时，总 NTK 是 $L$ 个 $O(1)$ 贡献的累加，因此 $\Theta^{(L)} = O(L)$。引入 $1/\sqrt{L}$ 缩放后，每个块贡献 $O(1/L)$（因为 NTK 是梯度平方），总累加 $\Theta^{(L)} = L \cdot O(1/L) = O(1)$。

4.4 ReLU NTK 的尺度不变性 为什么 ReLU 激活函数（及其对应的 NTK）在实践中被认为优于 $\text{Erf}$ 激活？请结合其对核几何的影响来解释其在计算机视觉等领域的归纳偏置优势。

提示

ReLU NTK 仅依赖于输入向量的角度（当归一化时），因此具有尺度不变性。这在图像任务中很重要，因为它允许网络学习与对象大小无关的特征（如角点和边缘）。 $\text{Erf}$ 等核缺乏这种性质。

挑战题与开放性思考

4.5 $\mu$-Parameterization 如何打破 NTK 极限？ 请详细解释，相比于 NTK Parameterization (NTK-P) 保持梯度 $O(1)$，$\mu$-Parameterization ($\mu$-P) 是如何设计其缩放因子，使得网络在 $n \to \infty$ 极限下仍然能够实现显著的特征学习，即让 NTK 不再冻结？

提示

$\mu$-P 的设计是为了确保权重更新 $\Delta \theta$ 导致的函数变化 $\Delta f(x)$ 中，二阶项（即特征学习项）与一阶项（NTK 线性项）具有相同的 $O(1)$ 规模。而 NTK-P 的设计使得所有二阶及更高阶项在 $n \to \infty$ 时都趋于零。$\mu$-P 允许学习率 $O(1)$。

4.6 池化操作的替代方案与 NTK 鉴于 Max Pooling 对 NTK 理论分析的挑战性，请提出两种在序列模型或图像模型中可以替代 Max Pooling，同时更易于进行 NTK 分析的下采样/聚合操作。请说明你的替代方案为什么能更好地保持 NTK 理论的适用性。

提示

Average Pooling: 线性操作，最容易分析。2. Strided Convolution: 通过增加步长进行下采样。由于卷积操作本身是光滑的，其 NTK 形式仍然是递归的。

4.7 核退化与模型有效秩 假设我们计算了一个 50 层 MLP 的 NTK 矩阵 $\mathbf{\Theta}$. 发现其有效秩（Effective Rank，即特征值的快速衰减程度）非常低。请解释这种现象对网络学习能力的实际影响。如果我们将学习率设置为 $O(1)$（即远离 NTK 极限），网络是否还能从深度中受益？

提示

低有效秩意味着网络在函数空间中只能表达非常有的函数。即使无限宽，其容量也低。如果将学习率设置得很大（即进入 $\mu$-P/特征学习 regime），网络可能会利用非线性效应来显著改变特征，从而提高有效秩和表达能力，因此可以受益于深度。

4.8 激活函数选择对双下降现象的影响 在过参数化学习中，我们观察到双下降现象。如果我们将一个 ReLU 网络替换为一个 Erf 激活函数网络（保持其它参数不变），你预测哪一个网络在插值区域（高过参数化）的泛化误差会更高？请基于 NTK 谱偏置来论证。

提示

$\text{Erf}$ NTK 衰减更快，具有更强的低频偏置。它会选择一个更光滑的插值函数（RKHS 范数更小）。在插值区域，选择光滑函数通常能更好地抵抗噪声（特别是高频噪声）。因此，Erf 网络的泛化误差可能更低，因为它更倾向于正则化解。

常见陷阱与错误 (Gotchas)

误解 NTK 的“冻结”含义： 认为 NTK 理论意味着参数 $\theta$ 在训练中完全不变。这是错误的。NTK 理论意味着 $f_\theta(x)$ 相对于 $\theta$ 的线性化斜率 $\nabla_\theta f_{\theta_0}(x)$ 在训练中保持不变（或变化率趋于零）。参数 $\theta$ 本身仍在更新。
- Rule-of-Thumb: 只要训练过程是线性的（参数更新 $\Delta\theta$ 仅影响 $f$ 的一阶泰勒展开），NTK 理论就适用。
忽略归一化对梯度的影响： 在分析 ResNet 时，经常只关注恒等映射对前向传播的影响。然而，如果残差块 $g^{(l)}$ 内部使用了 LayerNorm 或 BatchNorm，它会修改梯度流的缩放和方向，需要仔细将其纳入 $\Theta_{\text{block}}$ 的计算中。简单的加法结构 $\Theta^{(L)} \approx \sum \Theta_{\text{block}}$ 仅在适当归一化和缩放时才严格成立。
将 $\mu$-P 视为 NTK 的扩展： $\mu$-Parameterization 旨在描述超出 NTK 极限的特征学动态。它们描述了宽度 $n \to \infty$ 时的两种不同极限。将它们混为一谈会导致对深度学习强大性能的理论来源产生误解。
Max Pooling 的简化处理： 在没有理论依据的情况下，简单地将 Max Pooling 的 NTK 等同于 Average Pooling 的 NTK 是错误的。Max Pooling 的 NTK 必须考虑到最大值索引的概率分布，这使得它对数据分布高度敏感。在实际计算经验 NTK 时，Max Pooling 带来的梯度不连续性也可能导致数值不稳定。

第 4 章 不同网络结构下的 NTK 形式（chapter4.md）