ntk_tutorial

神经切线核(Neural Tangent Kernel, NTK)理论中文教程

从基础到高级系统介绍 NTK 理论,结合长度外推、泛化、过参数化与双下降等现代现象,给出尽量完整、可推演的分析过程。

各章与节结构

第 1 章 导论与预备知识(chapter1.md

1.1 深度学习的泛化悖论
1.2 过参数化与零训练误差现象
1.3 经典统计学习理论回顾

1.4 线性模型与核方法速览

1.5 深度网络训练的基本数学形式

1.6 NTK 理论的高层直观


第 2 章 无限宽神经网络与高斯过程(chapter2.md

2.1 单隐藏层网络的概率视角

2.2 中心极限定理与函数空间极限

2.3 NNGP 核(Neural Network Gaussian Process Kernel)

2.4 NNGP 与贝叶斯推断

2.5 从 NNGP 走向 NTK 的动机


第 3 章 神经切线核(NTK)的定义与基本性质(chapter3.md

3.1 网络在参数空间的一阶线性化

3.2 NTK 的形式定义

3.3 宽度极限下 NTK 的收敛

3.4 训练动力学:梯度下降 = 核回归

3.5 NTK 的基本性质


第 4 章 不同网络结构下的 NTK 形式(chapter4.md

4.1 全连接网络(MLP)的 NTK

4.2 卷积神经网络(CNN)的 NTK

4.3 残差网络与跳连结构

4.4 归一化层与参数化方式

4.5 激活函数与 NTK


第 5 章 泛化、过参数化与双下降现象(chapter5.md

5.1 经典泛化认识与现代现象冲突

5.2 NTK 视角下的插值解

5.3 核回归的泛化分析

5.4 双下降现象的 NTK 解释

5.5 对深度学习实践的启示


第 6 章 长度外推与序列建模中的 NTK(chapter6.md

6.1 长度外推问题的定义

6.2 序列模型的 NTK 近似

6.3 序列长度变化对 NTK 的影响

6.4 用 NTK 分析长度外推能力

6.5 案例研究与实证


第 7 章 有限宽度效应与超出 NTK 的现象(chapter7.md

7.1 有限宽度下 NTK 的随机波动

7.2 特征学习与 NTK 近似的失效

7.3 学习率、训练时间与非线性效应

7.4 参数化方式与宽度极限

7.5 与其它理论的衔接


第 8 章 数值实验与实践指南(chapter8.md

8.1 经验 NTK 的计算方法

8.2 使用 NTK 预测训练动态

8.3 开源工具与代码示例

8.4 复现实验:双下降与长度外推

8.5 实践建议与常见坑


第 9 章 高级主题与前沿进展(chapter9.md

9.1 NTK 与连续深度模型

9.2 NTK 在图与结构化据中的扩展

9.3 NTK 与矩阵/张量分解

9.4 与其它理论框架的比较

9.5 开放问题与研究方向


第 10 章 推导节与证明补遗(chapter10.md

10.1 NNGP 极限的严格推导
10.2 宽度极限下 NTK 收敛的关键步骤
10.3 核回归解与梯度流解的等价证明
10.4 典型激活函数下 NTK 闭式公式推导
10.5 双下降相关的简化模型解析计算