第4章 经典变分模型:Tikhonov、TV、小波与非局部先验
本章核心:所有的变分图像处理问题本质上都是在寻找一个平衡点——在相信观测数据(Data Fidelity)与满足先验假设(Regularization)之间博弈。本章不讨论“怎么解”(那是后续章节算法的任务),而是专注于“怎么算好解”——即能量泛函(Energy Functional)的设计。
4.1 开篇:病态问题与 MAP 视角
在第1章中,我们建立了通用成像模型 $y = A(x) + n$。 如果我们试图直接求逆 $x_{est} = A^{-1}y$,哪怕 $A$ 是可逆的,结果通常也是灾难性的。这是因为成像逆问题大多是 病态的(Ill-posed)。
4.1.1 为什么直接求逆会失败?
大多数成像算子 $A$(如模糊、降采样)本质上是低通滤波器。它们极大地衰减了高频信息。
- 当我们试图求逆($A^{-1}$)时,本质上是在进行高通滤波。
- 观测噪声 $n$ 通常包含大量高频分量。
- $A^{-1}$ 会将噪声的频率成分放大几个数量级,导致恢复出的图像被杂乱的噪声淹没,原本的图像结构荡然无存。
4.1.2 贝叶斯视角(MAP Estimation)
正则化并非凭空捏造,它在统计学上有严格的解释。最大后验概率估计(MAP)告诉我们: $$ P(x|y) \propto P(y|x) \cdot P(x) $$ 取负对数后,我们得到变分问题的标准形式: $$ \min_x \underbrace{-\log P(y|x)}_{\text{数据保真项 } D(Ax, y)} + \underbrace{-\log P(x)}_{\text{正则项 } \lambda R(x)} $$
- 数据项:描述噪声分布(如高斯噪声对应 $L_2$ 距离)。
- 正则项:描述我们要恢复的图像 $x$ 的先验概率。例如,如果我们认为“自然图像应当是平滑的”,就对应了特定的 $R(x)$。
4.2 二次正则与 Tikhonov:平滑的代价
最经典、数学上最易处理的正则化是 Tikhonov 正则化(在统计学中称为岭回归 Ridge Regression)。
4.2.1 模型形式
$$ E(x) = \frac{1}{2}|Ax - y|_2^2 + \frac{\lambda}{2} |\nabla x|_2^2 $$ 或者更一般的形式 $|Lx|_2^2$,其中 $L$ 是 Tikhonov 矩阵(通常是单位阵或差分矩阵)。
4.2.2 物理与几何直觉
最小化 $|\nabla x|_2^2$ 等价于假设图像是布朗运动的结果,或者说图像平滑度服从高斯分布。 从欧拉-拉格朗日方程(Euler-Lagrange Equation)来看,其梯度流对应于热传导方程(Heat Equation): $$ \frac{\partial x}{\partial t} = \Delta x \quad (\text{扩散过程}) $$ 这意味着 Tikhonov 正则化会像热量扩散一样,让图像的高亮和阴影区域相互中和。
4.2.3 优点与致命缺陷
- 优点:
- 解析解:如果 $A$ 是线性的,这只是一个最小二乘问题,可以通过求解线性方程组 $(A^TA + \lambda \nabla^T\nabla)x = A^Ty$ 直接得到答案(闭式解)。
- 计算极快:利用 FFT(如果 $A$ 是卷积)可以瞬间求解。
- 缺陷:
- 各向同性扩散:它不管你是边缘还是平坦区域,一视同仁地进行平滑。
- 边缘模糊:图像中最重要的高频信息(边缘)被惩罚得最重(因为边缘处梯度很大,平方后更大)。
Rule of Thumb:永远不要在追求视觉质量的自然图像恢复中单独使用 Tikhonov。它只适用于非常具体的科学成像(如某些对平滑度有物理要求的流体场恢复)。
4.3 全变分(TV):保边利器
1992年,Rudin, Osher 和 Fatemi 提出了著名的 ROF 模型,引入了全变分(Total Variation)正则化。这是现代图像处理的基石。
4.3.1 ROF 模型
$$ \min_x \frac{1}{2}|x - y|_2^2 + \lambda |\nabla x|_1 $$ 关键变化:梯度的 $L_1$ 范数 替代了 $L_2$ 范数。
4.3.2 几何直觉:Coarea Formula 与等高线
为什么 $L_1$ 能保边?除了“稀疏性”解释外,几何解释更为深刻。 根据 Coarea Formula,一个函数的 TV 范数等于其所有等高线(Level Sets)的长度之和: $$ TV(x) = \int_{-\infty}^{+\infty} \text{Length}(\{z | x(z) = c\}) dc $$ 最小化 TV,本质上是在缩短图像中所有物体的边界长度。
- 噪声通常表现为细碎、周长很长的小斑点。TV 会迅速抹除这些小斑点(因为这能大幅减少周长)。
- 真实的边缘是长且连贯的。TV 会倾向于把弯曲的边缘拉直,但不会模糊它(不会像热扩散那样把陡坡变成缓坡)。
ASCII 效果对比:一维信号
原始 (Step) 含噪观测 Tikhonov (L2) TV (L1)
+-----+ . : . / +-----+
| | : . : . / | |
| | . : / | |
---+ +--- ... ... ---+ +--- ---+ +---
(边缘变斜坡) (边缘保持陡峭)
4.3.3 各向同性 (Iso) vs 各向异性 (Aniso)
这是工程实现中最容易混淆的细节。
- 各向同性 TV (Iso-TV): $$ |\nabla x|_{1,2} = \sum_i \sqrt{(\nabla_h x)_i^2 + (\nabla_v x)_i^2} $$
-
几何:惩罚梯度的欧几里得长度。具有旋转不变性。
- 效果:倾向于产生圆滑的拐角。 2. 各向异性 TV (Aniso-TV): $$ |\nabla x|_{1,1} = \sum_i (|\nabla_h x|_i + |\nabla_v x|_i) $$
-
几何:惩罚梯度的曼哈顿长度(L1 of L1)。不具备旋转不变性。
- 效果:倾向于产生水平和垂直的边缘。如果你处理的是草图、二维码或建筑物,Aniso-TV 甚至可能比 Iso-TV 更好;但对于人脸或自然风景,它会产生块状伪影。
4.3.4 阶梯效应 (Staircasing Effect)
TV 的阿喀琉斯之踵。由于 TV 的解倾向于分段常数(Piecewise Constant),当它试图逼近一个平滑的渐变区域(如天空、皮肤)时,会产生阶梯状的色块。
- 数学原因:对于线性斜坡数据,TV 正则化的解要么是该斜坡本身($\lambda$ 很小),要么直接变成平坦($\lambda$ 很大),中间状态往往不稳定并退化为阶梯。
4.4 改进 TV:高阶与结构化正则
为了保留 TV 的优点(保边)并去除缺点(阶梯),数学家们进行了大量修正。
4.4.1 Huber-TV:可微性的妥协
为了解决 TV 在 0 点不可微导致的数值困难,以及缓解阶梯效应,常用 Huber 函数近似 $L_1$: $$ H_\epsilon(z) = \begin{cases} \frac{1}{2\epsilon}z^2 & |z| \le \epsilon \\ |z| - \frac{\epsilon}{2} & |z| > \epsilon \end{cases} $$
- 小梯度处(平坦区):表现为 $L_2$(Tikhonov),避免阶梯,产生平滑渐变。
- 大梯度处(边缘):表现为 $L_1$(TV),保持边缘锐利。
Gotcha:$\epsilon$ 参数不仅影响算法收敛速度,也直接决定了平滑与保边的阈值。
4.4.2 TGV (Total Generalized Variation)
TGV 是目前变分图像恢复中公认效果最好的凸正则项之一。 它假设图像 $x$ 近似于一个函数 $v$ 的积分。模型形式(二阶 TGV): $$ \min_{x, v} \alpha_1 |\nabla x - v|_1 + \alpha_0 |\mathcal{E}(v)|_1 $$
- 直觉:引入了一个辅助向量场 $v$ 来吸收图像的导数。
- 如果图像是线性斜坡,$\nabla x$ 是常数。我们可以让 $v = \nabla x$,第一项为0。第二项惩罚 $v$ 的导数(即 $x$ 的二阶导),也是0。
- 结论:TGV 对多项式曲面(如斜坡)的惩罚为0!它能完美重建斜坡而不产生阶梯,同时保留边缘。
4.5 小波与 Frame 正则:频域的稀疏
TV 是在梯度域(空间域的差分)找稀疏性。小波(Wavelet)则是在变换域找稀疏性。
4.5.1 紧框架(Tight Frame)与过完备性
现代图像处理很少使用正交小波基(Orthogonal Basis),因为它们缺乏平移不变性(平移图像会导致系数剧变,产生伪影)。 常用的是过完备字典/紧框架(Over-complete Frame/Dictionary),如 Curvelet, Contourlet, Undecimated Wavelets (UWT)。
- 特点:系数比像素多得多(冗余),这种冗余带来了对平移和纹理更好的鲁棒性。
4.5.2 分析模型 vs 合成模型
这是稀疏建模中最重要的两个流派,设 $W$ 为变换算子(如小波变换)。
- 分析模型 (Analysis Model / Cosparse): $$ \min_x \frac{1}{2}|Ax - y|_2^2 + \lambda |Wx|_1 $$
- 逻辑:把图像 $x$ 扔进变换域,强迫系数稀疏。
- 几何:解位于相空间中多个超平面的交集。
- 优势:结果通常更自然,伪影较少,适合恢复任务。
- 合成模型 (Synthesis Model / Sparse Coding): $$ \min_\alpha \frac{1}{2}|A W^T \alpha - y|_2^2 + \lambda |\alpha|_1, \quad \text{令 } x = W^T \alpha $$
- 逻辑:寻找一组稀疏系数 $\alpha$,用它们组装出图像。
- 优势:模型简单,可用 ISTA/OMP 等算法求解。
- 劣势:如果字典 $W$ 不够好,重建出的图像会有明显的“基函数长相”(如小波的振铃伪影)。
Rule of Thumb:如果是去噪或去模糊,首选分析模型(或 Analysis-Synthesis 混合)。如果是做图像压缩或特征提取,选合成模型。
4.6 非局部正则(Non-local Means / NLTV)
TV 和小波都是局部的(只看邻域)。但自然图像具有自相似性(Self-similarity):眼睛的纹理在左眼和右眼都出现,甚至头发的纹理在全图随处可见。
4.6.1 图拉普拉斯视角
非局部正则化通过构建一个全连接(或大范围连接)的加权图来利用这一特性。
- 对于像素 $i$ 和 $j$,计算它们周围 Patch 的相似度权重 $w_{ij}$。
- 变分 NLTV: $$ J_{NL}(x) = \sum_{i,j} w_{ij} |x_i - x_j| $$ 这实际上是定义在加权图上的 TV。如果 $i$ 和 $j$ 的 Patch 很像($w_{ij}$ 大),我们就强迫 $x_i$ 和 $x_j$ 的值也要接近。
4.6.2 效果与代价
- 效果:这是去噪领域的“核武器”。对于周期性纹理、重复图案,NLTV 的效果远超 TV 和小波。它能从乱码中恢复出整齐的栅格。
- 代价:计算 $w_{ij}$ 需要全图(或大搜索窗)搜索,复杂度极高。通常作为后处理或精细调节步骤。
4.7 数据项的鲁棒化:应对非高斯噪声
正则项决定了图像长什么样,数据项(Data Term) 决定了我们如何容忍误差。
| 数据项形式 | 概率解释 | 物理场景 | 优化特性 |
| 数据项形式 | 概率解释 | 物理场景 | 优化特性 |
|---|---|---|---|
| $L_2$: $\frac{1}{2}|Ax-y|_2^2$ | 高斯噪声 $\mathcal{N}(0, \sigma^2)$ | 通用传感器热噪声 | 光滑凸,梯度是线性的 $(Ax-y)$ |
| $L_1$: $|Ax-y|_1$ | 拉普拉斯/脉冲噪声 | 传输错误、椒盐噪声、死像素 | 非光滑凸,需用 Prox |
| Huber / Charbonnier | 混合分布 | 既有高斯底噪又有偶尔的大离群值 | 光滑凸,鲁棒性好 |
| Kullback-Leibler (KL) | 泊松分布 (Poisson) | 光子计数成像(天文、显微、低光照、医学PET/CT) | 凸,但非Lipschitz梯度 |
关键直觉:$L_2$ 数据项对大误差极其敏感(因为是平方)。如果图像中有遮挡(Inpainting)或死像素,使用 $L_2$ 会导致这些错误被“平均”到周围区域,形成模糊的光晕。此时必须用 $L_1$ 数据项,它能自动“忽略”离群点。
4.8 本章小结:模型选择指南
| 模型 | 核心特征 | 优点 | 缺点 | 适用场景 |
| 模型 | 核心特征 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|
| Tikhonov ($L_2$) | 惩罚梯度平方 | 极快,闭式解 | 边缘模糊 | 光流平滑项、曲面拟合 |
| TV ($L_1$) | 惩罚梯度模长 | 保边,对比度不变 | 阶梯效应,纹理丢失 | 工业检测、卡通图、医学分割预处理 |
| TGV | 一阶+二阶导联合 | 保边且保斜坡 | 计算稍慢 | 高质量自然图像恢复 |
| Wavelet ($L_1$) | 频域稀疏 | 保留纹理细节 | 振铃伪影 (Gibbs) | 纹理丰富的图像去噪 |
| NLTV | 非局部 Patch 相似 | 纹理恢复极强 | 极慢 | 极低信噪比、重复纹理修复 |
4.9 练习题
基础题
-
梯度推导:考虑正则项 $R(x) = \frac{1}{2}|\nabla x|_2^2$。请写出其在离散域的梯度表达式。假设使用周期边界条件。
Hint
回忆拉普拉斯算子 $\Delta$ 与 $\nabla$ 的关系。答案
$\nabla R(x) = -\Delta x$(负拉普拉斯算子)。在离散域对应卷积核 $\begin{bmatrix} 0 & -1 & 0 \\ -1 & 4 & -1 \\ 0 & -1 & 0 \end{bmatrix}$。 -
各向异性计算:给定 3x3 图像块 $\begin{bmatrix} 1 & 1 & 1 \\ 5 & 5 & 5 \\ 1 & 1 & 1 \end{bmatrix}$。计算中心像素的 Aniso-TV 和 Iso-TV贡献(仅考虑中心点的前向差分)。
Hint
$\nabla_h$: 右边减自己; $\nabla_v$: 下边减自己。 -
L1 vs L2 数据项:给定一组观测值 $y = [1, 1, 1, 100, 1]$(明显有一个离群值 100)。 (a) 求 $x$ 最小化 $\sum (x - y_i)^2$。 (b) 求 $x$ 最小化 $\sum |x - y_i|$。 哪个结果更能代表数据的“真实”水平?
答案
(a) $x = \text{mean}(y) = 20.8$。 (b) $x = \text{median}(y) = 1$。 显然 (b) 对离群值鲁棒。
挑战题 / 思考题
-
TGV 的零空间:二阶 TGV 的能量泛函对什么样的图像 $x$ 值为 0?这解释了它为什么能避免阶梯效应?
Hint
考虑 $x$ 为仿射函数(平面)$x(i,j) = ai + bj + c$ 时,$\nabla x$ 是什么?能否找到对应的 $v$ 使各项均为 0? -
分析与合成的等价性:证明当变换矩阵 $W$ 是正交阵(Orthonormal)时,分析模型与合成模型是完全等价的。如果 $W$ 是冗余的(Over-complete),这种等价性还成立吗?
Hint
正交阵满足 $W^T W = I$。代换变量 $x = W^T \alpha \Rightarrow \alpha = Wx$。对于冗余字典,行数 > 列数,逆变换不唯一,模型不再等价。 -
尺度不变性:经典的 TV 模型 $\min \frac{1}{2}|x-y|^2 + \lambda |\nabla x|_1$ 是对比度不变(Contrast Invariant)的吗?即如果 $y \to cy$,最优解 $x^*$ 也会变成 $cx^*$ 吗?如果不是,如何修改模型使其具有这一性质?
Hint
检查数据项和正则项的齐次性(Homogeneity)。二次项是 2 次齐次,L1 是 1 次齐次。不匹配。这也是为什么 $\lambda$ 难调的原因。
4.10 常见陷阱与错误 (Gotchas)
-
离散化梯度的方向错位
- 错误:实现 TV 时,梯度算子 $\nabla$ 用了前向差分,而散度算子($\nabla$ 的转置)也用了前向差分,或者简单地用
imgradient这种经过平滑的算子。 - 后果:优化无法收敛,或者结果出现奇怪的相移。
- 正解:必须严格保证伴随关系(Adjoint Property)。如果 $\nabla$ 是前向差分($x_{i+1}-x_i$),那么 $\nabla^*$ 必须是后向差分($x_{i}-x_{i-1}$)的负数。可以在 Chapter 17 找到代码验证方法。
- 错误:实现 TV 时,梯度算子 $\nabla$ 用了前向差分,而散度算子($\nabla$ 的转置)也用了前向差分,或者简单地用
-
边界条件(Boundary Conditions)
- 现象:恢复出的图像四周有一圈黑框或奇怪的波纹。
- 原因:FFT 实现卷积时默认是周期边界(Circular)。图像左边的边缘会和右边相互作用。
- 对策:在进行计算前对图像进行
pad(如对称填充),或者使用 Neumann 边界条件(反射边界)推导差分矩阵。
-
$\lambda$ 的数值敏感性
- 陷阱:直接对 0-255 的图像进行优化。
- 后果:数据项 $|x-y|^2$ 的值会非常大($255^2 \approx 65000$),导致你需要设置 $\lambda$ 为 0.0001 甚至更小,不仅难调,还容易遇到浮点精度问题。
- 建议:始终将图像归一化到
[0, 1]区间处理。此时 $\lambda$ 通常在 $10^{-3}$ 到 $10^{-1}$ 之间。
-
把 Prox 算子当梯度用
- 错误:在使用梯度下降法求解 TV 时,试图直接对 $|\nabla x|_1$ 求导。
- 问题:$L_1$ 在 0 处不可导。虽然可以用次梯度,但直接梯度下降会震荡。
- 对策:对于非光滑项(TV, L1),必须使用 近端梯度法(Proximal Gradient)、ADMM 或 Primal-Dual 算法,或者使用 Huber 平滑近似后再求导。不要强行求导。