本章摘要 在理想的教科书世界里,噪声服从高斯分布,图像先验是完美的拉普拉斯分布,优化问题总是凸的。然而,现实世界的成像充满了“意外”:传感器坏点、动态场景中的遮挡、非高斯的重尾噪声,以及 $L_1$ 正则化带来的固有偏差(Bias)。
本章我们将跨越“凸优化”的安全边界,进入非凸(Non-convex)与鲁棒(Robust)的荒原。我们将揭示如何设计“甚至能忽略 50% 错误数据”的损失函数,如何用非凸稀疏势函数恢复出比 $L_1$ 更锐利的边缘,并掌握 MM(Majorization-Minimization)、IRLS 和 HQS 这三把利剑,将棘手的非凸优化问题驯化为我们熟悉的一系列线性子问题。
最小二乘法($L_2$ Loss)基于高斯噪声假设,其本质是“民主”的:它试图让所有数据点的误差平方和最小。这意味着,一个巨大的异常值(Outlier)可以绑架整个模型。
[100, 102, 98, 100]。2000。480。背景变成了灰色,完全错误。100。背景恢复正确。看起来 $L_1$ 赢了?但在更复杂的线性回归或层析成像(Tomography)中,当异常值比例很高或具有结构性(如大面积遮挡)时,$L_1$ 的“软阈值”策略依然会受到牵连,产生收缩效应。我们需要更激进的策略——M-估计。
M-估计将问题建模为 $\min_x \sum_i \rho(r_i)$,其中 $r_i$ 是残差。 衡量鲁棒性的核心指标是影响函数(Influence Function):$\psi(r) = \rho’(r)$。它描述了单个数据点的误差如何“拉动”最终的解。
我们通过 ASCII 图来直观对比三种势函数及其导数行为:
1. L2 (Quadratic) 2. L1 (Absolute) 3. Robust (e.g., Tukey/Geman)
"民主派" "中立派" "精英派/排他派"
Loss function rho(r):
| / | / |________
| / | / /
|/ |/ /
--+-- --+-- --+--
(Parabola) (V-shape) (Saturates at const)
Influence function psi(r) = rho'(r):
| / |__ | _
| / | | | / \
______|/______ _____|__|_____ ____|/ \________
/ | Redescending!
/ |__ (Returns to 0)
Linear Growth Constant Pull Zero Pull at infinity
(Outliers dominate) (Outliers influence) (Outliers ignored)
在正则化项(Prior)中,非凸性同样重要。$L_1$ 范数虽然能诱导稀疏,但它是有代价的。
$L_1$ 的近端算子是软阈值(Soft Thresholding): \(S_\lambda(y) = \text{sign}(y) \max(|y| - \lambda, 0)\) 观察公式可知,对于那些非常大的真实信号($|y| \gg \lambda$),它们也被减去了 $\lambda$。
为了修正偏差,我们需要一种“在这个数值很小时惩罚它,在它很大时放过它”的函数。
| 形式:$|x|_p^p = \sum | x_i | ^p$。 |
如何优化上述非凸函数?梯度下降法容易陷入局部极小且步长难调。MM 框架提供了一种将非凸问题转化为凸问题序列的通用方法论。
不要试图一步登天直接最小化复杂的 $F(x)$。我们寻找一个简单的函数 $G(x, x_k)$(通常是二次函数),它像一个“碗”一样扣在 $F(x)$ 上方,并与其在当前点 $x_k$ 相切。
G(x, x_k) [Surrogate: Quadratic "Bowl"]
\ | /
\ | /
\ | /
\ | /
\ V /
F(x) [Original] \_|_ /
(Wiggly) / | \
______________/ . \_______________
/ . \
x_k . x_{k+1}
.
"Descent Guarantee"
IRLS 是 MM 算法在图像处理中最广泛的应用形式,专门用于解决 $L_p$ 范数 ($0 < p \le 1$) 和 M-估计问题。
考虑问题 $\min_x \sum_i \rho((Ax-y)_i)$。 令其梯度为 0:$A^T \rho’(Ax-y) = 0$。 利用恒等式 $\rho’(r) = \frac{\rho’(r)}{r} \cdot r$,我们定义权重 $w(r) = \frac{\rho’(r)}{r}$。 方程变为加权正规方程(Weighted Normal Equation): \(A^T W(x) (Ax - y) = 0\) 其中 $W(x)$ 是对角矩阵,$\text{diag}(W)_i = w((Ax-y)_i)$。
| 模型 | 势函数 $\rho(r)$ | 权重 $w(r)$ | 物理含义 | | :— | :— | :— | :— | | Gaussian ($L_2$) | $r^2$ | $1$ | 所有数据平等 | | Laplace ($L_1$) | $\lvert r\rvert$ | $1/\lvert r\rvert$ | 误差越大,权重越小 | | $L_p$ ($0<p<1$) | $\lvert r\rvert^p$ | $1/\lvert r\rvert^{2-p}$ | 极度抑制大误差/稀疏化 | | Geman-McClure | $\frac{r^2}{r^2+\sigma^2}$ | $\frac{2\sigma^2}{(r^2+\sigma^2)^2}$ | 红降权重(快速衰减至0)|
IRLS 算法流程:
Rule of Thumb: IRLS 的收敛速度通常是超线性的(比一阶方法快),但每次迭代需要解线性方程组。如果 $A$ 是卷积,可用 FFT 快速求解;如果是稀疏矩阵,用预条件共轭梯度(PCG)。
当目标函数包含难以处理的非凸正则项 $\rho(x)$ 时,HQS 提供了一种将其与数据项解耦的策略。它也是现代 Plug-and-Play (PnP) 方法的前身。
许多势函数 $\rho(x)$ 可以写成下确界形式(基于凸共轭理论的推广): \(\rho(x) = \inf_{z} \left( \frac{\mu}{2} (x - z)^2 + \psi(z) \right)\) 这里引入了辅助变量 $z$ 和惩罚参数 $\mu$。 原始问题 $\min_x |Ax-y|^2 + \lambda \rho(x)$ 被转化为: \(\min_{x, z} \|Ax-y\|^2 + \frac{\lambda \mu}{2} \|x - z\|^2 + \lambda \psi(z)\)
我们将原来的难问题拆解为两个子问题:
在 HQS 中,$\mu$ 通常不是固定的。
非凸函数像一个充满坑洼的山谷,梯度下降很容易卡在半山腰的坑里。 生存指南:渐进非凸性 (Graduated Non-Convexity, GNC)
| 概念 | 核心思想 | 适用场景 | 关键公式/算子 |
|---|---|---|---|
| Robust Statistics | 抑制离群值,切断大误差的影响 | 椒盐噪声、遮挡去除、背景建模 | Huber, Tukey, Welsch |
| $L_p$ ($p<1$) | 减少 $L_1$ 的偏差,获得更稀疏的解 | 压缩感知、超分、去模糊 | $\lvert x\rvert^p$, SCAD |
| IRLS | 将非凸/非线性转化为加权最小二乘序列 | $L_p$ 优化, M-估计 | $W = \text{diag}(1/\lvert r\rvert)$ |
| HQS | 变量分裂,分离数据项与先验项 | 图像复原, PnP 框架 | $x$-step (Inversion), $z$-step (Prox) |
| MM | 构造凸上界函数逼近非凸函数 | 通用非凸优化框架 | Surrogate Function |
IRLS 的 $\epsilon$ 依赖症: 很多初学者写 IRLS 代码时,为了防止除以零,将 $\epsilon$ 设为固定值(如 $1e-3$)。这实际上改变了目标函数,把 $L_1$ 变成了 Huber。如果你发现结果不够稀疏,尝试使用动态 $\epsilon$ 策略:每次迭代令 $\epsilon_{k+1} = \max(\epsilon_k / \eta, 10^{-8})$。
非凸优化的“随机性”: 如果在非凸优化中发现结果每次跑都不一样,或者有很多噪点,通常是因为陷入了局部极小。必须使用 Warm Start(热启动):先跑 50 次 $L_2$ 或 $L_1$ 迭代,再切换到非凸 Loss。