第14章：文本/图像驱动的3D生成

本章深入探讨如何利用2D扩散模型的强大生成能力来指导3D内容创建。我们将详细分析Score Distillation Sampling (SDS)及其改进方法，理解可微渲染在连接2D与3D表示中的关键作用，并探讨多视角一致性的保证机制。这些方法代表了当前3D生成领域最前沿的技术方向，能够从文本或图像输入生成高质量的3D网格模型。

14.1 DreamFusion与SDS损失

14.1.1 问题设定与动机

文本到3D生成的核心挑战在于缺乏大规模的配对数据集。与2D领域拥有数十亿文本-图像对不同，3D资产的标注成本高昂且数量有限。DreamFusion提出了一个巧妙的解决方案：利用预训练的2D扩散模型作为先验，通过可微渲染将2D监督信号传递到3D表示。

关键观察是：一个好的3D模型从任意视角渲染都应该生成合理的2D图像。这启发了使用2D扩散模型来评估渲染质量，并通过梯度下降优化3D表示。

14.1.2 Score Distillation Sampling原理

SDS的核心思想是将扩散模型的去噪过程转化为3D参数的优化目标。设$\theta$为3D表示的参数（如NeRF的MLP权重），$x = g(\theta, c)$为从视角$c$渲染的图像。

扩散模型通过学习噪声预测网络$\epsilon_\phi(x_t, t, y)$来建模条件分布$p(x|y)$，其中$x_t$是时间步$t$的噪声图像，$y$是文本条件。前向扩散过程定义为：

$$x_t = \sqrt{\bar{\alpha}_t}x + \sqrt{1-\bar{\alpha}_t}\epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$$ SDS损失通过以下梯度更新3D参数： $$\nabla_\theta \mathcal{L}_{\text{SDS}} = \mathbb{E}_{t,\epsilon,c}\left[ w(t) \left(\epsilon_\phi(x_t, t, y) - \epsilon\right) \frac{\partial x}{\partial \theta} \right]$$ 其中$w(t)$是与噪声调度相关的权重函数。这个梯度可以理解为：扩散模型预测的"清洁"方向与当前渲染之间的差异，通过链式法则反传到3D参数。

14.1.3 算法实现细节

DreamFusion的完整优化流程包括：

3D表示初始化：使用密度场初始化为球形或随机噪声
相机采样策略： - 仰角：$\phi \sim \mathcal{U}[-30°, 90°]$（避免底部视角） - 方位角：$\theta \sim \mathcal{U}[0°, 360°]$ - 距离：固定或轻微扰动
时间步采样： $$t \sim \mathcal{U}[t_{\min}, t_{\max}]$$ 其中$t_{\min} = 0.02, t_{\max} = 0.98$避免极端情况
梯度计算与更新：

对于每次迭代：
  采样相机位姿c
  渲染图像x = g(θ, c)
  采样时间步t和噪声ε
  计算x_t = √(ᾱ_t)x + √(1-ᾱ_t)ε
  预测噪声ε_φ = UNet(x_t, t, y)
  计算SDS梯度并更新θ

14.1.4 关键技术改进

视图相关的光照建模：为了捕捉材质的视角依赖效应，DreamFusion使用了改进的NeRF表示： $$\mathbf{c}(\mathbf{x}, \mathbf{d}) = \text{MLP}_{\text{color}}(\mathbf{f}(\mathbf{x}), \mathbf{d})$$ 其中$\mathbf{f}(\mathbf{x})$是位置特征，$\mathbf{d}$是视角方向。

Shading模型：引入可学习的环境光照和反照率分解： $$\mathbf{c}_{\text{shaded}} = \mathbf{a} \cdot (\mathbf{l}_{\text{ambient}} + \mathbf{l}_{\text{diffuse}} \cdot \max(0, \mathbf{n} \cdot \mathbf{l}))$$ 密度正则化：为避免浮动的密度碎片，添加熵正则化： $$\mathcal{L}_{\text{entropy}} = -\sum_i \sigma_i \log \sigma_i$$

14.2 VSD改进算法

14.2.1 SDS的局限性分析

尽管SDS在文本到3D生成中取得了突破性进展，但它存在几个关键问题：

过饱和与过平滑：生成的3D模型往往色彩过于鲜艳，细节缺失
模式寻求行为：倾向于生成扩散模型的模式而非真实样本
梯度噪声大：单样本估计导致优化不稳定
缺乏多样性：相同文本提示往往生成相似结果

这些问题的根源在于SDS本质上是在优化一个有偏的目标函数。

14.2.2 Variational Score Distillation原理

ProlificDreamer提出的VSD通过变分推断框架解决上述问题。核心思想是同时优化3D参数$\theta$和一个辅助的扩散模型$\phi'$，形成双向优化：

变分目标函数： $$\mathcal{L}_{\text{VSD}}(\theta, \phi') = D_{KL}(q_\theta || p_\phi) - D_{KL}(q_{\phi'} || p_\phi)$$ 其中：

$q_\theta$：由3D模型渲染诱导的分布
$p_\phi$：预训练扩散模型的分布
$q_{\phi'}$：LoRA微调的扩散模型分布

梯度推导：通过变分下界的优化，VSD梯度为： $$\nabla_\theta \mathcal{L}_{\text{VSD}} = \mathbb{E}_{t,c,\epsilon}\left[ w(t) \left(\epsilon_{\phi'}(x_t, t, c, y) - \epsilon\right) \frac{\partial x}{\partial \theta} \right]$$ 关键区别是使用$\epsilon_{\phi'}$而非$\epsilon_\phi$，其中$\phi'$通过以下方式更新： $$\nabla_{\phi'} \mathcal{L}_{\text{VSD}} = \mathbb{E}_{t,c,\epsilon}\left[ w(t) ||\epsilon_{\phi'}(x_t, t, c, y) - \epsilon_{\text{target}}||^2 \right]$$ 其中$\epsilon_{\text{target}} = \epsilon_\phi(x_t, t, y) - w'(t)(x - x_{\text{render}})$

14.2.3 粒子优化视角

VSD可以从粒子优化的角度理解。将3D场景视为粒子，VSD执行：

粒子建议：通过当前3D参数渲染获得样本
评分：使用预训练模型评估样本质量
更新：基于评分调整3D参数和辅助模型

这种机制类似于Stein变分梯度下降(SVGD)，提供了理论保证： $$\lim_{k \to \infty} q^{(k)}_\theta = p_{\text{target}}$$

14.2.4 实现技巧与改进

LoRA微调策略：为了高效微调扩散模型，VSD使用低秩适应(LoRA)： $$W' = W + BA$$ 其中$B \in \mathbb{R}^{d \times r}, A \in \mathbb{R}^{r \times k}$，$r \ll \min(d, k)$

多分辨率训练：采用渐进式分辨率提升策略：

初始阶段：64×64低分辨率快速收敛
中期阶段：256×256捕捉结构
精细阶段：512×512添加细节

场景参数化：使用三平面表示替代纯MLP： $$\mathbf{f}(\mathbf{x}) = \mathbf{F}_{xy}(\pi_{xy}(\mathbf{x})) + \mathbf{F}_{xz}(\pi_{xz}(\mathbf{x})) + \mathbf{F}_{yz}(\pi_{yz}(\mathbf{x}))$$

14.2.5 VSD vs SDS对比

| 特性 | SDS | VSD |

特性	SDS	VSD
优化目标	单向KL散度	双向变分目标
梯度估计	单模型	双模型协同
生成质量	过饱和倾向	自然真实
计算成本	相对较低	需要额外LoRA
收敛速度	较快	稍慢但更稳定
多样性	有限	更丰富

14.3 可微渲染与2D监督

14.3.1 可微渲染的数学基础

可微渲染是连接3D几何与2D观察的桥梁，其核心是使渲染过程对场景参数可微。传统图形管线中的离散操作（如光栅化、z-buffer）需要重新设计以支持梯度反传。

体渲染方程：对于射线$\mathbf{r}(t) = \mathbf{o} + t\mathbf{d}$，颜色积分为： $$C(\mathbf{r}) = \int_{t_n}^{t_f} T(t) \sigma(\mathbf{r}(t)) \mathbf{c}(\mathbf{r}(t), \mathbf{d}) dt$$ 其中透射率： $$T(t) = \exp\left(-\int_{t_n}^{t} \sigma(\mathbf{r}(s)) ds\right)$$ 离散化与数值积分：实践中使用分层采样和数值积分： $$\hat{C}(\mathbf{r}) = \sum_{i=1}^{N} T_i (1 - \exp(-\sigma_i \delta_i)) \mathbf{c}_i$$ 其中$T_i = \exp\left(-\sum_{j=1}^{i-1} \sigma_j \delta_j\right)$，$\delta_i = t_{i+1} - t_i$

14.3.2 网格渲染的可微化

对于显式网格表示，需要处理几个关键的不可微操作：

软光栅化：将硬边界替换为软边界函数： $$w_i(\mathbf{p}) = \sigma\left(\frac{d_i(\mathbf{p})}{\tau}\right)$$ 其中$d_i(\mathbf{p})$是像素$\mathbf{p}$到三角形$i$的符号距离，$\tau$控制软化程度。

可微深度测试：使用软最小值替代硬z-buffer： $$z_{\text{soft}}(\mathbf{p}) = \frac{\sum_i z_i w_i e^{-z_i/\gamma}}{\sum_i w_i e^{-z_i/\gamma}}$$ 法向量计算：通过顶点位置的有限差分计算面法向： $$\mathbf{n}_f = \frac{(\mathbf{v}_2 - \mathbf{v}_1) \times (\mathbf{v}_3 - \mathbf{v}_1)}{||(\mathbf{v}_2 - \mathbf{v}_1) \times (\mathbf{v}_3 - \mathbf{v}_1)||}$$

14.3.3 2D监督信号的设计

像素级RGB损失： $$\mathcal{L}_{\text{RGB}} = ||\hat{I} - I_{\text{target}}||_p$$ 其中$p \in \{1, 2\}$，选择取决于对异常值的敏感度。

感知损失：利用预训练网络的特征匹配： $$\mathcal{L}_{\text{perceptual}} = \sum_{l} \lambda_l ||\phi_l(\hat{I}) - \phi_l(I_{\text{target}})||_2^2$$ 其中$\phi_l$是VGG或CLIP的第$l$层特征。

CLIP方向损失：用于文本引导时保持语义一致性： $$\mathcal{L}_{\text{CLIP}} = 1 - \cos(\text{CLIP}_{\text{img}}(\hat{I}), \text{CLIP}_{\text{text}}(y))$$

14.3.4 光照与材质分解

为了生成可重光照的3D资产，需要分解几何、反照率和光照：

渲染方程简化： $$L_o = \int_{\Omega} f_r(\mathbf{n}, \mathbf{w}_i, \mathbf{w}_o) L_i(\mathbf{w}_i) (\mathbf{n} \cdot \mathbf{w}_i) d\mathbf{w}_i$$ 球谐光照近似： $$L_i(\mathbf{w}) = \sum_{l=0}^{L} \sum_{m=-l}^{l} l_{lm} Y_{lm}(\mathbf{w})$$ 通常$L=2$（9个系数）足够表示低频环境光。

BRDF简化：采用Lambertian假设： $$f_r = \frac{\rho}{\pi}$$ 或使用更复杂的Disney BRDF进行金属度、粗糙度建模。

14.3.5 训练策略与技巧

渐进式训练：

几何阶段：固定简单光照，优化形状
材质阶段：固定几何，优化反照率和BRDF参数
联合优化：微调所有参数

视角退火：初期使用正面视角，逐渐增加视角多样性： $$p(\phi_t) \propto \exp\left(-\frac{(\phi_t - \phi_{\text{front}})^2}{2\sigma_t^2}\right)$$ 其中$\sigma_t$随训练进程增大。

正则化集合：

法向平滑：$\mathcal{L}_{\text{smooth}} = \sum_{(i,j) \in \mathcal{E}} ||\mathbf{n}_i - \mathbf{n}_j||^2$
反照率稀疏：$\mathcal{L}_{\text{sparse}} = ||\nabla \rho||_1$
光照白化：$\mathcal{L}_{\text{white}} = ||\bar{L} - L_{\text{ambient}}||^2$

14.4 多视角一致性

14.4.1 多视角不一致问题的根源

文本/图像驱动的3D生成中，多视角不一致性（Janus问题）是一个普遍挑战。主要表现为：

多面问题：物体不同角度出现不同的正面特征
内容漂移：纹理细节在视角变化时不稳定
几何扭曲：形状在某些视角下不合理
光照不一致：阴影和高光位置错误

这些问题源于2D扩散模型的训练数据偏差——大多数图像都是从正面或3/4视角拍摄。

14.4.2 几何一致性约束

深度一致性：利用多视角的深度图约束： $$\mathcal{L}_{\text{depth}} = \sum_{(i,j) \in \mathcal{P}} ||D_i - \Pi_{i \leftarrow j}(D_j)||_1$$ 其中$\Pi_{i \leftarrow j}$是从视角$j$到$i$的重投影操作。

法向一致性：确保表面法向在不同视角下一致： $$\mathcal{L}_{\text{normal}} = \sum_{(i,j)} ||\mathbf{R}_i^{-1}\mathbf{n}_i - \mathbf{R}_j^{-1}\mathbf{n}_j||^2$$ 其中$\mathbf{R}_i$是相机$i$的旋转矩阵。

轮廓一致性：使用视觉外壳(Visual Hull)约束： $$\mathcal{L}_{\text{silhouette}} = \text{IoU}(S_{\text{rendered}}, S_{\text{hull}})$$

14.4.3 时序一致性技术

锚点视图机制：选择关键视角作为锚点，其他视角与之保持一致： $$\mathcal{L}_{\text{anchor}} = \sum_{i \in \mathcal{A}} \sum_{j \notin \mathcal{A}} w_{ij} d(\mathcal{F}_i, \mathcal{W}_{i \leftarrow j}(\mathcal{F}_j))$$ 其中$\mathcal{F}_i$是视角$i$的特征，$\mathcal{W}_{i \leftarrow j}$是扭曲函数。

循环一致性：通过循环路径验证几何一致性： $$\mathbf{p} \xrightarrow{\Pi_{1 \rightarrow 2}} \mathbf{p}_2 \xrightarrow{\Pi_{2 \rightarrow 3}} \mathbf{p}_3 \xrightarrow{\Pi_{3 \rightarrow 1}} \mathbf{p}'$$ 要求$||\mathbf{p} - \mathbf{p}'|| < \epsilon$

14.4.4 多视角扩散模型

MVDream架构：将2D U-Net扩展为多视角感知：

输入: 多视角图像 {x_1, x_2, ..., x_n}

1. 独立编码每个视角
2. 交叉视角注意力：
   Q_i = W_Q f_i, K_j = W_K f_j, V_j = W_V f_j
   Attention(Q_i, K_{1:n}, V_{1:n})

3. 融合并解码

相机条件注入：将相机参数编码为条件： $$\mathbf{c}_{\text{cam}} = [\sin(\theta), \cos(\theta), \sin(\phi), \cos(\phi), r]$$ 通过交叉注意力或特征调制注入。

14.4.5 3D感知的Score Distillation

3D-aware SDS：修改SDS以考虑多视角： $$\nabla_\theta \mathcal{L}_{\text{3D-SDS}} = \mathbb{E}_{c \sim p(c)}\left[ \sum_{i=1}^{N} w_i \left(\epsilon_\phi(x_i^t, t, y, c_i) - \epsilon\right) \frac{\partial x_i}{\partial \theta} \right]$$ 其中同时优化$N$个相关视角。

视角依赖的权重：根据视角质量调整权重： $$w(c) = \exp\left(-\lambda \cdot \text{uncertainty}(c)\right)$$ 不确定性可通过扩散模型的预测方差估计。

14.4.6 实践技巧与改进策略

多分辨率特征匹配：在不同尺度上强制一致性： $$\mathcal{L}_{\text{multi-scale}} = \sum_{s} \lambda_s \mathcal{L}_{\text{consistency}}^{(s)}$$ 渐进式视角扩展：

初始：仅优化正面视角
扩展：逐渐加入侧面视角
全局：所有视角联合优化

对称性先验：对于对称物体，强制镜像一致性： $$\mathcal{L}_{\text{symmetry}} = ||f(\mathbf{x}) - f(\mathcal{M}(\mathbf{x}))||^2$$ 其中$\mathcal{M}$是镜像变换。

视角插值正则化：确保中间视角的平滑过渡： $$\mathcal{L}_{\text{interp}} = ||\mathcal{R}(\theta_i + \Delta\theta) - (1-\alpha)\mathcal{R}(\theta_i) - \alpha\mathcal{R}(\theta_{i+1})||^2$$ 这些技术的组合使用能够显著提升生成3D内容的多视角一致性，产生更加真实和稳定的3D模型。

本章小结

本章系统介绍了文本/图像驱动的3D生成技术，重点探讨了如何利用2D扩散模型指导3D内容创建：

核心概念：

Score Distillation Sampling (SDS)：将2D扩散模型的去噪能力转化为3D优化目标，通过可微渲染建立2D-3D桥梁
Variational Score Distillation (VSD)：通过变分框架和双模型优化解决SDS的过饱和问题
可微渲染：使传统图形管线支持梯度反传，包括软光栅化、可微深度测试等技术
多视角一致性：通过几何约束、时序一致性和3D感知设计解决Janus问题

关键公式回顾：

SDS梯度：$\nabla_\theta \mathcal{L}_{\text{SDS}} = \mathbb{E}_{t,\epsilon,c}[w(t)(\epsilon_\phi(x_t,t,y)-\epsilon)\frac{\partial x}{\partial \theta}]$
VSD目标：$\mathcal{L}_{\text{VSD}} = D_{KL}(q_\theta||p_\phi) - D_{KL}(q_{\phi'}||p_\phi)$
体渲染方程：$C(\mathbf{r}) = \int T(t)\sigma(\mathbf{r}(t))\mathbf{c}(\mathbf{r}(t),\mathbf{d})dt$

实践要点：

噪声调度和时间步采样策略对生成质量影响显著
多分辨率训练和视角退火能够提升收敛稳定性
光照与材质分解是生成可重光照资产的关键
组合多种一致性约束能有效缓解多视角不一致问题

这些方法代表了当前3D生成领域的前沿，能够从简单的文本描述生成复杂的3D模型，为3D内容创作开辟了新的可能性。

练习题

基础题

练习14.1：推导SDS损失函数给定扩散模型的前向过程$x_t = \sqrt{\bar{\alpha}_t}x + \sqrt{1-\bar{\alpha}_t}\epsilon$，证明SDS梯度可以解释为将渲染图像"拉向"扩散模型的高概率区域。

Hint：考虑score function $\nabla_x \log p_t(x_t) = -\frac{1}{\sqrt{1-\bar{\alpha}_t}}(\epsilon_\phi(x_t,t,y))$

参考答案

从score matching的角度，扩散模型学习score function： $$\nabla_{x_t} \log p_t(x_t|y) \approx -\frac{\epsilon_\phi(x_t,t,y)}{\sqrt{1-\bar{\alpha}_t}}$$ SDS本质上是在做梯度上升以最大化$\log p(x|y)$： $$\nabla_\theta \log p(g(\theta)|y) = \nabla_\theta g(\theta) \cdot \nabla_x \log p(x|y)|_{x=g(\theta)}$$ 通过DDPM的训练目标，这等价于最小化噪声预测误差，得到SDS梯度形式。关键洞察是SDS将3D参数优化转化为在扩散模型概率空间中的模式寻找。

练习14.2：分析VSD的收敛性说明为什么VSD比SDS能够生成更自然的结果，从KL散度优化的角度进行分析。

Hint：考虑forward KL vs reverse KL的区别

参考答案

SDS优化反向KL散度$D_{KL}(q_\theta||p_\phi)$，这是模式寻求的：当$p_\phi$有多个模式时，$q_\theta$倾向于选择单一高概率模式，导致过饱和。

VSD通过引入辅助分布$q_{\phi'}$，优化： $$\min_\theta D_{KL}(q_\theta||p_\phi) - \max_{\phi'} D_{KL}(q_{\phi'}||p_\phi)$$ 这创建了一个"缓冲区"，$q_{\phi'}$适应$q_\theta$的当前状态，提供更平滑的梯度信号，避免了直接模式寻求行为。

练习14.3：设计可微光栅化描述如何将传统的三角形光栅化过程变为可微操作，特别是处理边界像素的策略。

Hint：考虑使用sigmoid函数软化边界

参考答案

传统光栅化使用硬判断：像素在三角形内为1，外为0。可微版本：

计算像素中心到三角形边的符号距离$d$
使用sigmoid软化：$w = \sigma(d/\tau)$，其中$\tau$控制软化程度
对于部分覆盖的像素，权重在(0,1)之间，支持梯度流
梯度通过链式法则：$\frac{\partial w}{\partial v} = \frac{\partial w}{\partial d} \cdot \frac{\partial d}{\partial v}$

关键是平衡软化程度：太硬导致梯度消失，太软导致几何模糊。

挑战题

练习14.4：设计多尺度SDS 提出一个多尺度版本的SDS，在不同分辨率下同时优化，分析其优缺点。

Hint：考虑金字塔结构和尺度间的信息传递

参考答案

多尺度SDS设计： $$\mathcal{L}_{\text{MS-SDS}} = \sum_{s} \lambda_s \mathcal{L}_{\text{SDS}}^{(s)}$$ 其中$s$表示尺度级别。实现策略：

金字塔渲染：在多个分辨率渲染（如64, 128, 256, 512）
尺度特定噪声：每个尺度使用不同的噪声调度
渐进激活：先优化低分辨率，逐步激活高分辨率
跨尺度正则化：$\mathcal{L}_{\text{cross}} = ||\uparrow I^{(s)} - I^{(s+1)}||$

优点：更快收敛、多尺度细节；缺点：内存开销大、超参数复杂。

练习14.5：分析Janus问题的信息论根源从信息论角度解释为什么2D监督会导致多视角不一致，并提出理论解决框架。

Hint：考虑条件熵和互信息

参考答案

信息论分析：

设$X$为3D形状，$Y_i$为视角$i$的2D观察。Janus问题源于： $$H(X|Y_i) > 0$$ 即单视角观察不能完全确定3D形状。当使用独立的2D监督时： $$I(Y_i; Y_j|X) < I(Y_i; Y_j)$$ 解决框架：最大化多视角互信息 $$\max_\theta I(Y_1, ..., Y_n; X_\theta) = H(Y_1,...,Y_n) - H(Y_1,...,Y_n|X_\theta)$$ 实践方法：

联合建模多视角分布
添加视角间的互信息正则化
使用3D感知的表示学习

练习14.6：优化CFG在3D生成中的应用 Classifier-Free Guidance (CFG)如何适配到3D生成？设计一个改进的引导策略。

Hint：考虑3D特有的几何先验

参考答案

标准CFG：$\tilde{\epsilon} = \epsilon_\phi(x_t, \emptyset) + s(\epsilon_\phi(x_t, y) - \epsilon_\phi(x_t, \emptyset))$

3D适配的挑战：

不同视角需要不同的引导强度
几何与纹理需要解耦引导

改进策略： $$\tilde{\epsilon} = \epsilon_\phi(x_t, \emptyset) + s_g(c)G(\epsilon_y - \epsilon_\emptyset) + s_t(c)T(\epsilon_y - \epsilon_\emptyset)$$ 其中：

$s_g(c), s_t(c)$：视角相关的几何/纹理引导强度
$G, T$：分离几何和纹理分量的算子
正面视角使用强纹理引导，侧面视角使用强几何引导

练习14.7：设计端到端的网格生成损失提出一个直接在网格空间优化的损失函数，避免体渲染的计算开销。

Hint：考虑直接在网格顶点上定义可微损失

参考答案

端到端网格损失设计： $$\mathcal{L}_{\text{mesh}} = \mathcal{L}_{\text{vertex}} + \mathcal{L}_{\text{edge}} + \mathcal{L}_{\text{face}} + \mathcal{L}_{\text{render}}$$ 各分量定义：

顶点损失：直接在顶点特征上应用扩散模型 $$\mathcal{L}_{\text{vertex}} = \text{SDS}(\mathbf{V}, \mathbf{F}_v)$$
边损失：保持边长度分布 $$\mathcal{L}_{\text{edge}} = \text{KL}(p(|\mathbf{e}|) || p_{\text{prior}}(|\mathbf{e}|))$$
面损失：正则化面法向 $$\mathcal{L}_{\text{face}} = \sum_{f} \text{var}(\mathbf{n}_f)$$
稀疏渲染损失：仅在关键点评估 $$\mathcal{L}_{\text{render}} = \text{SDS}(\text{KeyPoints}(\mathcal{R}(\mathcal{M})))$$ 优势：避免体渲染开销；挑战：需要设计网格空间的扩散模型。

练习14.8：分析计算-质量权衡给定计算预算$B$（以GPU小时计），如何在SDS迭代次数、渲染分辨率、批大小之间分配以获得最佳质量？

Hint：建立质量关于各参数的模型

参考答案

设质量函数： $$Q = f(N, R, B_s) \text{ s.t. } N \cdot C(R) \cdot B_s \leq B$$ 其中$N$=迭代次数，$R$=分辨率，$B_s$=批大小，$C(R) \propto R^2$。

经验模型： $$Q \approx \log(N)^\alpha \cdot \log(R)^\beta \cdot \sqrt{B_s}$$

典型值：$\alpha \approx 0.6, \beta \approx 0.3$

优化策略：

早期（探索）：低分辨率(64-128)，大批量，多迭代
中期（收敛）：中分辨率(256)，平衡配置
后期（精细）：高分辨率(512)，小批量，少迭代

实践建议：

$R$: 64→128→256→512（阶段式）
$B_s$: 4→2→1（递减）
$N$: 占总预算的50%→30%→20%

常见陷阱与错误

1. SDS相关问题

过饱和问题

表现：生成的模型颜色过于鲜艳，缺乏真实感
原因：SDS倾向于最大化扩散模型的模式
解决：使用VSD、降低CFG权重、添加色彩正则化

收敛不稳定

表现：损失震荡，几何突变
原因：梯度噪声大，学习率不当
解决：使用EMA、梯度裁剪、自适应学习率

2. 多视角一致性

Janus问题（多面问题）

表现：物体有多个"正面"
原因：2D模型的视角偏差
解决：使用多视角扩散模型、添加几何约束、视角退火

纹理漂移

表现：纹理细节在不同角度不一致
原因：独立优化各视角
解决：锚点机制、循环一致性损失、特征匹配

3. 渲染相关

梯度消失

表现：某些区域无法优化
原因：硬边界、深度遮挡
解决：软光栅化、多样本抗锯齿、分层采样

内存爆炸

表现：高分辨率渲染OOM
原因：体渲染的立方复杂度
解决：稀疏采样、自适应分辨率、checkpoint技术

4. 优化策略

局部最优

表现：生成简单几何形状
原因：初始化不当、探索不足
解决：随机初始化、温度退火、多起点优化

训练时间过长

表现：收敛需要数小时
原因：逐样本优化的本质
解决：多分辨率训练、早停策略、并行化

5. 调试技巧

诊断工具：

可视化中间渲染结果
监控各损失分量的贡献
检查梯度范数和更新幅度
分析视角分布的均匀性

常见错误排查：

检查相机参数范围是否合理
验证噪声调度是否过激进
确认渲染分辨率与模型容量匹配
测试不同随机种子的稳定性

记住：文本/图像到3D是一个欠定问题，需要仔细的先验设计和正则化策略。成功的关键在于平衡2D监督信号与3D几何约束。