第15章:前馈式快速生成
本章深入探讨前馈式3D网格生成方法,这类方法通过端到端的神经网络直接从输入(文本、图像或噪声)生成高质量的3D网格,无需逐样本优化。我们将重点分析GET3D、InstantMesh/LRM等代表性架构,深入理解三平面表示的数学原理,并探讨实时推理的优化策略。这些方法在生成速度和质量之间取得了突破性平衡,为交互式3D内容创作开辟了新的可能。
15.1 前馈式生成的基本原理
15.1.1 与优化式方法的对比
优化式方法(如DreamFusion)通过迭代优化获得单个3D资产,每个样本需要几分钟到几小时的计算时间。相比之下,前馈式方法训练一个通用的生成模型,推理时只需一次前向传播:
$$\mathbf{M} = G_\theta(\mathbf{z}, \mathbf{c})$$ 其中 $G_\theta$ 是参数为 $\theta$ 的生成网络,$\mathbf{z}$ 是随机噪声或潜在编码,$\mathbf{c}$ 是条件信息(如图像、文本),$\mathbf{M}$ 是输出的3D网格。
15.1.2 核心挑战
前馈式3D生成面临以下关键挑战:
- 表示效率:如何高效编码3D几何和外观信息
- 生成质量:保证几何细节和拓扑正确性
- 多视角一致性:确保生成的3D资产从各个角度观察都合理
- 训练稳定性:处理3D数据的高维度和稀疏性
15.2 GET3D架构设计
15.2.1 整体架构
GET3D采用两阶段生成策略:
- 几何生成器 $G_{geo}$:生成3D形状的SDF场
- 纹理生成器 $G_{tex}$:为几何赋予纹理
整体生成过程可表示为: $$\begin{aligned} \mathbf{F}_{geo} &= G_{geo}(\mathbf{z}_{geo}) \\ \mathbf{M} &= \text{DMTet}(\mathbf{F}_{geo}) \\ \mathbf{T} &= G_{tex}(\mathbf{z}_{tex}, \mathbf{M}) \end{aligned}$$
15.2.2 三平面几何表示
GET3D使用三个正交平面编码3D SDF场: $$\mathbf{F}_{xy}, \mathbf{F}_{xz}, \mathbf{F}_{yz} \in \mathbb{R}^{H \times W \times C}$$ 对于空间中任意点 $\mathbf{p} = (x, y, z)$,其特征通过投影和插值获得: $$\mathbf{f}(\mathbf{p}) = \mathbf{F}_{xy}(x,y) \oplus \mathbf{F}_{xz}(x,z) \oplus \mathbf{F}_{yz}(y,z)$$ 其中 $\oplus$ 表示特征concatenation或aggregation操作。
15.2.3 可微分网格提取
GET3D集成DMTet(Deep Marching Tetrahedra)进行可微分的网格提取:
- 四面体网格初始化:将空间划分为规则四面体
- SDF预测:在四面体顶点上评估SDF值
- 拓扑提取:根据SDF符号确定等值面拓扑
- 顶点优化:通过可微操作细化顶点位置
关键的可微性来自于顶点位置的连续参数化: $$\mathbf{v}_i = \mathbf{v}_i^0 + \Delta \mathbf{v}_i \cdot \tanh(\alpha \cdot s_i)$$ 其中 $\mathbf{v}_i^0$ 是初始位置,$\Delta \mathbf{v}_i$ 是位移向量,$s_i$ 是SDF值。
15.2.4 纹理生成与映射
纹理生成器 $G_{tex}$ 采用基于视角的渲染方案:
视角采样 → 2D特征生成 → 可微渲染 → 纹理场构建
纹理映射通过学习的UV参数化实现: $$\mathbf{UV}: \mathcal{M} \rightarrow [0,1]^2$$ 损失函数包含UV展开的正则项: $$\mathcal{L}_{UV} = \lambda_1 \cdot \mathcal{L}_{distortion} + \lambda_2 \cdot \mathcal{L}_{overlap}$$
15.3 InstantMesh与LRM方法
15.3.1 大型重建模型(LRM)架构
LRM采用Transformer架构直接从图像重建3D:
图像编码器 → 多视图特征提取 → Transformer解码器 → 三平面表示
核心创新在于将3D重建任务转化为序列到序列的学习问题。
15.3.2 多视图扩散集成
InstantMesh结合多视图扩散模型增强单视图输入:
- 视图生成:使用预训练的多视图扩散模型生成多个视角
- 特征融合:通过注意力机制融合多视图特征
- 几何重建:基于融合特征预测3D表示
多视图一致性通过epipolar注意力保证: $$\text{Attention}(\mathbf{Q}_i, \mathbf{K}_j, \mathbf{V}_j) = \text{softmax}\left(\frac{\mathbf{Q}_i \mathbf{K}_j^T}{\sqrt{d}} \cdot \mathbf{E}_{ij}\right)\mathbf{V}_j$$ 其中 $\mathbf{E}_{ij}$ 是epipolar约束矩阵。
15.3.3 FlexiCubes表示
最新的InstantMesh采用FlexiCubes表示,这是一种灵活的网格提取方法: $$\mathbf{M} = \text{FlexiCubes}(\mathbf{S}, \mathbf{D}, \mathbf{W})$$ 其中:
- $\mathbf{S}$:SDF值
- $\mathbf{D}$:变形参数
- $\mathbf{W}$:权重参数
这种表示允许更精细的几何控制和更好的拓扑处理。
15.3.4 训练策略
LRM/InstantMesh的训练采用多阶段策略:
- 预训练阶段:在大规模3D数据集上学习基础表示
- 微调阶段:针对特定任务或领域优化
- 蒸馏阶段:从更大模型蒸馏知识
损失函数综合考虑多个方面: $$\mathcal{L} = \mathcal{L}_{geo} + \lambda_1 \mathcal{L}_{render} + \lambda_2 \mathcal{L}_{reg} + \lambda_3 \mathcal{L}_{consist}$$
15.4 三平面表示的数学基础
15.4.1 理论动机
三平面表示的理论基础来自于信号处理中的投影切片定理: $$\mathcal{F}_{3D}(k_x, k_y, 0) = \mathcal{F}_{2D}\{\mathcal{P}_{xy}[f]\}(k_x, k_y)$$ 其中 $\mathcal{F}$ 表示傅里叶变换,$\mathcal{P}_{xy}$ 表示xy平面投影。
15.4.2 表达能力分析
三平面表示的表达能力可以通过以下定理刻画:
定理15.1:对于紧支撑的连续函数 $f: \mathbb{R}^3 \rightarrow \mathbb{R}$,存在三个平面函数 $g_{xy}, g_{xz}, g_{yz}$ 和聚合函数 $h$,使得: $$\left|f(\mathbf{p}) - h(g_{xy}(\pi_{xy}(\mathbf{p})), g_{xz}(\pi_{xz}(\mathbf{p})), g_{yz}(\pi_{yz}(\mathbf{p})))\right| < \epsilon$$ 对于任意 $\epsilon > 0$ 和所有 $\mathbf{p} \in \Omega$。
15.4.3 分辨率与质量权衡
三平面分辨率 $R$ 与重建质量的关系: $$\text{PSNR} \propto \log(R) + C$$ 内存消耗: $$\text{Memory} = 3 \times R^2 \times C \times B$$ 其中 $C$ 是通道数,$B$ 是每通道字节数。
对比体素表示($O(R^3)$),三平面实现了 $O(R^2)$ 的内存复杂度。
15.4.4 混叠与采样
三平面表示存在固有的混叠问题:
Z轴
|
|____Y轴
/
/
X轴
三个投影平面可能丢失沿法线方向的高频信息
缓解策略包括:
- 多尺度编码:使用金字塔表示捕获不同频率
- 位置编码:添加傅里叶特征提升表达能力
- 混合表示:结合局部体素细化关键区域
15.5 实时推理优化
15.5.1 模型量化策略
前馈模型的实时部署需要精心的量化设计:
INT8量化: $$\mathbf{W}_{int8} = \text{round}\left(\frac{\mathbf{W}_{fp32}}{s}\right), \quad s = \frac{\max(|\mathbf{W}_{fp32}|)}{127}$$ 混合精度策略:
- 关键层(如最终输出层)保持FP16
- 中间特征层使用INT8
- 批归一化融合到卷积层
量化误差分析: $$\mathcal{E}_{quant} \leq \frac{s \sqrt{n}}{2}$$ 其中 $n$ 是参数数量。
15.5.2 批处理优化
批量生成的优化策略:
-
动态批处理:根据GPU内存动态调整批大小 $$B_{opt} = \min\left(B_{max}, \left\lfloor\frac{M_{available}}{M_{sample}}\right\rfloor\right)$$
-
流水线并行:将生成过程分解为多个阶段
Stage 1: 编码器 → Stage 2: 特征生成 → Stage 3: 网格提取
- 异步处理:CPU预处理与GPU计算重叠
15.5.3 GPU核优化
针对三平面操作的CUDA优化:
双线性插值核:
对于每个查询点p:
1. 计算三个投影坐标
2. 并行访问三个平面
3. 执行融合的插值操作
4. 聚合特征
内存访问优化:
- 纹理内存存储平面特征(利用硬件插值)
- 共享内存缓存频繁访问的数据
- Coalesced访问模式优化
理论加速比: $$S = \frac{T_{naive}}{T_{opt}} \approx \frac{3NM}{N + M/W}$$ 其中 $N$ 是查询点数,$M$ 是特征维度,$W$ 是warp大小。
15.5.4 模型架构优化
深度可分离卷积: $$\text{Params}_{DS} = D_K^2 \cdot C_{in} + C_{in} \cdot C_{out}$$ 对比标准卷积: $$\text{Params}_{std} = D_K^2 \cdot C_{in} \cdot C_{out}$$ 知识蒸馏: $$\mathcal{L}_{KD} = \alpha \mathcal{L}_{task} + (1-\alpha) \text{KL}(P_{student} || P_{teacher})$$ 神经架构搜索(NAS): 自动搜索最优的层数、通道数配置: $$\text{argmin}_{\alpha} \quad \mathcal{L}_{val}(\alpha) + \lambda \cdot \text{Latency}(\alpha)$$
15.5.5 推理延迟分析
端到端延迟分解: $$T_{total} = T_{encode} + T_{generate} + T_{extract} + T_{post}$$ 典型配置下的延迟分布:
- 图像编码:~10ms
- 特征生成:~30ms
- 网格提取:~15ms
- 后处理:~5ms
目标:在消费级GPU上达到 < 100ms 的生成时间。
15.6 先进技术与改进
15.6.1 自适应分辨率
根据几何复杂度动态调整三平面分辨率: $$R_{local} = R_{base} \cdot (1 + \alpha \cdot \text{Complexity}(\mathbf{p}))$$ 复杂度度量基于局部曲率和细节密度。
15.6.2 级联细化
多级生成策略:
- 粗糙生成(32×32 三平面)→ 基础形状
- 中等细化(128×128)→ 主要特征
- 精细细化(512×512)→ 细节增强
每级使用条件生成: $$\mathbf{F}_{l+1} = G_{l+1}(\mathbf{F}_l, \mathbf{z}_{l+1})$$
15.6.3 几何正则化
确保生成网格的质量:
流形正则化: $$\mathcal{L}_{manifold} = \sum_{e \in \mathcal{E}} \max(0, n_e - 2)^2$$ 其中 $n_e$ 是边 $e$ 的相邻面数。
平滑正则化: $$\mathcal{L}_{smooth} = \sum_{(f_i, f_j) \in \mathcal{N}} |\mathbf{n}_i - \mathbf{n}_j|^2$$ 自交检测: 通过BVH加速的碰撞检测确保无自交。
15.7 本章小结
本章系统介绍了前馈式3D网格生成方法,这类方法通过端到端的神经网络实现了秒级的高质量3D资产生成。我们深入分析了以下核心内容:
关键概念:
- 前馈架构:$\mathbf{M} = G_\theta(\mathbf{z}, \mathbf{c})$ 的直接映射范式
- 三平面表示:$O(R^2)$ 内存复杂度的高效3D编码
- 可微网格提取:DMTet和FlexiCubes的端到端优化
- 实时优化:量化、批处理、GPU加速的系统工程
核心公式:
- 三平面特征聚合:$\mathbf{f}(\mathbf{p}) = \mathbf{F}_{xy}(x,y) \oplus \mathbf{F}_{xz}(x,z) \oplus \mathbf{F}_{yz}(y,z)$
- 多视图注意力:$\text{Attention}(\mathbf{Q}_i, \mathbf{K}_j, \mathbf{V}_j) = \text{softmax}(\frac{\mathbf{Q}_i \mathbf{K}_j^T}{\sqrt{d}} \cdot \mathbf{E}_{ij})\mathbf{V}_j$
- 量化误差界:$\mathcal{E}_{quant} \leq \frac{s \sqrt{n}}{2}$
- 级联生成:$\mathbf{F}_{l+1} = G_{l+1}(\mathbf{F}_l, \mathbf{z}_{l+1})$
方法对比:
- GET3D:GAN基础,擅长类别特定生成,纹理质量高
- InstantMesh/LRM:Transformer架构,单视图重建强,泛化性好
- 优化式vs前馈式:质量vs速度的权衡
前馈式方法标志着3D生成从"优化"到"推理"的范式转变,为交互式3D内容创作和实时应用开辟了广阔前景。
15.8 常见陷阱与错误
陷阱1:三平面分辨率选择不当
错误:盲目使用高分辨率三平面 后果:内存爆炸,推理速度慢,过拟合 正确做法:根据目标复杂度和硬件约束选择,通常256×256足够
陷阱2:忽视多视角一致性
错误:只优化单视角重建损失 后果:生成的3D资产存在"视角盲区" 正确做法:使用多视角渲染损失,加入epipolar约束
陷阱3:网格提取阈值设置不当
错误:使用固定的SDF阈值(如0) 后果:薄结构断裂或产生浮动碎片 正确做法:自适应阈值或学习阈值偏移
陷阱4:训练数据的分布偏差
错误:在单一类别数据上训练,期望泛化到所有类别 后果:严重的域外失败 正确做法:使用多样化数据集,采用域适应技术
陷阱5:量化导致的精度损失
错误:对所有层使用相同的量化策略 后果:关键特征丢失,生成质量下降 正确做法:混合精度量化,关键层保持高精度
陷阱6:批处理的内存管理
错误:固定批大小,不考虑输入复杂度 后果:OOM错误或GPU利用率低 正确做法:动态批处理,基于复杂度预测调整
调试技巧:
- 可视化中间表示:检查三平面特征图的激活模式
- 渐进式调试:从低分辨率开始,逐步提升
- 消融实验:逐个验证各组件的贡献
- 基准测试:在标准数据集上对比性能指标
15.9 练习题
练习15.1:三平面表示的表达能力(基础题)
证明三平面表示可以精确重建任何轴对齐的长方体。设长方体的边界为 $[x_0, x_1] \times [y_0, y_1] \times [z_0, z_1]$,请构造三个平面函数使得重建误差为零。
Hint: 考虑指示函数的分解:$\mathbb{1}_{box}(x,y,z) = \mathbb{1}_{[x_0,x_1]}(x) \cdot \mathbb{1}_{[y_0,y_1]}(y) \cdot \mathbb{1}_{[z_0,z_1]}(z)$
答案
定义三个平面函数:
- $g_{xy}(x,y) = \mathbb{1}_{[x_0,x_1]}(x) \cdot \mathbb{1}_{[y_0,y_1]}(y)$
- $g_{xz}(x,z) = \mathbb{1}_{[x_0,x_1]}(x) \cdot \mathbb{1}_{[z_0,z_1]}(z)$
- $g_{yz}(y,z) = \mathbb{1}_{[y_0,y_1]}(y) \cdot \mathbb{1}_{[z_0,z_1]}(z)$
聚合函数:$h(a,b,c) = \begin{cases} 1 & \text{if } a=1, b=1, c=1 \\ 0 & \text{otherwise} \end{cases}$
验证:当且仅当点 $(x,y,z)$ 在长方体内时,三个投影都为1,聚合后输出1,实现精确重建。这说明三平面表示对轴对齐几何有完美的表达能力。
练习15.2:量化误差分析(基础题)
假设一个权重矩阵 $\mathbf{W} \in \mathbb{R}^{1000 \times 1000}$,元素服从均匀分布 $U[-1, 1]$。计算INT8量化的期望误差和最坏情况误差。
Hint: 量化步长 $s = \frac{2}{127}$,量化误差 $e_i \in [-s/2, s/2]$
答案
-
量化步长:$s = \frac{\max(|\mathbf{W}|)}{127} = \frac{1}{127} \approx 0.0079$
-
单个权重的量化误差:$e_i \sim U[-s/2, s/2]$ - 期望:$\mathbb{E}[e_i] = 0$ - 方差:$\text{Var}(e_i) = \frac{s^2}{12}$
-
总误差(Frobenius范数): - 期望:$\mathbb{E}[|\mathbf{E}|_F] = \sqrt{n \cdot \text{Var}(e_i)} = \sqrt{\frac{10^6 \cdot s^2}{12}} = \frac{s \cdot 1000}{\sqrt{12}} \approx 2.28$ - 最坏情况:$|\mathbf{E}|_{F,max} = \frac{s \cdot 1000}{2} \approx 3.95$
-
相对误差:约0.23%(期望)到0.40%(最坏)
练习15.3:推理时间优化(基础题)
给定一个前馈生成模型,编码器耗时20ms,生成器耗时40ms,网格提取耗时15ms。如果使用3级流水线并行,理论上处理10个样本的总时间是多少?假设无其他开销。
Hint: 流水线中,第一个样本需要完整时间,后续样本可以重叠
答案
单样本串行时间:$T_{serial} = 20 + 40 + 15 = 75\text{ms}$
流水线时间分析:
- Stage 1 (编码器): 20ms/样本
- Stage 2 (生成器): 40ms/样本
- Stage 3 (提取器): 15ms/样本
瓶颈是Stage 2(40ms)。
总时间计算:
- 第1个样本完成:75ms
- 第2-10个样本:每40ms完成一个(受瓶颈限制)
- 总时间:$75 + 9 \times 40 = 435\text{ms}$
对比串行:$10 \times 75 = 750\text{ms}$ 加速比:$750/435 \approx 1.72$倍
练习15.4:多视图一致性约束(挑战题)
设计一个损失函数,确保生成的3D物体在 $N$ 个预定义视角下的2D投影满足epipolar几何约束。给出数学表达式并解释各项的作用。
Hint: 考虑基础矩阵 $\mathbf{F}$ 和对应点的约束 $\mathbf{p}_j^T \mathbf{F}_{ij} \mathbf{p}_i = 0$
答案
多视图一致性损失: $$\mathcal{L}_{mvc} = \lambda_1 \mathcal{L}_{epipolar} + \lambda_2 \mathcal{L}_{photometric} + \lambda_3 \mathcal{L}_{depth}$$
-
Epipolar约束项: $$\mathcal{L}_{epipolar} = \sum_{i<j} \sum_{k} \left| \mathbf{p}_{j,k}^T \mathbf{F}_{ij} \mathbf{p}_{i,k} \right|$$ 确保对应点满足极线约束
-
光度一致性项: $$\mathcal{L}_{photometric} = \sum_{i,j} \sum_{k \in \Omega_{ij}} |\mathbf{I}_i(\mathbf{p}_{i,k}) - \mathbf{I}_j(\pi_{ij}(\mathbf{p}_{i,k}))|_1$$ 确保对应像素的颜色相似
-
深度一致性项: $$\mathcal{L}_{depth} = \sum_{i,j} \sum_{k} |d_i(\mathbf{p}_{i,k}) - \hat{d}_j(\pi_{ij}(\mathbf{p}_{i,k}))|$$ 确保深度图的几何一致性
其中 $\pi_{ij}$ 是从视图 $i$ 到视图 $j$ 的投影变换。
练习15.5:三平面混叠问题(挑战题)
分析三平面表示对于球面 $|\mathbf{p}|_2 = r$ 的重建误差。假设使用分辨率为 $R \times R$ 的三平面,推导误差的上界。
Hint: 考虑球面法向与投影平面的夹角
答案
球面在三个投影平面上的表现:
- XY平面:圆形,边缘梯度大
- XZ平面:圆形,边缘梯度大
- YZ平面:圆形,边缘梯度大
误差分析:
-
采样误差:网格分辨率导致的离散化误差 $$e_{sample} \leq \frac{\sqrt{2}r}{R}$$
-
混叠误差:高曲率区域的信息丢失 - 最大曲率:$\kappa_{max} = 1/r$ - 混叠发生在 $|\nabla f| > \pi R/(2r)$ 的区域
-
重建误差上界: $$\mathcal{E}_{total} \leq C_1 \frac{r}{R} + C_2 \frac{r^2}{R^2}$$ 其中 $C_1 \approx 2\pi$(周长相关),$C_2 \approx \pi$(面积相关)
-
改进策略: - 在高曲率区域使用局部细化 - 添加球谐函数作为辅助表示 - 使用多尺度三平面金字塔
练习15.6:级联生成的收敛性(挑战题)
证明级联生成策略 $\mathbf{F}_{l+1} = G_{l+1}(\mathbf{F}_l, \mathbf{z}_{l+1})$ 在满足Lipschitz条件下的收敛性。设 $G_l$ 的Lipschitz常数为 $L_l < 1$。
Hint: 使用Banach不动点定理
答案
设目标表示为 $\mathbf{F}^*$,定义误差序列:$e_l = |\mathbf{F}_l - \mathbf{F}^*|$
-
递推关系: 由Lipschitz条件: $$e_{l+1} = |G_{l+1}(\mathbf{F}_l, \mathbf{z}_{l+1}) - G_{l+1}(\mathbf{F}^*, \mathbf{z}_{l+1})| \leq L_{l+1} \cdot e_l$$
-
误差累积: $$e_L \leq e_0 \cdot \prod_{l=1}^L L_l$$
-
收敛条件: 当 $\prod_{l=1}^L L_l < 1$ 时,$\lim_{L \to \infty} e_L = 0$
-
收敛速率: 几何收敛,速率为 $\rho = \max_l L_l$
-
实践意义: - 每级生成器应该是"收缩映射" - 添加skip connection可以改善收敛性 - 残差学习:$\mathbf{F}_{l+1} = \mathbf{F}_l + \alpha \cdot G_{l+1}(\mathbf{F}_l)$,其中 $\alpha < 1$
练习15.7:实时系统的延迟预算分配(挑战题)
设计一个实时3D生成系统,要求99%的请求在100ms内完成。给定各组件的延迟分布(假设为正态分布),如何分配计算预算?
组件延迟(均值±标准差):
- 编码器:15±3ms
- 生成器:35±8ms
- 提取器:12±2ms
- 后处理:5±1ms
Hint: 使用正态分布的加法性质和3-sigma规则
答案
- 总延迟分布: 各组件独立,总延迟也服从正态分布:
- 均值:$\mu = 15 + 35 + 12 + 5 = 67\text{ms}$
- 方差:$\sigma^2 = 9 + 64 + 4 + 1 = 78$
- 标准差:$\sigma = \sqrt{78} \approx 8.83\text{ms}$
-
99%置信区间: 使用2.58-sigma(99%分位数): $$T_{99\%} = \mu + 2.58\sigma = 67 + 2.58 \times 8.83 \approx 89.8\text{ms}$$
-
预算分配策略: - 总预算:100ms - 安全边界:100 - 89.8 = 10.2ms
-
优化方案: a) 减少生成器方差(最大贡献者):
- 使用确定性推理
- 固定批大小
b) 并行化:
- 编码器与预处理并行
- 后处理与传输并行
c) 自适应降级:
- 检测到延迟风险时降低分辨率
- 99%: 512×512
- 1%: 256×256(快速路径)
- 监控指标:
- P50: 67ms
- P95: 67 + 1.65×8.83 ≈ 81.5ms
- P99: 89.8ms - P99.9: 67 + 3.09×8.83 ≈ 94.3ms
练习15.8:开放性思考题
比较前馈式生成与优化式生成(如DreamFusion)的适用场景。设计一个混合系统,结合两者的优势,并讨论其架构设计。
思考方向:
- 质量vs速度的权衡
- 用户交互模式
- 计算资源分配
- 渐进式细化策略
参考思路
混合系统架构:
-
两阶段生成流程: - Stage 1:前馈快速预览(<100ms) - Stage 2:优化式精细化(可选,~5min)
-
适用场景分析: - 前馈式:交互设计、实时预览、批量生成 - 优化式:最终资产、英雄资产、特定需求
-
架构设计:
用户输入 → 意图分析 → 路由决策
↓ ↓
快速路径 精细路径
(前馈式) (优化式)
↓ ↓
即时反馈 → 渐进细化
-
关键创新点: - 热启动:前馈结果作为优化初值 - 自适应细化:基于用户反馈选择细化区域 - 缓存机制:相似请求复用中间结果 - 质量预测:估计是否需要优化式细化
-
实现考虑: - 统一的3D表示(如DMTet) - 共享的特征提取器 - 增量式优化策略 - 用户可中断的细化过程
-
评估指标: - 首次交互延迟(TTFI) - 最终质量得分 - 计算资源效率 - 用户满意度