第15章:前馈式快速生成

本章深入探讨前馈式3D网格生成方法,这类方法通过端到端的神经网络直接从输入(文本、图像或噪声)生成高质量的3D网格,无需逐样本优化。我们将重点分析GET3D、InstantMesh/LRM等代表性架构,深入理解三平面表示的数学原理,并探讨实时推理的优化策略。这些方法在生成速度和质量之间取得了突破性平衡,为交互式3D内容创作开辟了新的可能。

15.1 前馈式生成的基本原理

15.1.1 与优化式方法的对比

优化式方法(如DreamFusion)通过迭代优化获得单个3D资产,每个样本需要几分钟到几小时的计算时间。相比之下,前馈式方法训练一个通用的生成模型,推理时只需一次前向传播:

$$\mathbf{M} = G_\theta(\mathbf{z}, \mathbf{c})$$ 其中 $G_\theta$ 是参数为 $\theta$ 的生成网络,$\mathbf{z}$ 是随机噪声或潜在编码,$\mathbf{c}$ 是条件信息(如图像、文本),$\mathbf{M}$ 是输出的3D网格。

15.1.2 核心挑战

前馈式3D生成面临以下关键挑战:

  1. 表示效率:如何高效编码3D几何和外观信息
  2. 生成质量:保证几何细节和拓扑正确性
  3. 多视角一致性:确保生成的3D资产从各个角度观察都合理
  4. 训练稳定性:处理3D数据的高维度和稀疏性

15.2 GET3D架构设计

15.2.1 整体架构

GET3D采用两阶段生成策略:

  1. 几何生成器 $G_{geo}$:生成3D形状的SDF场
  2. 纹理生成器 $G_{tex}$:为几何赋予纹理

整体生成过程可表示为: $$\begin{aligned} \mathbf{F}_{geo} &= G_{geo}(\mathbf{z}_{geo}) \\ \mathbf{M} &= \text{DMTet}(\mathbf{F}_{geo}) \\ \mathbf{T} &= G_{tex}(\mathbf{z}_{tex}, \mathbf{M}) \end{aligned}$$

15.2.2 三平面几何表示

GET3D使用三个正交平面编码3D SDF场: $$\mathbf{F}_{xy}, \mathbf{F}_{xz}, \mathbf{F}_{yz} \in \mathbb{R}^{H \times W \times C}$$ 对于空间中任意点 $\mathbf{p} = (x, y, z)$,其特征通过投影和插值获得: $$\mathbf{f}(\mathbf{p}) = \mathbf{F}_{xy}(x,y) \oplus \mathbf{F}_{xz}(x,z) \oplus \mathbf{F}_{yz}(y,z)$$ 其中 $\oplus$ 表示特征concatenation或aggregation操作。

15.2.3 可微分网格提取

GET3D集成DMTet(Deep Marching Tetrahedra)进行可微分的网格提取:

  1. 四面体网格初始化:将空间划分为规则四面体
  2. SDF预测:在四面体顶点上评估SDF值
  3. 拓扑提取:根据SDF符号确定等值面拓扑
  4. 顶点优化:通过可微操作细化顶点位置

关键的可微性来自于顶点位置的连续参数化: $$\mathbf{v}_i = \mathbf{v}_i^0 + \Delta \mathbf{v}_i \cdot \tanh(\alpha \cdot s_i)$$ 其中 $\mathbf{v}_i^0$ 是初始位置,$\Delta \mathbf{v}_i$ 是位移向量,$s_i$ 是SDF值。

15.2.4 纹理生成与映射

纹理生成器 $G_{tex}$ 采用基于视角的渲染方案:

视角采样 → 2D特征生成 → 可微渲染 → 纹理场构建

纹理映射通过学习的UV参数化实现: $$\mathbf{UV}: \mathcal{M} \rightarrow [0,1]^2$$ 损失函数包含UV展开的正则项: $$\mathcal{L}_{UV} = \lambda_1 \cdot \mathcal{L}_{distortion} + \lambda_2 \cdot \mathcal{L}_{overlap}$$

15.3 InstantMesh与LRM方法

15.3.1 大型重建模型(LRM)架构

LRM采用Transformer架构直接从图像重建3D:

图像编码器 → 多视图特征提取 → Transformer解码器 → 三平面表示

核心创新在于将3D重建任务转化为序列到序列的学习问题。

15.3.2 多视图扩散集成

InstantMesh结合多视图扩散模型增强单视图输入:

  1. 视图生成:使用预训练的多视图扩散模型生成多个视角
  2. 特征融合:通过注意力机制融合多视图特征
  3. 几何重建:基于融合特征预测3D表示

多视图一致性通过epipolar注意力保证: $$\text{Attention}(\mathbf{Q}_i, \mathbf{K}_j, \mathbf{V}_j) = \text{softmax}\left(\frac{\mathbf{Q}_i \mathbf{K}_j^T}{\sqrt{d}} \cdot \mathbf{E}_{ij}\right)\mathbf{V}_j$$ 其中 $\mathbf{E}_{ij}$ 是epipolar约束矩阵。

15.3.3 FlexiCubes表示

最新的InstantMesh采用FlexiCubes表示,这是一种灵活的网格提取方法: $$\mathbf{M} = \text{FlexiCubes}(\mathbf{S}, \mathbf{D}, \mathbf{W})$$ 其中:

  • $\mathbf{S}$:SDF值
  • $\mathbf{D}$:变形参数
  • $\mathbf{W}$:权重参数

这种表示允许更精细的几何控制和更好的拓扑处理。

15.3.4 训练策略

LRM/InstantMesh的训练采用多阶段策略:

  1. 预训练阶段:在大规模3D数据集上学习基础表示
  2. 微调阶段:针对特定任务或领域优化
  3. 蒸馏阶段:从更大模型蒸馏知识

损失函数综合考虑多个方面: $$\mathcal{L} = \mathcal{L}_{geo} + \lambda_1 \mathcal{L}_{render} + \lambda_2 \mathcal{L}_{reg} + \lambda_3 \mathcal{L}_{consist}$$

15.4 三平面表示的数学基础

15.4.1 理论动机

三平面表示的理论基础来自于信号处理中的投影切片定理: $$\mathcal{F}_{3D}(k_x, k_y, 0) = \mathcal{F}_{2D}\{\mathcal{P}_{xy}[f]\}(k_x, k_y)$$ 其中 $\mathcal{F}$ 表示傅里叶变换,$\mathcal{P}_{xy}$ 表示xy平面投影。

15.4.2 表达能力分析

三平面表示的表达能力可以通过以下定理刻画:

定理15.1:对于紧支撑的连续函数 $f: \mathbb{R}^3 \rightarrow \mathbb{R}$,存在三个平面函数 $g_{xy}, g_{xz}, g_{yz}$ 和聚合函数 $h$,使得: $$\left|f(\mathbf{p}) - h(g_{xy}(\pi_{xy}(\mathbf{p})), g_{xz}(\pi_{xz}(\mathbf{p})), g_{yz}(\pi_{yz}(\mathbf{p})))\right| < \epsilon$$ 对于任意 $\epsilon > 0$ 和所有 $\mathbf{p} \in \Omega$。

15.4.3 分辨率与质量权衡

三平面分辨率 $R$ 与重建质量的关系: $$\text{PSNR} \propto \log(R) + C$$ 内存消耗: $$\text{Memory} = 3 \times R^2 \times C \times B$$ 其中 $C$ 是通道数,$B$ 是每通道字节数。

对比体素表示($O(R^3)$),三平面实现了 $O(R^2)$ 的内存复杂度。

15.4.4 混叠与采样

三平面表示存在固有的混叠问题:

     Z轴
      |
      |____Y轴
     /
    /
   X轴

三个投影平面可能丢失沿法线方向的高频信息

缓解策略包括:

  1. 多尺度编码:使用金字塔表示捕获不同频率
  2. 位置编码:添加傅里叶特征提升表达能力
  3. 混合表示:结合局部体素细化关键区域

15.5 实时推理优化

15.5.1 模型量化策略

前馈模型的实时部署需要精心的量化设计:

INT8量化: $$\mathbf{W}_{int8} = \text{round}\left(\frac{\mathbf{W}_{fp32}}{s}\right), \quad s = \frac{\max(|\mathbf{W}_{fp32}|)}{127}$$ 混合精度策略

  • 关键层(如最终输出层)保持FP16
  • 中间特征层使用INT8
  • 批归一化融合到卷积层

量化误差分析: $$\mathcal{E}_{quant} \leq \frac{s \sqrt{n}}{2}$$ 其中 $n$ 是参数数量。

15.5.2 批处理优化

批量生成的优化策略:

  1. 动态批处理:根据GPU内存动态调整批大小 $$B_{opt} = \min\left(B_{max}, \left\lfloor\frac{M_{available}}{M_{sample}}\right\rfloor\right)$$

  2. 流水线并行:将生成过程分解为多个阶段

Stage 1: 编码器 → Stage 2: 特征生成 → Stage 3: 网格提取
  1. 异步处理:CPU预处理与GPU计算重叠

15.5.3 GPU核优化

针对三平面操作的CUDA优化:

双线性插值核

对于每个查询点p:

  1. 计算三个投影坐标
  2. 并行访问三个平面
  3. 执行融合的插值操作
  4. 聚合特征

内存访问优化

  • 纹理内存存储平面特征(利用硬件插值)
  • 共享内存缓存频繁访问的数据
  • Coalesced访问模式优化

理论加速比: $$S = \frac{T_{naive}}{T_{opt}} \approx \frac{3NM}{N + M/W}$$ 其中 $N$ 是查询点数,$M$ 是特征维度,$W$ 是warp大小。

15.5.4 模型架构优化

深度可分离卷积: $$\text{Params}_{DS} = D_K^2 \cdot C_{in} + C_{in} \cdot C_{out}$$ 对比标准卷积: $$\text{Params}_{std} = D_K^2 \cdot C_{in} \cdot C_{out}$$ 知识蒸馏: $$\mathcal{L}_{KD} = \alpha \mathcal{L}_{task} + (1-\alpha) \text{KL}(P_{student} || P_{teacher})$$ 神经架构搜索(NAS): 自动搜索最优的层数、通道数配置: $$\text{argmin}_{\alpha} \quad \mathcal{L}_{val}(\alpha) + \lambda \cdot \text{Latency}(\alpha)$$

15.5.5 推理延迟分析

端到端延迟分解: $$T_{total} = T_{encode} + T_{generate} + T_{extract} + T_{post}$$ 典型配置下的延迟分布:

  • 图像编码:~10ms
  • 特征生成:~30ms
  • 网格提取:~15ms
  • 后处理:~5ms

目标:在消费级GPU上达到 < 100ms 的生成时间。

15.6 先进技术与改进

15.6.1 自适应分辨率

根据几何复杂度动态调整三平面分辨率: $$R_{local} = R_{base} \cdot (1 + \alpha \cdot \text{Complexity}(\mathbf{p}))$$ 复杂度度量基于局部曲率和细节密度。

15.6.2 级联细化

多级生成策略:

  1. 粗糙生成(32×32 三平面)→ 基础形状
  2. 中等细化(128×128)→ 主要特征
  3. 精细细化(512×512)→ 细节增强

每级使用条件生成: $$\mathbf{F}_{l+1} = G_{l+1}(\mathbf{F}_l, \mathbf{z}_{l+1})$$

15.6.3 几何正则化

确保生成网格的质量:

流形正则化: $$\mathcal{L}_{manifold} = \sum_{e \in \mathcal{E}} \max(0, n_e - 2)^2$$ 其中 $n_e$ 是边 $e$ 的相邻面数。

平滑正则化: $$\mathcal{L}_{smooth} = \sum_{(f_i, f_j) \in \mathcal{N}} |\mathbf{n}_i - \mathbf{n}_j|^2$$ 自交检测: 通过BVH加速的碰撞检测确保无自交。

15.7 本章小结

本章系统介绍了前馈式3D网格生成方法,这类方法通过端到端的神经网络实现了秒级的高质量3D资产生成。我们深入分析了以下核心内容:

关键概念

  1. 前馈架构:$\mathbf{M} = G_\theta(\mathbf{z}, \mathbf{c})$ 的直接映射范式
  2. 三平面表示:$O(R^2)$ 内存复杂度的高效3D编码
  3. 可微网格提取:DMTet和FlexiCubes的端到端优化
  4. 实时优化:量化、批处理、GPU加速的系统工程

核心公式

  • 三平面特征聚合:$\mathbf{f}(\mathbf{p}) = \mathbf{F}_{xy}(x,y) \oplus \mathbf{F}_{xz}(x,z) \oplus \mathbf{F}_{yz}(y,z)$
  • 多视图注意力:$\text{Attention}(\mathbf{Q}_i, \mathbf{K}_j, \mathbf{V}_j) = \text{softmax}(\frac{\mathbf{Q}_i \mathbf{K}_j^T}{\sqrt{d}} \cdot \mathbf{E}_{ij})\mathbf{V}_j$
  • 量化误差界:$\mathcal{E}_{quant} \leq \frac{s \sqrt{n}}{2}$
  • 级联生成:$\mathbf{F}_{l+1} = G_{l+1}(\mathbf{F}_l, \mathbf{z}_{l+1})$

方法对比

  • GET3D:GAN基础,擅长类别特定生成,纹理质量高
  • InstantMesh/LRM:Transformer架构,单视图重建强,泛化性好
  • 优化式vs前馈式:质量vs速度的权衡

前馈式方法标志着3D生成从"优化"到"推理"的范式转变,为交互式3D内容创作和实时应用开辟了广阔前景。

15.8 常见陷阱与错误

陷阱1:三平面分辨率选择不当

错误:盲目使用高分辨率三平面 后果:内存爆炸,推理速度慢,过拟合 正确做法:根据目标复杂度和硬件约束选择,通常256×256足够

陷阱2:忽视多视角一致性

错误:只优化单视角重建损失 后果:生成的3D资产存在"视角盲区" 正确做法:使用多视角渲染损失,加入epipolar约束

陷阱3:网格提取阈值设置不当

错误:使用固定的SDF阈值(如0) 后果:薄结构断裂或产生浮动碎片 正确做法:自适应阈值或学习阈值偏移

陷阱4:训练数据的分布偏差

错误:在单一类别数据上训练,期望泛化到所有类别 后果:严重的域外失败 正确做法:使用多样化数据集,采用域适应技术

陷阱5:量化导致的精度损失

错误:对所有层使用相同的量化策略 后果:关键特征丢失,生成质量下降 正确做法:混合精度量化,关键层保持高精度

陷阱6:批处理的内存管理

错误:固定批大小,不考虑输入复杂度 后果:OOM错误或GPU利用率低 正确做法:动态批处理,基于复杂度预测调整

调试技巧:

  1. 可视化中间表示:检查三平面特征图的激活模式
  2. 渐进式调试:从低分辨率开始,逐步提升
  3. 消融实验:逐个验证各组件的贡献
  4. 基准测试:在标准数据集上对比性能指标

15.9 练习题

练习15.1:三平面表示的表达能力(基础题)

证明三平面表示可以精确重建任何轴对齐的长方体。设长方体的边界为 $[x_0, x_1] \times [y_0, y_1] \times [z_0, z_1]$,请构造三个平面函数使得重建误差为零。

Hint: 考虑指示函数的分解:$\mathbb{1}_{box}(x,y,z) = \mathbb{1}_{[x_0,x_1]}(x) \cdot \mathbb{1}_{[y_0,y_1]}(y) \cdot \mathbb{1}_{[z_0,z_1]}(z)$

答案

定义三个平面函数:

  • $g_{xy}(x,y) = \mathbb{1}_{[x_0,x_1]}(x) \cdot \mathbb{1}_{[y_0,y_1]}(y)$
  • $g_{xz}(x,z) = \mathbb{1}_{[x_0,x_1]}(x) \cdot \mathbb{1}_{[z_0,z_1]}(z)$
  • $g_{yz}(y,z) = \mathbb{1}_{[y_0,y_1]}(y) \cdot \mathbb{1}_{[z_0,z_1]}(z)$

聚合函数:$h(a,b,c) = \begin{cases} 1 & \text{if } a=1, b=1, c=1 \\ 0 & \text{otherwise} \end{cases}$

验证:当且仅当点 $(x,y,z)$ 在长方体内时,三个投影都为1,聚合后输出1,实现精确重建。这说明三平面表示对轴对齐几何有完美的表达能力。

练习15.2:量化误差分析(基础题)

假设一个权重矩阵 $\mathbf{W} \in \mathbb{R}^{1000 \times 1000}$,元素服从均匀分布 $U[-1, 1]$。计算INT8量化的期望误差和最坏情况误差。

Hint: 量化步长 $s = \frac{2}{127}$,量化误差 $e_i \in [-s/2, s/2]$

答案
  1. 量化步长:$s = \frac{\max(|\mathbf{W}|)}{127} = \frac{1}{127} \approx 0.0079$

  2. 单个权重的量化误差:$e_i \sim U[-s/2, s/2]$ - 期望:$\mathbb{E}[e_i] = 0$ - 方差:$\text{Var}(e_i) = \frac{s^2}{12}$

  3. 总误差(Frobenius范数): - 期望:$\mathbb{E}[|\mathbf{E}|_F] = \sqrt{n \cdot \text{Var}(e_i)} = \sqrt{\frac{10^6 \cdot s^2}{12}} = \frac{s \cdot 1000}{\sqrt{12}} \approx 2.28$ - 最坏情况:$|\mathbf{E}|_{F,max} = \frac{s \cdot 1000}{2} \approx 3.95$

  4. 相对误差:约0.23%(期望)到0.40%(最坏)

练习15.3:推理时间优化(基础题)

给定一个前馈生成模型,编码器耗时20ms,生成器耗时40ms,网格提取耗时15ms。如果使用3级流水线并行,理论上处理10个样本的总时间是多少?假设无其他开销。

Hint: 流水线中,第一个样本需要完整时间,后续样本可以重叠

答案

单样本串行时间:$T_{serial} = 20 + 40 + 15 = 75\text{ms}$

流水线时间分析:

  • Stage 1 (编码器): 20ms/样本
  • Stage 2 (生成器): 40ms/样本
  • Stage 3 (提取器): 15ms/样本

瓶颈是Stage 2(40ms)。

总时间计算:

  • 第1个样本完成:75ms
  • 第2-10个样本:每40ms完成一个(受瓶颈限制)
  • 总时间:$75 + 9 \times 40 = 435\text{ms}$

对比串行:$10 \times 75 = 750\text{ms}$ 加速比:$750/435 \approx 1.72$倍

练习15.4:多视图一致性约束(挑战题)

设计一个损失函数,确保生成的3D物体在 $N$ 个预定义视角下的2D投影满足epipolar几何约束。给出数学表达式并解释各项的作用。

Hint: 考虑基础矩阵 $\mathbf{F}$ 和对应点的约束 $\mathbf{p}_j^T \mathbf{F}_{ij} \mathbf{p}_i = 0$

答案

多视图一致性损失: $$\mathcal{L}_{mvc} = \lambda_1 \mathcal{L}_{epipolar} + \lambda_2 \mathcal{L}_{photometric} + \lambda_3 \mathcal{L}_{depth}$$

  1. Epipolar约束项: $$\mathcal{L}_{epipolar} = \sum_{i<j} \sum_{k} \left| \mathbf{p}_{j,k}^T \mathbf{F}_{ij} \mathbf{p}_{i,k} \right|$$ 确保对应点满足极线约束

  2. 光度一致性项: $$\mathcal{L}_{photometric} = \sum_{i,j} \sum_{k \in \Omega_{ij}} |\mathbf{I}_i(\mathbf{p}_{i,k}) - \mathbf{I}_j(\pi_{ij}(\mathbf{p}_{i,k}))|_1$$ 确保对应像素的颜色相似

  3. 深度一致性项: $$\mathcal{L}_{depth} = \sum_{i,j} \sum_{k} |d_i(\mathbf{p}_{i,k}) - \hat{d}_j(\pi_{ij}(\mathbf{p}_{i,k}))|$$ 确保深度图的几何一致性

其中 $\pi_{ij}$ 是从视图 $i$ 到视图 $j$ 的投影变换。

练习15.5:三平面混叠问题(挑战题)

分析三平面表示对于球面 $|\mathbf{p}|_2 = r$ 的重建误差。假设使用分辨率为 $R \times R$ 的三平面,推导误差的上界。

Hint: 考虑球面法向与投影平面的夹角

答案

球面在三个投影平面上的表现:

  • XY平面:圆形,边缘梯度大
  • XZ平面:圆形,边缘梯度大
  • YZ平面:圆形,边缘梯度大

误差分析:

  1. 采样误差:网格分辨率导致的离散化误差 $$e_{sample} \leq \frac{\sqrt{2}r}{R}$$

  2. 混叠误差:高曲率区域的信息丢失 - 最大曲率:$\kappa_{max} = 1/r$ - 混叠发生在 $|\nabla f| > \pi R/(2r)$ 的区域

  3. 重建误差上界: $$\mathcal{E}_{total} \leq C_1 \frac{r}{R} + C_2 \frac{r^2}{R^2}$$ 其中 $C_1 \approx 2\pi$(周长相关),$C_2 \approx \pi$(面积相关)

  4. 改进策略: - 在高曲率区域使用局部细化 - 添加球谐函数作为辅助表示 - 使用多尺度三平面金字塔

练习15.6:级联生成的收敛性(挑战题)

证明级联生成策略 $\mathbf{F}_{l+1} = G_{l+1}(\mathbf{F}_l, \mathbf{z}_{l+1})$ 在满足Lipschitz条件下的收敛性。设 $G_l$ 的Lipschitz常数为 $L_l < 1$。

Hint: 使用Banach不动点定理

答案

设目标表示为 $\mathbf{F}^*$,定义误差序列:$e_l = |\mathbf{F}_l - \mathbf{F}^*|$

  1. 递推关系: 由Lipschitz条件: $$e_{l+1} = |G_{l+1}(\mathbf{F}_l, \mathbf{z}_{l+1}) - G_{l+1}(\mathbf{F}^*, \mathbf{z}_{l+1})| \leq L_{l+1} \cdot e_l$$

  2. 误差累积: $$e_L \leq e_0 \cdot \prod_{l=1}^L L_l$$

  3. 收敛条件: 当 $\prod_{l=1}^L L_l < 1$ 时,$\lim_{L \to \infty} e_L = 0$

  4. 收敛速率: 几何收敛,速率为 $\rho = \max_l L_l$

  5. 实践意义: - 每级生成器应该是"收缩映射" - 添加skip connection可以改善收敛性 - 残差学习:$\mathbf{F}_{l+1} = \mathbf{F}_l + \alpha \cdot G_{l+1}(\mathbf{F}_l)$,其中 $\alpha < 1$

练习15.7:实时系统的延迟预算分配(挑战题)

设计一个实时3D生成系统,要求99%的请求在100ms内完成。给定各组件的延迟分布(假设为正态分布),如何分配计算预算?

组件延迟(均值±标准差):

  • 编码器:15±3ms
  • 生成器:35±8ms
  • 提取器:12±2ms
  • 后处理:5±1ms

Hint: 使用正态分布的加法性质和3-sigma规则

答案
  1. 总延迟分布: 各组件独立,总延迟也服从正态分布:
  • 均值:$\mu = 15 + 35 + 12 + 5 = 67\text{ms}$
  • 方差:$\sigma^2 = 9 + 64 + 4 + 1 = 78$
  • 标准差:$\sigma = \sqrt{78} \approx 8.83\text{ms}$
  1. 99%置信区间: 使用2.58-sigma(99%分位数): $$T_{99\%} = \mu + 2.58\sigma = 67 + 2.58 \times 8.83 \approx 89.8\text{ms}$$

  2. 预算分配策略: - 总预算:100ms - 安全边界:100 - 89.8 = 10.2ms

  3. 优化方案: a) 减少生成器方差(最大贡献者):

    • 使用确定性推理
    • 固定批大小

b) 并行化:

  - 编码器与预处理并行
  - 后处理与传输并行

c) 自适应降级:

  - 检测到延迟风险时降低分辨率
  - 99%: 512×512
  - 1%: 256×256(快速路径)
  1. 监控指标: - P50: 67ms - P95: 67 + 1.65×8.83 ≈ 81.5ms
    - P99: 89.8ms - P99.9: 67 + 3.09×8.83 ≈ 94.3ms

练习15.8:开放性思考题

比较前馈式生成与优化式生成(如DreamFusion)的适用场景。设计一个混合系统,结合两者的优势,并讨论其架构设计。

思考方向

  • 质量vs速度的权衡
  • 用户交互模式
  • 计算资源分配
  • 渐进式细化策略
参考思路

混合系统架构

  1. 两阶段生成流程: - Stage 1:前馈快速预览(<100ms) - Stage 2:优化式精细化(可选,~5min)

  2. 适用场景分析: - 前馈式:交互设计、实时预览、批量生成 - 优化式:最终资产、英雄资产、特定需求

  3. 架构设计

用户输入 → 意图分析 → 路由决策
             ↓              ↓
        快速路径      精细路径
        (前馈式)      (优化式)
             ↓              ↓
        即时反馈   → 渐进细化
  1. 关键创新点: - 热启动:前馈结果作为优化初值 - 自适应细化:基于用户反馈选择细化区域 - 缓存机制:相似请求复用中间结果 - 质量预测:估计是否需要优化式细化

  2. 实现考虑: - 统一的3D表示(如DMTet) - 共享的特征提取器 - 增量式优化策略 - 用户可中断的细化过程

  3. 评估指标: - 首次交互延迟(TTFI) - 最终质量得分 - 计算资源效率 - 用户满意度