unified_cg

第8章：4D神经表示与频域方法

章节大纲

引言
- 4D表示的动机：时间维度的重要性
- 频域方法在动态场景中的优势
- 本章学习目标
4D时空辐射场
- 从3D到4D的扩展
- 时空连续性假设
- 4D体积渲染方程
傅里叶体积渲染
- 傅里叶变换在体积渲染中的应用
- 频域中的投影-切片定理
- 相位一致性与时间演化
K-Planes：分解的4D表示
- 张量分解基础
- 平面分解策略
- 特征组合与重建
频域中的时间插值
- 时间频率分析
- 相位插值方法
- 运动补偿与频域
带宽限制与采样理论
- Nyquist-Shannon采样定理在4D中的应用
- 时空带宽的权衡
- 抗锯齿与重建滤波器
本章小结
练习题
常见陷阱与错误
最佳实践检查清单

引言

在前面的章节中，我们探讨了静态场景的神经辐射场表示。然而，真实世界是动态的——物体运动、光照变化、材质属性随时间演化。本章将神经表示扩展到时间维度，探讨4D时空辐射场的数学框架，并深入研究频域方法如何帮助我们更有效地表示和渲染动态场景。

频域分析不仅提供了理解时空信号的强大工具，还揭示了动态场景的内在结构。通过在频域中工作，我们可以利用信号的稀疏性、分离不同的运动成分，并设计更高效的表示方法。

为什么需要4D表示？

传统的动态场景表示方法通常将时间维度作为独立的参数处理，例如关键帧动画或运动向量场。这些方法虽然在特定应用中有效，但存在根本性限制：

离散时间表示的限制：关键帧方法只能捕获离散时刻的状态，中间时刻通过插值获得，这可能导致运动不自然或细节丢失。
运动表示的局限性：基于运动向量的方法假设场景可以通过简单的变换描述，难以处理复杂的非刚体变形、拓扑变化或光照变化。
存储效率问题：独立存储每个时刻的3D表示会导致巨大的存储开销，特别是对于长时间序列。

4D神经表示通过将时间作为连续维度集成到辐射场中，提供了一个统一且高效的框架来解决这些挑战。

频域方法的优势

频域分析在4D表示中扮演着关键角色，其优势包括：

运动模式识别：不同类型的运动（平移、旋转、振动）在频域中有独特的特征，便于分析和分离。
压缩效率：自然场景在频域中通常是稀疏的，特别是在高频区域，这为压缩提供了机会。
插值质量：频域插值可以保持信号的频谱特性，避免时域插值可能产生的伪影。
计算加速：某些操作（如卷积、相关）在频域中可以更高效地计算。
物理洞察：频域表示与物理现象（如波动、振动）有自然的联系，有助于理解和建模动态场景。

本章结构

本章将从4D时空辐射场的数学定义开始，逐步深入到频域分析和高效表示方法：

第2节：建立4D时空辐射场的数学框架，包括体积渲染方程的时间扩展和连续性约束。
第3节：介绍傅里叶体积渲染，探讨投影-切片定理在4D中的应用，以及如何利用相位相干性进行运动分析。
第4节：详细介绍K-Planes方法，这是一种基于张量分解的高效4D表示，通过将4D张量分解为2D平面的组合来降低复杂度。
第5节：探讨频域中的时间插值技术，包括相位插值和运动补偿方法。
第6节：应用采样理论到4D表示，讨论Nyquist-Shannon定理的推广以及自适应采样策略。

数学准备

在深入技术细节之前，让我们回顾一些关键的数学概念：

傅里叶变换对：

时域/空域：$f(t) \leftrightarrow \tilde{f}(\omega)$
卷积定理：$f * g \leftrightarrow \tilde{f} \cdot \tilde{g}$
Parseval定理：$\int f(t) ^2 dt = \int \tilde{f}(\omega) ^2 d\omega$

张量表示：

4阶张量：$\mathcal{T} \in \mathbb{R}^{N_x \times N_y \times N_z \times N_t}$
张量积：$\mathbf{a} \otimes \mathbf{b} \otimes \mathbf{c} \otimes \mathbf{d}$
张量分解：CP分解、Tucker分解

采样理论：

Nyquist频率：$f_N = 1/(2\Delta t)$
Shannon插值：$f(t) = \sum_n f(n\Delta t) \text{sinc}((t-n\Delta t)/\Delta t)$

学习目标

完成本章后，您将能够：

将体积渲染方程扩展到4D时空域，理解时间维度带来的新挑战和机遇
理解并应用傅里叶分析于动态体积渲染，包括4D投影-切片定理
实现和分析K-Planes等分解表示方法，理解其背后的低秩假设
在频域中进行时间插值和运动分析，利用相位信息提高插值质量
应用采样理论优化4D神经表示的存储和计算，设计自适应采样策略
识别并解决4D表示中的常见问题，如频域混叠和数值稳定性

4D时空辐射场

时空辐射场的数学定义

将3D辐射场扩展到时间维度，我们定义4D时空辐射场为：

\[L(\mathbf{x}, t, \boldsymbol{\omega}) : \mathbb{R}^3 \times \mathbb{R} \times S^2 \rightarrow \mathbb{R}^3\]

其中：

$\mathbf{x} \in \mathbb{R}^3$ 是空间位置
$t \in \mathbb{R}$ 是时间
$\boldsymbol{\omega} \in S^2$ 是观察方向
输出是RGB辐射值

相应的，密度场也成为时变函数： $\sigma(\mathbf{x}, t) : \mathbb{R}^3 \times \mathbb{R} \rightarrow \mathbb{R}^+$

这种表示自然地将场景的所有时变特性编码在一个统一的函数中，包括：

几何变化：物体的运动、变形、出现和消失
外观变化：颜色、纹理、反射属性的时间演化
光照变化：动态光源、阴影运动、全局光照的时间变化

物理意义与约束

4D辐射场不是任意的数学函数，而是受物理定律约束的。这些约束对于获得真实的重建至关重要：

因果性约束：未来的状态不能影响过去 $L(\mathbf{x}, t, \boldsymbol{\omega}) \perp L(\mathbf{x}, t', \boldsymbol{\omega}), \quad \forall t' > t$
能量守恒：在没有外部能量输入的封闭系统中 $\frac{d}{dt} \int_V \int_{S^2} L(\mathbf{x}, t, \boldsymbol{\omega}) d\boldsymbol{\omega} dV = P_{in}(t) - P_{out}(t)$
光速限制：信息传播速度不能超过光速 $\|L(\mathbf{x}_1, t, \boldsymbol{\omega}) - L(\mathbf{x}_2, t + \Delta t, \boldsymbol{\omega})\| = 0 \text{ if } \|\mathbf{x}_1 - \mathbf{x}_2\| > c\Delta t$

边界条件与初始条件

完整的4D辐射场问题需要指定：

空间边界条件：

Dirichlet条件：$L(\mathbf{x}, t, \boldsymbol{\omega})

{\mathbf{x} \in \partial V} = L{boundary}(\mathbf{x}, t, \boldsymbol{\omega})$

Neumann条件：$\nabla L \cdot \mathbf{n} _{\mathbf{x} \in \partial V} = g(\mathbf{x}, t)$
吸收边界：模拟开放场景

时间边界条件：
- 初始条件：$L(\mathbf{x}, 0, \boldsymbol{\omega}) = L_0(\mathbf{x}, \boldsymbol{\omega})$
- 终止条件（如果有限时间）：$L(\mathbf{x}, T, \boldsymbol{\omega}) = L_T(\mathbf{x}, \boldsymbol{\omega})$
周期边界条件（对于循环动画）： $L(\mathbf{x}, t + T_{period}, \boldsymbol{\omega}) = L(\mathbf{x}, t, \boldsymbol{\omega})$

4D体积渲染方程

对于时刻$t$的一条射线$\mathbf{r}(s) = \mathbf{o} + s\mathbf{d}$，体积渲染方程变为：

\[C(\mathbf{r}, t) = \int_0^{\infty} T(s, t) \sigma(\mathbf{r}(s), t) L(\mathbf{r}(s), t, -\mathbf{d}) ds\]

其中透射率： $T(s, t) = \exp\left(-\int_0^s \sigma(\mathbf{r}(u), t) du\right)$

数值积分形式

在实际实现中，我们将连续积分离散化为黎曼和：

\[C(\mathbf{r}, t) \approx \sum_{i=1}^{N} T_i(t) \alpha_i(t) L_i(t)\]

其中：

$T_i(t) = \exp\left(-\sum_{j=1}^{i-1} \sigma_j(t) \delta_j\right)$ 是累积透射率
$\alpha_i(t) = 1 - \exp(-\sigma_i(t) \delta_i)$ 是不透明度
$\delta_i = s_{i+1} - s_i$ 是采样间隔

时变采样策略

对于动态场景，采样策略需要考虑时间维度：

时空自适应采样：基于场景的时空梯度动态调整采样密度 $\rho(\mathbf{x}, t) = \rho_0 \cdot \max\left(1, \|\nabla_{x,t} \sigma\|_2 / \tau\right)$

实际实现中，梯度可以通过有限差分近似： $\nabla_{x,t} \sigma \approx \left(\frac{\partial \sigma}{\partial x}, \frac{\partial \sigma}{\partial y}, \frac{\partial \sigma}{\partial z}, \frac{\partial \sigma}{\partial t}\right)$

其中时间梯度尤其重要，它指示了场景变化的速度。
运动感知采样：沿运动轨迹增加采样点 $\mathbf{s}_i(t) = \mathbf{s}_i(0) + \int_0^t \mathbf{v}(\mathbf{s}_i(\tau), \tau) d\tau$

对于快速运动的区域，需要更密集的采样以避免运动模糊和采样不足。
重要性采样扩展到时间维度： $p(\mathbf{x}, t) \propto \sigma(\mathbf{x}, t) \cdot \|L(\mathbf{x}, t, -\mathbf{d})\| \cdot \left(1 + \left\|\frac{\partial L}{\partial t}\right\|\right)$

这确保了在视觉上重要且快速变化的区域获得更多采样。
层次时空采样：
- 粗级别：稀疏采样识别感兴趣区域
- 细级别：在识别的区域密集采样
- 时间金字塔：不同时间尺度的层次采样

时空连续性约束

物理世界的连续性给4D辐射场带来了额外的约束：

时间连续性（Lipschitz连续）： $\|L(\mathbf{x}, t_1, \boldsymbol{\omega}) - L(\mathbf{x}, t_2, \boldsymbol{\omega})\| \leq L_t |t_1 - t_2|$ 其中$L_t$是时间Lipschitz常数

这个约束防止了物理上不可能的瞬时变化，如物体的瞬间传送或颜色的突变。
运动连续性（对于刚体运动）： $L(\mathbf{x}, t, \boldsymbol{\omega}) = L(\mathbf{R}(t)\mathbf{x} + \mathbf{t}(t), 0, \mathbf{R}(t)\boldsymbol{\omega})$ 其中$\mathbf{R}(t)$和$\mathbf{t}(t)$描述刚体变换

对于非刚体运动，这可以推广为： $L(\mathbf{x}, t, \boldsymbol{\omega}) = L(\mathbf{W}(\mathbf{x}, t), 0, \mathbf{J}_{\mathbf{W}}^T\boldsymbol{\omega})$ 其中$\mathbf{W}$是形变场，$\mathbf{J}_{\mathbf{W}}$是其雅可比矩阵。
光流约束（亮度恒定假设）： $\frac{\partial L}{\partial t} + (\mathbf{v} \cdot \nabla)L = S(\mathbf{x}, t)$ 其中$\mathbf{v}$是速度场，$S$是源项（如光照变化）

展开为分量形式： $\frac{\partial L}{\partial t} + v_x\frac{\partial L}{\partial x} + v_y\frac{\partial L}{\partial y} + v_z\frac{\partial L}{\partial z} = S(\mathbf{x}, t)$

当$S = 0$时，这就是经典的光流方程。
能量守恒： $\int_{\mathbb{R}^3} \int_{S^2} L(\mathbf{x}, t, \boldsymbol{\omega}) d\boldsymbol{\omega} d\mathbf{x} = E(t)$ 其中$E(t)$是场景的总能量，对于封闭系统应保持恒定

实际上，由于吸收和散射，通常有： $\frac{dE}{dt} = -\int_V \alpha(\mathbf{x}, t) dV$ 其中$\alpha$是吸收系数。
动量守恒（对于流体和粒子系统）： $\frac{\partial}{\partial t}(\rho \mathbf{v}) + \nabla \cdot (\rho \mathbf{v} \otimes \mathbf{v}) = -\nabla p + \mathbf{f}_{ext}$

这在模拟烟雾、火焰等参与介质时特别重要。
相干性约束：时间相邻帧之间应该保持某种程度的相似性： $\mathcal{C}(t, t+\Delta t) = \frac{\langle L(\cdot, t), L(\cdot, t+\Delta t) \rangle}{\|L(\cdot, t)\| \|L(\cdot, t+\Delta t)\|} > \theta$

其中$\theta$是相干性阈值，通常接近1。

时空场的参数化方法

1. 直接参数化

最直接的方法是使用神经网络直接建模： $(\sigma, \mathbf{c}) = \Phi_\theta(\mathbf{x}, t)$

优点：表达能力强缺点：难以施加物理约束

2. 分解参数化

将时空变化分解为不同成分： $L(\mathbf{x}, t, \boldsymbol{\omega}) = L_{static}(\mathbf{x}, \boldsymbol{\omega}) + L_{dynamic}(\mathbf{x}, t, \boldsymbol{\omega})$

或者更细粒度的分解： $L = L_{ambient} + L_{diffuse}(t) + L_{specular}(t) + L_{transient}(t)$

3. 形变场参数化

通过形变场$\mathbf{W}(\mathbf{x}, t)$将动态场景映射到正则空间： $L(\mathbf{x}, t, \boldsymbol{\omega}) = L_{canonical}(\mathbf{W}(\mathbf{x}, t), \boldsymbol{\omega})$

这种方法特别适合处理非刚体变形，如人体运动。

4D表示的计算复杂度分析

直接存储4D辐射场面临严峻的计算挑战：

存储复杂度

密集网格：$O(N_x \times N_y \times N_z \times N_t)$
稀疏表示：$O(k \cdot N_{occupied})$，其中$k$是稀疏度
神经表示：$O( \theta )$，与场景复杂度解耦

渲染复杂度

单条射线：$O(N_{samples} \times \Phi_{eval})$
完整图像：$O(H \times W \times N_{samples} \times \Phi_{eval})$
时间序列：$O(T \times H \times W \times N_{samples} \times \Phi_{eval})$

其中$\Phi_{eval}$是神经网络评估的复杂度。

优化复杂度

梯度计算：$O( \theta \times N_{rays} \times N_{samples})$
参数更新：$O( \theta )$

4D表示的正则化

为了获得合理的4D重建，需要适当的正则化：

时间平滑正则化： $\mathcal{L}_{smooth} = \int \int \left\|\frac{\partial^2 L}{\partial t^2}\right\|^2 d\mathbf{x} dt$
场景流正则化： $\mathcal{L}_{flow} = \int \int \|\nabla \times \mathbf{v}(\mathbf{x}, t)\|^2 d\mathbf{x} dt$ 鼓励无旋流场（适用于大多数自然运动）
稀疏性正则化： $\mathcal{L}_{sparse} = \int \int \|\mathbf{v}(\mathbf{x}, t)\|_1 d\mathbf{x} dt$ 鼓励静止区域保持静止
时间一致性正则化： $\mathcal{L}_{consistency} = \sum_{t} \|C(\mathbf{r}, t) - \hat{C}(\mathbf{r}, t)\|^2$ 其中$\hat{C}$是通过时间传播预测的颜色

傅里叶体积渲染

傅里叶分析为理解和处理4D时空辐射场提供了强大的数学工具。在频域中，许多复杂的时空现象变得更加清晰和易于处理。

4D傅里叶变换

对于4D时空辐射场，我们定义其傅里叶变换为：

\[\tilde{L}(\mathbf{k}, \omega_t, \boldsymbol{\omega}) = \int_{\mathbb{R}^3} \int_{\mathbb{R}} L(\mathbf{x}, t, \boldsymbol{\omega}) e^{-2\pi i(\mathbf{k} \cdot \mathbf{x} + \omega_t t)} d\mathbf{x} dt\]

其中：

$\mathbf{k} \in \mathbb{R}^3$ 是空间频率
$\omega_t \in \mathbb{R}$ 是时间频率

逆变换给出： $L(\mathbf{x}, t, \boldsymbol{\omega}) = \int_{\mathbb{R}^3} \int_{\mathbb{R}} \tilde{L}(\mathbf{k}, \omega_t, \boldsymbol{\omega}) e^{2\pi i(\mathbf{k} \cdot \mathbf{x} + \omega_t t)} d\mathbf{k} d\omega_t$

时空频率的物理意义

空间频率 $\mathbf{k}$：描述空间变化的快慢
- 低频：大尺度结构、平滑区域
- 高频：细节、边缘、纹理
- 各向异性：不同方向的频率成分反映场景的方向性结构
时间频率 $\omega_t$：描述时间变化的快慢
- $\omega_t = 0$：静态成分
- $ \omega_t $大：快速变化（如振动、闪烁）
- 负频率：与正频率共轭，保证实值信号

4D傅里叶变换的性质

线性性： $\mathcal{F}\{aL_1 + bL_2\} = a\tilde{L}_1 + b\tilde{L}_2$
平移定理： $\mathcal{F}\{L(\mathbf{x} - \mathbf{x}_0, t - t_0)\} = \tilde{L}(\mathbf{k}, \omega_t) e^{-2\pi i(\mathbf{k} \cdot \mathbf{x}_0 + \omega_t t_0)}$
缩放定理： $\mathcal{F}\{L(a\mathbf{x}, bt)\} = \frac{1}{|ab|^3} \tilde{L}(\mathbf{k}/a, \omega_t/b)$
卷积定理： $\mathcal{F}\{L_1 * L_2\} = \tilde{L}_1 \cdot \tilde{L}_2$
Parseval定理（能量守恒）： $\int \int |L(\mathbf{x}, t)|^2 d\mathbf{x} dt = \int \int |\tilde{L}(\mathbf{k}, \omega_t)|^2 d\mathbf{k} d\omega_t$

窗口傅里叶变换

由于实际信号是有限长度的，我们常使用窗口傅里叶变换（STFT）：

\[\tilde{L}_{win}(\mathbf{k}, \omega_t, \mathbf{x}_0, t_0) = \int \int L(\mathbf{x}, t) w(\mathbf{x} - \mathbf{x}_0, t - t_0) e^{-2\pi i(\mathbf{k} \cdot \mathbf{x} + \omega_t t)} d\mathbf{x} dt\]

其中$w$是窗函数，常用的包括：

Gaussian窗：$w(\mathbf{x}, t) = \exp(-|\mathbf{x}|^2/2\sigma_x^2 - t^2/2\sigma_t^2)$
Hann窗：$w(x, t) = \frac{1}{2}(1 + \cos(\pi x/L_x))(1 + \cos(\pi t/L_t))$

窗口大小决定了时频分辨率的权衡：

大窗口：好的频率分辨率，差的时空定位
小窗口：好的时空定位，差的频率分辨率

投影-切片定理的4D扩展

经典的投影-切片定理是计算机断层成像（CT）的理论基础。在4D中，这个定理有更丰富的结构：

定理（4D投影-切片）：沿方向$\mathbf{n}$在时刻$t$的2D投影图像的2D傅里叶变换，等于4D傅里叶体积在特定3D超平面上的切片。

数学推导

设投影操作符$\mathcal{P}_{\mathbf{n},t}$定义为： $p(u, v, t) = \int_{-\infty}^{\infty} L(u\mathbf{u} + v\mathbf{v} + s\mathbf{n}, t, -\mathbf{n}) \sigma(u\mathbf{u} + v\mathbf{v} + s\mathbf{n}, t) ds$

其中${\mathbf{u}, \mathbf{v}, \mathbf{n}}$构成正交基。

对投影进行2D傅里叶变换： $\tilde{p}(k_u, k_v, t) = \int \int p(u, v, t) e^{-2\pi i(k_u u + k_v v)} du dv$

代入投影定义并交换积分顺序： $\tilde{p}(k_u, k_v, t) = \int_{-\infty}^{\infty} \tilde{L}(k_u\mathbf{u} + k_v\mathbf{v}, 0, -\mathbf{n}) e^{-2\pi i \omega_t t} d\omega_t$

这正是4D傅里叶体积在超平面$k_\parallel = 0$上的切片。

应用：频域重建

利用投影-切片定理，可以从多个视角的投影重建4D体积：

数据采集：在不同时刻$t_i$和视角$\mathbf{n}j$获取投影$p{ij}$
频域填充：计算$\tilde{p}_{ij}$并填充到4D频域相应位置
逆变换：通过4D逆傅里叶变换重建$L(\mathbf{x}, t, \boldsymbol{\omega})$

频域体积渲染

体积渲染方程在频域中有优雅的表达形式。考虑简化情况（忽略散射），渲染方程可写为：

\[C(\mathbf{r}, t) = \int_0^{\infty} e^{-\tau(s, t)} \sigma(\mathbf{r}(s), t) L(\mathbf{r}(s), t, -\mathbf{d}) ds\]

其中光学深度： $\tau(s, t) = \int_0^s \sigma(\mathbf{r}(u), t) du$

频域形式

在频域中，指数衰减变为卷积：

\[\tilde{C}(\mathbf{k}_\perp, \omega_t) = \mathcal{F}\{e^{-\tau}\} * \tilde{S}(\mathbf{k}, \omega_t)\]

其中源项$S = \sigma \cdot L$。

对于薄介质近似（$\tau \ll 1$），有： $\tilde{C}(\mathbf{k}_\perp, \omega_t) \approx \tilde{S}(\mathbf{k}_\perp, 0, \omega_t) - \tilde{\tau} * \tilde{S}$

相位相干性与运动分析

频域分析最强大的应用之一是运动分析。不同类型的运动在频域中有特征性的表现：

1. 平移运动

对于匀速平移$\mathbf{x}’ = \mathbf{x} + \mathbf{v}t$：

\[\tilde{L}'(\mathbf{k}, \omega_t) = \tilde{L}(\mathbf{k}, \omega_t - \mathbf{k} \cdot \mathbf{v})\]

这是频域中的多普勒效应。当观察固定频率$\omega_t$时，相当于相位调制： $\tilde{L}'(\mathbf{k}, \omega_t) = \tilde{L}(\mathbf{k}, \omega_t) e^{-2\pi i \mathbf{k} \cdot \mathbf{v} / \omega_t}$

2. 旋转运动

对于绕轴$\boldsymbol{\omega}$的旋转，角速度$|\boldsymbol{\omega}|$：

\[\tilde{L}'(\mathbf{k}, \omega_t) = \sum_{n=-\infty}^{\infty} J_n\left(\frac{|\mathbf{k} \times \boldsymbol{\omega}|}{|\boldsymbol{\omega}|}\right) \tilde{L}(\mathbf{R}_n\mathbf{k}, \omega_t - n|\boldsymbol{\omega}|)\]

其中$J_n$是贝塞尔函数，$\mathbf{R}_n$是旋转算子。

3. 周期运动

对于周期$T$的运动，频谱在时间频率上呈现离散峰：

\[\tilde{L}(\mathbf{k}, \omega_t) = \sum_{n=-\infty}^{\infty} \tilde{L}_n(\mathbf{k}) \delta(\omega_t - 2\pi n/T)\]

运动分离算法

基于频域分析，可以分离不同的运动成分：

静态/动态分离： $L_{static}(\mathbf{x}) = \int \tilde{L}(\mathbf{k}, 0, \boldsymbol{\omega}) e^{2\pi i \mathbf{k} \cdot \mathbf{x}} d\mathbf{k}$ $L_{dynamic}(\mathbf{x}, t) = L(\mathbf{x}, t) - L_{static}(\mathbf{x})$
多运动分解：使用独立成分分析（ICA）或稀疏编码在频域分离不同运动模式

频域滤波与信号处理

频域表示允许我们设计各种滤波器来增强或抑制特定的时空模式：

1. 时间滤波器

低通滤波（运动平滑）： $H_{LP}(\omega_t) = \frac{1}{1 + (\omega_t/\omega_c)^{2n}}$

带通滤波（提取特定频率运动）： $H_{BP}(\omega_t) = \exp\left(-\frac{(\omega_t - \omega_0)^2}{2\sigma_\omega^2}\right)$

陷波滤波（去除周期性噪声）： $H_{notch}(\omega_t) = 1 - \exp\left(-\frac{(\omega_t - \omega_{noise})^2}{2\sigma_{notch}^2}\right)$

2. 空间滤波器

各向同性滤波： $H_{iso}(\mathbf{k}) = \exp\left(-\frac{|\mathbf{k}|^2}{2\sigma_k^2}\right)$

方向性滤波（增强特定方向的结构）： $H_{dir}(\mathbf{k}) = \cos^{2n}\angle(\mathbf{k}, \mathbf{k}_0)$

3. 时空联合滤波

运动自适应滤波： $H(\mathbf{k}, \omega_t) = \exp\left(-\frac{(\omega_t - \mathbf{k} \cdot \mathbf{v}_{est})^2}{2\sigma^2}\right)$

这种滤波器沿估计的运动轨迹保持锐利，而在垂直方向上平滑。

计算效率与实现考虑

FFT加速

4D FFT的计算复杂度：

直接计算：$O(N^8)$（$N^4$个点，每个点$N^4$次运算）
FFT算法：$O(N^4 \log N)$

实际实现策略：

分离变换：先3D空间FFT，再1D时间FFT
块处理：将大体积分块，使用重叠保存法
GPU加速：利用GPU的并行性，可达到实时性能

内存优化

4D数据的内存需求巨大。优化策略包括：

压缩感知：利用信号在频域的稀疏性 $\min_{\tilde{L}} \|\tilde{L}\|_1 \text{ s.t. } \|\mathcal{A}\tilde{L} - \mathbf{y}\|_2 < \epsilon$
低秩近似：将4D张量分解为低秩因子的乘积
自适应采样：在频域中非均匀采样，重要区域密集采样

K-Planes：分解的4D表示

动机与基本思想

K-Planes方法基于一个关键观察：4D时空信号通常具有低秩结构。通过将4D张量分解为2D平面的组合，我们可以大幅降低存储和计算复杂度。

数学框架

K-Planes将4D辐射场分解为多个2D特征平面的外积：

\[f(\mathbf{x}, t) = \sum_{i=1}^{R} \sum_{j \in \{xy, xz, yz, xt, yt, zt\}} \alpha_{ij} P_{ij}(\pi_j(\mathbf{x}, t))\]

其中：

$R$ 是秩（特征通道数）
$P_{ij}$ 是第$i$个特征通道在平面$j$上的2D特征网格
$\pi_j$ 是投影操作符，将4D点投影到相应的2D平面
$\alpha_{ij}$ 是组合权重

张量分解视角

从张量分解的角度，K-Planes可以视为一种特殊的CP分解（Canonical Polyadic Decomposition）的变体：

\[\mathcal{T} \approx \sum_{r=1}^{R} \mathbf{a}_r \otimes \mathbf{b}_r \otimes \mathbf{c}_r \otimes \mathbf{d}_r\]

但K-Planes通过共享某些维度的因子来进一步压缩表示。

特征组合策略

不同的特征组合策略对应不同的假设：

乘法组合（适用于密度场）： $\sigma(\mathbf{x}, t) = \prod_{j} \exp(P_j^{\sigma}(\pi_j(\mathbf{x}, t)))$
加法组合（适用于颜色场）： $\mathbf{c}(\mathbf{x}, t) = \sum_{j} P_j^{c}(\pi_j(\mathbf{x}, t))$
混合组合： $f(\mathbf{x}, t) = MLP\left(\bigoplus_{j} P_j(\pi_j(\mathbf{x}, t))\right)$ 其中$\bigoplus$表示特征连接

存储和计算复杂度分析

相比于完整的4D网格：

存储：从$O(N^3T)$降至$O(RN^2T^{1/2})$
查询：从$O(1)$增至$O(R \cdot 6)$（6个平面查询）

当$R \ll N$时，这提供了显著的压缩。

频域中的时间插值

相位插值原理

在频域中，时间插值可以通过相位调整实现。对于两个时刻$t_1$和$t_2$之间的插值：

\[\tilde{L}(\mathbf{k}, \omega_t, t) = \tilde{L}(\mathbf{k}, \omega_t, t_1) e^{i\phi(\omega_t)(t-t_1)/(t_2-t_1)}\]

其中相位差： $\phi(\omega_t) = \arg\left(\frac{\tilde{L}(\mathbf{k}, \omega_t, t_2)}{\tilde{L}(\mathbf{k}, \omega_t, t_1)}\right)$

运动补偿的频域方法

对于已知运动场$\mathbf{v}(\mathbf{x}, t)$，频域运动补偿可表示为：

\[\tilde{L}_{comp}(\mathbf{k}, \omega_t) = \tilde{L}(\mathbf{k}, \omega_t) \exp\left(2\pi i \int \mathbf{k} \cdot \mathbf{v}(\mathbf{x}, t) \delta(\mathbf{k} - \nabla_{\mathbf{x}}\phi) dt\right)\]

这允许我们在频域中直接补偿运动，而无需在空间域进行昂贵的扭曲操作。

多尺度时间分解

利用小波变换或多分辨率分析，我们可以将时间信号分解为不同尺度：

\[L(\mathbf{x}, t, \boldsymbol{\omega}) = \sum_{j} \sum_{k} c_{jk}(\mathbf{x}, \boldsymbol{\omega}) \psi_{jk}(t)\]

其中$\psi_{jk}$是小波基函数，$j$是尺度索引，$k$是平移索引。

这种分解允许：

自适应时间采样
多尺度运动分析
高效的时间压缩

频域插值的数值稳定性

频域插值需要注意数值稳定性问题：

相位展开：避免$2\pi$相位跳变
频谱泄漏：使用窗函数减少边界效应
噪声放大：在高频区域使用正则化

带宽限制与采样理论

4D Nyquist-Shannon定理

对于带限的4D信号$L(\mathbf{x}, t, \boldsymbol{\omega})$，如果其傅里叶变换满足： $\tilde{L}(\mathbf{k}, \omega_t, \boldsymbol{\omega}) = 0, \quad \forall |\mathbf{k}| > \mathbf{B}, |\omega_t| > \Omega_t$

则最小采样率为：

空间：$f_s > 2B_i$（每个维度）
时间：$f_t > 2\Omega_t$

时空带宽的权衡

实际场景中，空间和时间带宽存在权衡关系。对于固定的总采样预算$N_{total}$：

\[N_{spatial}^3 \times N_{temporal} = N_{total}\]

最优分配取决于信号特性：

快速运动场景：增加时间采样
高细节静态场景：增加空间采样

自适应采样策略

基于局部频谱分析的自适应采样：

局部频谱估计： $S_{local}(\mathbf{x}_0, t_0) = \left|\mathcal{F}_{local}\{L\}(\mathbf{k}, \omega_t)\right|^2$
采样密度调整： $\rho(\mathbf{x}, t) = \rho_0 \cdot \max\left(1, \frac{\|\nabla_{\mathbf{x},t} S_{local}\|}{\tau}\right)$

其中$\tau$是阈值参数。

抗锯齿滤波器设计

对于4D重建，理想的低通滤波器为：

\[H_{ideal}(\mathbf{k}, \omega_t) = \begin{cases} 1 & \text{if } |\mathbf{k}| < \mathbf{B}, |\omega_t| < \Omega_t \\ 0 & \text{otherwise} \end{cases}\]

实际中使用可分离的窗函数： $H(\mathbf{k}, \omega_t) = h_x(k_x)h_y(k_y)h_z(k_z)h_t(\omega_t)$

常用选择包括：

Kaiser窗（可调节主瓣宽度与旁瓣抑制）
Lanczos窗（良好的频率特性）
Gaussian窗（无振铃效应）

本章小结

本章探讨了4D神经表示和频域方法在动态场景渲染中的应用。关键概念包括：

4D时空辐射场：将静态3D辐射场扩展到时间维度，引入时空连续性约束
- 体积渲染方程：$C(\mathbf{r}, t) = \int_0^{\infty} T(s, t) \sigma(\mathbf{r}(s), t) L(\mathbf{r}(s), t, -\mathbf{d}) ds$
傅里叶体积渲染：利用频域分析理解和优化动态渲染
- 4D投影-切片定理的扩展
- 相位相干性揭示运动模式：$\tilde{L}’(\mathbf{k}, \omega_t) = \tilde{L}(\mathbf{k}, \omega_t) e^{-2\pi i \mathbf{k} \cdot \mathbf{v} / \omega_t}$
K-Planes分解表示：通过2D平面分解降低4D表示的复杂度
- 存储复杂度从$O(N^3T)$降至$O(RN^2T^{1/2})$
- 基于低秩假设的高效表示
频域时间插值：利用相位信息进行高质量时间插值
- 相位插值：$\tilde{L}(\mathbf{k}, \omega_t, t) = \tilde{L}(\mathbf{k}, \omega_t, t_1) e^{i\phi(\omega_t)(t-t_1)/(t_2-t_1)}$
- 多尺度时间分解支持自适应采样
采样理论应用：4D Nyquist-Shannon定理指导采样策略
- 时空带宽权衡
- 自适应采样和抗锯齿滤波器设计

这些技术共同构成了现代动态神经渲染的理论基础，在保持渲染质量的同时大幅提升了效率。

练习题

基础题

练习8.1 推导4D体积渲染方程中透射率$T(s,t)$的时间导数$\frac{\partial T}{\partial t}$。

提示

从透射率的定义出发，使用链式法则，注意$\sigma$对时间的依赖性。

答案

从透射率定义： $$T(s, t) = \exp\left(-\int_0^s \sigma(\mathbf{r}(u), t) du\right)$$ 对时间求导： $$\frac{\partial T}{\partial t} = T(s, t) \cdot \left(-\int_0^s \frac{\partial \sigma(\mathbf{r}(u), t)}{\partial t} du\right)$$ 这表明透射率的时间变化率与密度场的时间变化率成正比，且受当前透射率调制。

练习8.2 证明对于纯平移运动$\mathbf{x}’ = \mathbf{x} + \mathbf{v}t$，频域表示满足： $\tilde{L}'(\mathbf{k}, \omega_t) = \tilde{L}(\mathbf{k}, \omega_t) e^{-2\pi i \mathbf{k} \cdot \mathbf{v} / \omega_t}$

提示

从傅里叶变换的定义出发，进行变量替换。

答案

设原始场为$L(\mathbf{x}, t)$，平移后为$L'(\mathbf{x}, t) = L(\mathbf{x} - \mathbf{v}t, t)$。傅里叶变换： $$\tilde{L}'(\mathbf{k}, \omega_t) = \int \int L(\mathbf{x} - \mathbf{v}t, t) e^{-2\pi i(\mathbf{k} \cdot \mathbf{x} + \omega_t t)} d\mathbf{x} dt$$ 令$\mathbf{y} = \mathbf{x} - \mathbf{v}t$，则$d\mathbf{x} = d\mathbf{y}$： $$\tilde{L}'(\mathbf{k}, \omega_t) = \int \int L(\mathbf{y}, t) e^{-2\pi i(\mathbf{k} \cdot (\mathbf{y} + \mathbf{v}t) + \omega_t t)} d\mathbf{y} dt$$ $$= \int \int L(\mathbf{y}, t) e^{-2\pi i(\mathbf{k} \cdot \mathbf{y} + (\mathbf{k} \cdot \mathbf{v} + \omega_t)t)} d\mathbf{y} dt$$ $$= \tilde{L}(\mathbf{k}, \omega_t + \mathbf{k} \cdot \mathbf{v})$$ 当频率固定为$\omega_t$时，相当于乘以相位因子$e^{-2\pi i \mathbf{k} \cdot \mathbf{v} / \omega_t}$。

练习8.3 对于K-Planes表示，计算查询一个4D点$(x, y, z, t)$所需的内存访问次数和浮点运算次数。

提示

考虑6个2D平面，每个平面需要双线性插值。

答案

对于每个2D平面： - 双线性插值需要访问4个网格点 - 每个网格点存储$R$个特征通道 - 双线性插值需要3次乘法和3次加法总计： - 内存访问：$6 \times 4 \times R = 24R$次 - 浮点运算： - 插值：$6 \times R \times 6 = 36R$次 - 特征组合：约$6R$次（取决于具体策略） - 总计：约$42R$次浮点运算

挑战题

练习8.4 设计一个自适应K-Planes方法，能够根据场景复杂度自动调整不同平面的分辨率。描述你的算法并分析其复杂度。

提示

考虑使用梯度信息或重建误差来指导分辨率分配。

答案

自适应K-Planes算法： 1. **初始化**：所有平面使用低分辨率$N_0 \times N_0$ 2. **误差估计**：对每个平面$P_j$，计算重建误差： $$E_j = \sum_{samples} \|f(\mathbf{x}, t) - f_j(\mathbf{x}, t)\|^2$$ 其中$f_j$是仅使用平面$j$的重建 3. **分辨率分配**：基于误差分配总预算$B$： $$N_j = N_0 \cdot \left(1 + \alpha \frac{E_j}{\sum_k E_k}\right)$$ 受限于$\sum_j N_j^2 \leq B$ 4. **渐进细化**：使用多重网格方法，从粗到细优化复杂度分析： - 空间：$O(\sum_j N_j^2 R) \leq O(BR)$ - 时间：误差估计$O(S \cdot 6R)$，其中$S$是采样点数 - 优势：在复杂区域自动增加分辨率，简单区域保持低分辨率

练习8.5 推导频域中进行运动模糊渲染的公式。假设在曝光时间$[0, T]$内，场景以速度$\mathbf{v}(\mathbf{x}, t)$运动。

提示

运动模糊是时间积分，考虑其在频域的表现。

答案

运动模糊图像： $$I_{blur}(\mathbf{p}) = \frac{1}{T} \int_0^T C(\mathbf{p}, t) dt$$ 在频域中： $$\tilde{I}_{blur}(\mathbf{k}_{\perp}) = \frac{1}{T} \int_0^T \tilde{C}(\mathbf{k}_{\perp}, t) dt$$ 对于线性运动$\mathbf{v}$，利用相位关系： $$\tilde{I}_{blur}(\mathbf{k}_{\perp}) = \tilde{C}(\mathbf{k}_{\perp}, 0) \cdot \frac{\sin(\pi \mathbf{k}_{\perp} \cdot \mathbf{v}_{\perp} T)}{\pi \mathbf{k}_{\perp} \cdot \mathbf{v}_{\perp} T}$$ 这是一个sinc函数，表明运动模糊在频域中表现为低通滤波器。对于非线性运动，需要考虑高阶项： $$\tilde{I}_{blur}(\mathbf{k}_{\perp}) = \sum_{n=0}^{\infty} \frac{(-2\pi i)^n}{n!} \mathbf{k}_{\perp}^n : \mathcal{M}_n$$ 其中$\mathcal{M}_n$是运动的第$n$阶矩张量。

练习8.6 考虑一个周期运动场景（如旋转的风扇）。如何修改K-Planes表示来高效编码这种周期性？给出数学公式和存储分析。

提示

利用傅里叶级数展开周期信号。

答案

对于周期$T_p$的运动，使用傅里叶级数展开时间维度： $$f(\mathbf{x}, t) = \sum_{n=-N}^{N} \sum_{j \in \{xy, xz, yz\}} c_{nj}(\pi_j(\mathbf{x})) e^{2\pi i n t / T_p}$$ 修改的K-Planes表示： 1. 空间平面保持不变：$P_{xy}, P_{xz}, P_{yz}$ 2. 时间平面替换为傅里叶系数平面：$C_n^{(j)}(\mathbf{x})$ 存储分析： - 原始：$O(3N^2 + 3NT)$ - 周期性：$O(3N^2 + 3N^2(2N_{fourier}+1))$ - 当$N_{fourier} \ll T$时，显著节省存储实现细节： $$P_{xt}(\mathbf{x}, t) = \sum_{n=-N_{fourier}}^{N_{fourier}} C_n^{(xt)}(x) e^{2\pi i n t / T_p}$$ 这种表示自动保证了时间连续性和周期性，同时支持任意时刻的高质量插值。

常见陷阱与错误

1. 频域混叠

问题：采样率不足导致频域混叠，表现为时间闪烁或空间摩尔纹。

解决方案：

预先估计场景的最高频率成分
使用抗混叠滤波器
自适应提高问题区域的采样率

2. 相位展开错误

问题：频域插值时，相位差超过$\pi$导致错误的展开。

调试技巧：

# 正确的相位展开
phase_diff = np.angle(F_t2 / F_t1)
phase_diff = np.unwrap(phase_diff)  # 关键步骤

3. K-Planes中的平面对齐

问题：不同平面的特征未正确对齐，导致重建伪影。

最佳实践：

使用共同的网格分辨率
确保投影操作的一致性
在边界处使用适当的填充

4. 时间插值中的运动模糊

问题：快速运动物体在插值帧中出现重影。

解决方案：

考虑运动补偿的插值
增加时间采样密度
使用运动感知的正则化

5. 数值精度问题

问题：频域计算中的数值误差累积。

预防措施：

使用双精度浮点数
定期进行正交化
在关键步骤添加数值稳定性检查

最佳实践检查清单

设计阶段

分析场景的时空频率特性
确定合适的空间和时间分辨率
选择适当的表示方法（全4D vs 分解表示）
考虑存储和计算预算限制

实现阶段

正确实现4D采样和插值
验证频域变换的正确性
实现数值稳定的相位处理
添加适当的正则化项

优化阶段

使用自适应采样减少冗余
利用时空局部性优化缓存
考虑GPU并行化策略
实现渐进式细化

验证阶段

测试不同运动模式（平移、旋转、形变）
验证时间插值的平滑性
检查频域混叠和振铃效应
评估压缩率与质量的权衡

部署阶段

优化内存访问模式
实现流式处理支持
添加质量自适应机制
提供降级路径