第9章：稀疏数据结构与可微编程

本章深入探讨物理引擎中的两个前沿主题：稀疏数据结构和可微编程。稀疏数据结构是高效处理大规模物理模拟的关键技术，而可微编程则打开了物理引擎与机器学习深度融合的大门。我们将从稀疏数据结构的设计原理开始，分析工业级实现OpenVDB的架构，然后探讨稀疏MPM的实现细节。后半部分将重点介绍可微物理引擎的原理、自动微分技术以及高效的Checkpointing策略。

在现代物理引擎中，许多场景（如烟雾、云朵、大规模地形）都呈现出稀疏特性——大部分空间是空的，只有少数区域包含有意义的数据。传统的密集数据结构会浪费大量内存和计算资源。同时，随着机器学习技术的发展，可微物理引擎成为了连接物理模拟与优化算法的桥梁，在逆向设计、参数估计、控制策略学习等领域展现出巨大潜力。

学习目标

完成本章学习后，你将能够：

理解稀疏数据结构的设计原理和性能特性
掌握OpenVDB的核心架构和优化技巧
实现高效的稀疏MPM算法
理解可微编程在物理引擎中的应用
掌握自动微分和Checkpointing的实现原理
设计和优化可微物理引擎

9.1 稀疏数据结构设计原理

9.1.1 为什么需要稀疏数据结构

在物理模拟中，许多现象天然具有稀疏性。考虑一个简单的例子：模拟一团烟雾在10m×10m×10m的空间中扩散。如果使用分辨率为512³的均匀网格，需要存储约1.34亿个体素。然而，烟雾实际占据的体积可能只有总空间的1-5%。

密集存储的问题：

内存浪费：对于512³的单精度浮点数网格，每个场（密度、速度等）需要512MB内存。一个完整的流体模拟通常需要5-10个场，总内存需求达到2.5-5GB。
计算浪费：在更新网格时，大量计算花费在处理空值上。例如，压力投影需要求解线性系统： $$\nabla \cdot \nabla p = \nabla \cdot \mathbf{u}^*$$ 对于稀疏场景，系数矩阵的非零元素比例极低。
缓存效率低：遍历大量空单元会导致缓存未命中，降低性能。

稀疏性度量：

定义稀疏度 $s$ 为： $$s = \frac{N_{\text{active}}}{N_{\text{total}}}$$ 其中 $N_{\text{active}}$ 是包含有效数据的单元数，$N_{\text{total}}$ 是总单元数。典型场景的稀疏度：

烟雾模拟：$s \approx 0.01-0.05$
液体自由表面：$s \approx 0.1-0.3$
固体变形：$s \approx 0.2-0.5$

9.1.2 常见稀疏数据结构

1. 哈希表（Hash Table）

最简单的稀疏存储方案。将3D坐标 $(i,j,k)$ 映射到哈希值： $$h(i,j,k) = (i \cdot p_1 + j \cdot p_2 + k \cdot p_3) \bmod m$$ 其中 $p_1, p_2, p_3$ 是大质数，$m$ 是哈希表大小。

优点：

O(1) 平均访问时间
动态插入/删除
实现简单

缺点：

哈希冲突处理开销
缓存局部性差
难以实现高效的邻域查询

2. 八叉树（Octree）

层次化空间划分结构。每个节点代表一个立方体区域，可细分为8个子节点。

节点结构：

struct OctreeNode {
    union {
        OctreeNode* children[8];  // 内部节点
        float value;              // 叶节点
    };
    uint8_t childMask;           // 子节点存在标记
};

空间复杂度分析： 设树的深度为 $d$，活跃叶节点数为 $n$。最坏情况下，内部节点数为 $O(n)$，总空间复杂度 $O(n)$。

优点：

自适应分辨率
空间局部性好
支持多分辨率操作

缺点：

树遍历开销
指针追逐影响性能
动态更新复杂

3. 分块数组（Tiled Array）

将空间划分为固定大小的块（如8³或16³），只存储非空块。

数据布局：

blocks = {block_0, block_1, ..., block_n}
block_map: (i,j,k) -> block_index or NULL

内存访问模式： 访问位置 $(x,y,z)$ 的数据：

计算块索引：$(b_i, b_j, b_k) = (\lfloor x/B \rfloor, \lfloor y/B \rfloor, \lfloor z/B \rfloor)$
计算块内偏移：$(o_x, o_y, o_z) = (x \bmod B, y \bmod B, z \bmod B)$
查找块：block = block_map[b_i, b_j, b_k]
访问数据：value = block[o_x + B(o_y + B·o_z)]

其中 $B$ 是块大小。

优点：

良好的缓存局部性
SIMD友好
简单的内存管理

缺点：

块边界处理复杂
固定块大小限制灵活性

4. VDB（Volumetric Dynamic B+Tree）

OpenVDB使用的核心数据结构，结合了B+树和分块的优点。

树结构：

根节点：32³分支
内部节点：16³分支
叶节点：8³数据块

关键创新：

固定深度：3层结构，避免树平衡操作
直接寻址：每层使用位掩码快速定位
拓扑编码：使用位图记录活跃体素

9.1.3 稀疏数据结构的性能分析

访问性能比较

数据结构	随机访问	顺序遍历	邻域查询	插入/删除
哈希表	O(1)	O(n)	O(k)	O(1)
八叉树	O(log n)	O(n)	O(log n)	O(log n)
分块数组	O(1)	O(n/B³)	O(1)	O(B³)
VDB	O(1)	O(n/B³)	O(1)	O(1)

其中 $n$ 是活跃体素数，$k$ 是邻域大小，$B$ 是块大小。

内存效率分析

定义内存效率 $\eta$ 为： $$\eta = \frac{\text{有效数据大小}}{\text{总内存使用}}$$ 对于不同数据结构：

密集数组：$\eta = s$（稀疏度）
哈希表：$\eta \approx s / (1 + \alpha)$，其中 $\alpha$ 是负载因子
八叉树：$\eta \approx s / (1 + 1/b)$，其中 $b$ 是分支因子
VDB：$\eta \approx s / (1 + \epsilon)$，其中 $\epsilon \ll 1$ 是元数据开销

缓存性能建模

使用简化的缓存模型分析不同访问模式的性能。设缓存行大小为 $L$（通常64字节），缓存大小为 $C$。

顺序访问：

密集数组：缓存未命中率 $\approx 1/L$
分块数组：缓存未命中率 $\approx 1/L \cdot (1 + 1/B³)$
VDB：缓存未命中率 $\approx 1/L \cdot (1 + \epsilon)$

随机访问：

所有结构的缓存未命中率都接近1，但分块结构在访问局部性好时性能更优

9.1.4 内存布局与缓存优化

1. 数据布局优化

AoS vs SoA：

// Array of Structures (AoS)
struct Voxel {
    float density;
    vec3 velocity;
    float temperature;
};
Voxel voxels[N];

// Structure of Arrays (SoA)
struct VoxelData {
    float density[N];
    vec3 velocity[N];
    float temperature[N];
};

对于稀疏数据，混合布局通常更优：

struct Block {
    float density[BLOCK_SIZE];
    vec3 velocity[BLOCK_SIZE];
    // 按块组织，块内SoA
};

2. 内存对齐与填充

确保数据结构对齐到缓存行边界：

struct alignas(64) AlignedBlock {
    float data[BLOCK_SIZE];
    char padding[PAD_SIZE];  // 确保大小是64的倍数
};

对齐带来的性能提升：

避免伪共享（false sharing）
提高SIMD效率
减少缓存行分裂

3. 预取策略

对于可预测的访问模式，使用软件预取：

// 伪代码
for block in active_blocks:
    prefetch(next_block)  // 预取下一个块
    process(block)

预取距离 $d$ 的选择： $$d = \lceil \frac{L_{\text{mem}}}{L_{\text{compute}}} \rceil$$ 其中 $L_{\text{mem}}$ 是内存延迟，$L_{\text{compute}}$ 是计算一个块的时间。

4. 压缩技术

对于稀疏数据，压缩可以显著提高缓存效率：

量化压缩： 将浮点数量化为固定点数： $$x_{\text{quantized}} = \text{round}\left(\frac{x - x_{\min}}{x_{\max} - x_{\min}} \cdot (2^b - 1)\right)$$ 其中 $b$ 是位数。常用8位或16位量化。

差分编码： 存储相邻值的差： $$\Delta x_i = x_i - x_{i-1}$$ 对于平滑场，差值通常较小，可用更少位数表示。

性能影响：

压缩率2-4倍时，缓存命中率可提高50-100%
解压开销通常可被缓存性能提升抵消

9.2 OpenVDB架构分析

OpenVDB（Open Volumetric DataBase）是DreamWorks Animation开发的工业级稀疏体积数据结构库，广泛应用于视觉特效和物理模拟。其核心创新在于VDB树结构，实现了O(1)的随机访问和高效的内存使用。

9.2.1 VDB树结构详解

VDB采用固定深度的宽B+树结构，标准配置为3层：

根节点 (Root): 32³ = 32768 分支
 └─ 内部节点 (Internal): 16³ = 4096 分支
     └─ 叶节点 (Leaf): 8³ = 512 体素

总寻址空间： $(32 \times 16 \times 8)^3 = 4096^3 \approx 6.87 \times 10^{10}$ 体素

坐标到节点的映射

给定全局坐标 $(x, y, z)$，计算各层索引：

叶节点内偏移： $$\text{offset} = (x \& 7, y \& 7, z \& 7)$$
内部节点索引： $$\text{internal_idx} = ((x >> 3) \& 15, (y >> 3) \& 15, (z >> 3) \& 15)$$
根节点索引： $$\text{root_idx} = ((x >> 7) \& 31, (y >> 7) \& 31, (z >> 7) \& 31)$$ 这里使用位运算实现快速计算：

& 7 等价于 % 8（取模）
>> 3 等价于 / 8（除法）

节点结构设计

根节点：

template<typename ChildT>
class RootNode {
    struct RootData {
        ChildT* child;     // 子节点指针
        Coord origin;      // 子节点原点坐标
    };
    std::map<Coord, RootData> mTable;  // 稀疏哈希表
};

根节点使用哈希表存储，因为其分支因子极大（32768），且通常只有少数子节点被分配。

内部节点：

template<typename ChildT>
class InternalNode {
    static constexpr int DIM = 16;
    static constexpr int SIZE = DIM * DIM * DIM;

    union Child {
        ChildT* child;
        ValueType value;
    };

    Child mNodes[SIZE];
    Mask mChildMask;    // 4096位，标记是否为子节点
    Mask mValueMask;    // 4096位，标记是否为活跃值
};

叶节点：

template<typename ValueT>
class LeafNode {
    static constexpr int DIM = 8;
    static constexpr int SIZE = DIM * DIM * DIM;

    ValueT mValues[SIZE];
    Mask mValueMask;    // 512位，标记活跃体素
};

内存占用分析

假设存储float类型数据：

节点类型	数据大小	元数据大小	总大小
叶节点	512×4B = 2KB	64B (mask)	~2.1KB
内部节点	可变	1KB (2 masks)	~1KB + 子节点
根节点	可变	~48B/条目	取决于条目数

对于典型的稀疏场景（稀疏度5%），VDB的内存效率可达90%以上。

9.2.2 节点设计与优化

1. 位掩码优化

VDB使用位掩码（bitmask）高效表示拓扑信息：

template<size_t SIZE>
class Mask {
    static constexpr size_t WORD_COUNT = (SIZE + 63) / 64;
    uint64_t mWords[WORD_COUNT];

public:
    bool isOn(size_t n) const {
        return mWords[n >> 6] & (uint64_t(1) << (n & 63));
    }

    void setOn(size_t n) {
        mWords[n >> 6] |= uint64_t(1) << (n & 63);
    }

    size_t countOn() const {
        size_t count = 0;
        for (auto word : mWords)
            count += __builtin_popcountll(word);
        return count;
    }
};

位操作的优势：

空间效率：1位/体素 vs 1字节/体素（8倍压缩）
批量操作：单条指令处理64个体素
缓存友好：连续内存布局

2. 值压缩技术

对于常值区域，VDB支持"瓦片值"（tile value）优化：

class InternalNode {
    bool isTileValue(size_t n) const {
        return !mChildMask.isOn(n) && mValueMask.isOn(n);
    }

    ValueType getTileValue(size_t n) const {
        return mNodes[n].value;  // 直接存储值，无需子节点
    }
};

这种优化对于大片均匀区域（如均匀密度的烟雾内部）极其有效，可节省整个子树的内存。

3. 内存池管理

VDB使用对象池减少内存分配开销：

template<typename NodeT>
class NodePool {
    struct Block {
        NodeT nodes[NODES_PER_BLOCK];
        Block* next;
    };

    Block* mHead;
    std::vector<NodeT*> mFreeList;

public:
    NodeT* allocate() {
        if (mFreeList.empty()) {
            allocateNewBlock();
        }
        NodeT* node = mFreeList.back();
        mFreeList.pop_back();
        return node;
    }
};

内存池的优势：

减少malloc/free调用
改善内存局部性
避免内存碎片

4. SIMD加速

叶节点操作使用SIMD指令加速：

void LeafNode::fill(ValueType value) {
    __m256 val = _mm256_set1_ps(value);
    float* data = mValues;

    for (int i = 0; i < SIZE; i += 8) {
        _mm256_store_ps(data + i, val);
    }
}

void LeafNode::add(const LeafNode& other) {
    for (int i = 0; i < SIZE; i += 8) {
        __m256 a = _mm256_load_ps(mValues + i);
        __m256 b = _mm256_load_ps(other.mValues + i);
        __m256 sum = _mm256_add_ps(a, b);
        _mm256_store_ps(mValues + i, sum);
    }
}

8³ = 512的叶节点大小正好适合SIMD处理（512 = 64 × 8）。

9.2.3 迭代器与访问模式

VDB提供多种迭代器支持不同访问模式：

1. 值迭代器（Value Iterator）

遍历所有活跃体素：

template<typename TreeT>
class ValueIterator {
    using LeafIterT = typename TreeT::LeafIterator;
    using VoxelIterT = typename LeafNode::ValueOnIterator;

    LeafIterT mLeafIter;
    VoxelIterT mVoxelIter;

public:
    void operator++() {
        ++mVoxelIter;
        if (!mVoxelIter) {  // 当前叶节点遍历完
            ++mLeafIter;
            if (mLeafIter) {
                mVoxelIter = mLeafIter->beginValueOn();
            }
        }
    }
};

2. 节点迭代器（Node Iterator）

按层次遍历节点：

class NodeIterator {
    std::stack<NodePtr> mStack;

public:
    void advance() {
        NodePtr node = mStack.top();
        mStack.pop();

        // 深度优先遍历
        for (auto child : node->children()) {
            if (child) mStack.push(child);
        }
    }
};

3. 邻域迭代器（Stencil Iterator）

高效访问体素邻域：

template<int RADIUS>
class StencilIterator {
    static constexpr int SIZE = 2 * RADIUS + 1;
    ValueType mCache[SIZE][SIZE][SIZE];
    Coord mCenter;

public:
    void moveTo(const Coord& xyz) {
        // 智能缓存更新：只加载新进入的值
        updateCache(xyz - mCenter);
        mCenter = xyz;
    }
};

访问模式优化

空间局部性利用：

// Morton序遍历提高缓存命中率
void mortonTraverse(LeafNode& leaf) {
    static const int morton[8] = {0,1,4,5,2,3,6,7};

    for (int z = 0; z < 8; z += 2) {
        for (int y = 0; y < 8; y += 2) {
            for (int x = 0; x < 8; x += 2) {
                // 2x2x2块内按Morton序访问
                for (int i = 0; i < 8; ++i) {
                    int dx = morton[i] & 1;
                    int dy = (morton[i] >> 1) & 1;
                    int dz = (morton[i] >> 2) & 1;
                    process(leaf(x+dx, y+dy, z+dz));
                }
            }
        }
    }
}

9.2.4 拓扑操作与形态学运算

1. 拓扑操作

膨胀（Dilation）：

void dilate(Tree& tree, int radius) {
    // 收集所有活跃体素的邻域
    std::vector<Coord> newActive;

    for (auto iter = tree.beginValueOn(); iter; ++iter) {
        Coord xyz = iter.getCoord();

        // 26邻域膨胀
        for (int dz = -radius; dz <= radius; ++dz) {
            for (int dy = -radius; dy <= radius; ++dy) {
                for (int dx = -radius; dx <= radius; ++dx) {
                    if (dx*dx + dy*dy + dz*dz <= radius*radius) {
                        newActive.push_back(xyz + Coord(dx,dy,dz));
                    }
                }
            }
        }
    }

    // 激活新体素
    for (const auto& coord : newActive) {
        tree.setValueOn(coord);
    }
}

腐蚀（Erosion）： 腐蚀是膨胀的对偶操作，通过检查邻域实现：

void erode(Tree& tree, int radius) {
    std::vector<Coord> toDeactivate;

    for (auto iter = tree.beginValueOn(); iter; ++iter) {
        if (!hasFullNeighborhood(tree, iter.getCoord(), radius)) {
            toDeactivate.push_back(iter.getCoord());
        }
    }

    for (const auto& coord : toDeactivate) {
        tree.setValueOff(coord);
    }
}

2. 高效形态学运算

分离核优化： 对于矩形结构元素，3D形态学运算可分解为1D运算： $$\text{dilate}_{3D}(f, B_{xyz}) = \text{dilate}_{x}(\text{dilate}_{y}(\text{dilate}_{z}(f, B_z), B_y), B_x)$$ 这将复杂度从 $O(r^3)$ 降低到 $O(3r)$。

并行化策略：

void parallelDilate(Tree& tree, int radius) {
    // 1. 按叶节点分组
    std::vector<LeafNode*> leaves;
    tree.getNodes(leaves);

    // 2. 并行处理每个叶节点
    tbb::parallel_for(size_t(0), leaves.size(), [&](size_t i) {
        LeafNode* leaf = leaves[i];
        LeafNode dilated = *leaf;  // 复制

        // 叶节点内部膨胀
        dilateLeaf(dilated, radius);

        // 原子更新
        leaf->merge(dilated);
    });

    // 3. 处理跨叶节点边界
    processLeafBoundaries(tree, radius);
}

3. 拓扑查询优化

活跃体素计数：

size_t countActiveVoxels(const Tree& tree) {
    size_t count = 0;

    // 利用层次结构避免遍历空区域
    tree.visitActiveBBox([&](const CoordBBox& bbox) {
        if (bbox.volume() == 1) {
            count++;  // 单个体素
        } else {
            // 瓦片值区域
            count += bbox.volume();
        }
    });

    return count;
}

边界框计算：

CoordBBox computeBBox(const Tree& tree) {
    CoordBBox bbox;

    // 只需检查活跃叶节点的边界
    for (auto iter = tree.beginLeaf(); iter; ++iter) {
        bbox.expand(iter->getNodeBoundingBox());
    }

    return bbox;
}

## 9.3 稀疏MPM实现

将MPM与稀疏数据结构结合，可以显著提高大规模模拟的效率。稀疏MPM的核心挑战在于高效的粒子-网格传输和稀疏线性系统求解。

### 9.3.1 稀疏网格表示

#### MPM中的稀疏性特征

MPM模拟中的稀疏性来源于：

1. **材料分布**：物体只占据部分空间
2. **影响域局部性**：每个粒子只影响周围3×3×3的网格节点
3. **时间相关性**：活跃区域在时间步之间变化缓慢

**活跃节点定义：**
节点 $\mathbf{x}\_i$ 在时间步 $t$ 是活跃的，当且仅当：
$$\exists p \in \mathcal{P}: \|\mathbf{x}\_p^t - \mathbf{x}\_i\| < 2h$$
其中 $\mathcal{P}$ 是粒子集合，$h$ 是网格间距。

#### 稀疏网格数据结构

**分块稀疏网格：**
```cpp
template<int BLOCK_SIZE = 8>
class SparseMPMGrid {
    struct Block {
        // 节点数据（速度、质量等）
        Vec3f velocity[BLOCK_SIZE³];
        float mass[BLOCK_SIZE³];

        // 块元数据
        Vec3i baseCoord;  // 块的全局坐标
        uint64_t activeMask;  // 活跃节点掩码
    };

    std::unordered_map<Vec3i, Block*, GridHasher> blocks;

public:
    // 激活节点
    void activate(const Vec3i& coord) {
        Vec3i blockCoord = coord / BLOCK_SIZE;
        Block*& block = blocks[blockCoord];

        if (!block) {
            block = allocateBlock();
            block->baseCoord = blockCoord * BLOCK_SIZE;
        }

        Vec3i localCoord = coord % BLOCK_SIZE;
        int idx = localCoord.x + BLOCK_SIZE * 
                 (localCoord.y + BLOCK_SIZE * localCoord.z);
        block->activeMask |= (1ULL << idx);
    }
};

动态拓扑更新

粒子影响域预计算：

void updateActiveNodes(SparseMPMGrid& grid, 
                      const std::vector<Particle>& particles) {
    // 清除旧的活跃标记
    grid.clearActive();

    // 并行标记新的活跃节点
    tbb::parallel_for(size_t(0), particles.size(), [&](size_t p) {
        Vec3f pos = particles[p].position;
        Vec3i base = Vec3i(pos / grid.dx);

        // 标记3x3x3邻域
        for (int i = 0; i < 3; ++i) {
            for (int j = 0; j < 3; ++j) {
                for (int k = 0; k < 3; ++k) {
                    grid.activate(base + Vec3i(i,j,k));
                }
            }
        }
    });
}

内存管理优化：

块复用：维护空闲块池，避免频繁分配
延迟释放：保留最近使用的块，应对拓扑振荡
压缩存储：对稀疏块使用紧凑表示

9.3.2 粒子-稀疏网格传输

P2G传输（粒子到网格）

稀疏P2G算法：

void particleToGrid(const std::vector<Particle>& particles,
                   SparseMPMGrid& grid) {
    // 1. 清零网格数据
    grid.zeroActiveNodes();

    // 2. 并行累积粒子贡献
    tbb::parallel_for(size_t(0), particles.size(), [&](size_t p) {
        const Particle& particle = particles[p];
        Vec3f xp = particle.position;
        Vec3i base = Vec3i(xp / grid.dx);
        Vec3f fx = xp / grid.dx - Vec3f(base);

        // 二次B样条权重
        Vec3f w[3];
        w[0] = 0.5f * (Vec3f(1.5) - fx).square();
        w[1] = 0.75f - (fx - Vec3f(1.0)).square();
        w[2] = 0.5f * (fx - Vec3f(0.5)).square();

        // 计算应力
        Mat3f stress = computeStress(particle);

        // 传输到3x3x3邻域
        for (int i = 0; i < 3; ++i) {
            for (int j = 0; j < 3; ++j) {
                for (int k = 0; k < 3; ++k) {
                    Vec3i node = base + Vec3i(i,j,k);
                    float weight = w[i].x * w[j].y * w[k].z;

                    Vec3f xg = Vec3f(node) * grid.dx;
                    Vec3f momentum = particle.mass * 
                        (particle.velocity + particle.C * (xg - xp));

                    // 原子操作累积
                    grid.addMomentum(node, weight * momentum);
                    grid.addMass(node, weight * particle.mass);
                    grid.addForce(node, -particle.volume * 
                                       stress * gradWeight(fx, i,j,k));
                }
            }
        }
    });
}

原子操作优化： 对于高争用情况，使用局部缓冲减少原子操作：

struct LocalBuffer {
    static constexpr int BUFFER_SIZE = 27;  // 3x3x3
    Vec3f momentum[BUFFER_SIZE];
    float mass[BUFFER_SIZE];
    Vec3i indices[BUFFER_SIZE];
    int count = 0;

    void flush(SparseMPMGrid& grid) {
        for (int i = 0; i < count; ++i) {
            grid.addMomentum(indices[i], momentum[i]);
            grid.addMass(indices[i], mass[i]);
        }
        count = 0;
    }
};

G2P传输（网格到粒子）

稀疏G2P算法：

void gridToParticle(SparseMPMGrid& grid,
                   std::vector<Particle>& particles) {
    tbb::parallel_for(size_t(0), particles.size(), [&](size_t p) {
        Particle& particle = particles[p];
        Vec3f xp = particle.position;
        Vec3i base = Vec3i(xp / grid.dx);
        Vec3f fx = xp / grid.dx - Vec3f(base);

        // 计算权重（同P2G）
        Vec3f w[3];
        computeWeights(fx, w);

        // 收集网格信息
        Vec3f newVelocity(0.0f);
        Mat3f velocityGradient(0.0f);

        for (int i = 0; i < 3; ++i) {
            for (int j = 0; j < 3; ++j) {
                for (int k = 0; k < 3; ++k) {
                    Vec3i node = base + Vec3i(i,j,k);
                    float weight = w[i].x * w[j].y * w[k].z;

                    Vec3f vi = grid.getVelocity(node);
                    newVelocity += weight * vi;

                    Vec3f gradW = gradWeight(fx, i,j,k);
                    velocityGradient += outer(vi, gradW);
                }
            }
        }

        // 更新粒子状态
        particle.velocity = newVelocity;
        particle.C = velocityGradient * (4.0f / (grid.dx * grid.dx));
        particle.position += dt * newVelocity;
    });
}

9.3.3 稀疏线性系统求解

在隐式MPM中，需要求解稀疏线性系统： $$\mathbf{A}\Delta\mathbf{v} = \Delta t \cdot \mathbf{f}$$ 其中 $\mathbf{A} = \mathbf{M} + \Delta t^2 \mathbf{K}$ 是系统矩阵。

稀疏矩阵构造

矩阵拓扑分析：

struct SparsePattern {
    std::vector<std::set<int>> adjacency;

    void analyze(const SparseMPMGrid& grid) {
        // 遍历所有活跃节点对
        for (auto& [coord1, node1] : grid.activeNodes()) {
            int idx1 = grid.getIndex(coord1);

            // 检查27邻域
            for (int di = -1; di <= 1; ++di) {
                for (int dj = -1; dj <= 1; ++dj) {
                    for (int dk = -1; dk <= 1; ++dk) {
                        Vec3i coord2 = coord1 + Vec3i(di,dj,dk);
                        if (grid.isActive(coord2)) {
                            int idx2 = grid.getIndex(coord2);
                            adjacency[idx1].insert(idx2);
                        }
                    }
                }
            }
        }
    }
};

CSR格式存储：

class SparseMPMMatrix {
    std::vector<float> values;
    std::vector<int> colIndices;
    std::vector<int> rowOffsets;

public:
    void construct(const SparsePattern& pattern) {
        int nnz = 0;
        rowOffsets.push_back(0);

        for (int row = 0; row < pattern.size(); ++row) {
            for (int col : pattern.adjacency[row]) {
                colIndices.push_back(col);
                values.push_back(0.0f);  // 待填充
                nnz++;
            }
            rowOffsets.push_back(nnz);
        }
    }

    // 稀疏矩阵-向量乘法
    void multiply(const float* x, float* y) const {
        #pragma omp parallel for
        for (int row = 0; row < numRows(); ++row) {
            float sum = 0.0f;
            for (int idx = rowOffsets[row]; idx < rowOffsets[row+1]; ++idx) {
                sum += values[idx] * x[colIndices[idx]];
            }
            y[row] = sum;
        }
    }
};

预条件共轭梯度法

PCG求解器实现：

class SparsePCGSolver {
    // Jacobi预条件
    std::vector<float> diagonal;

public:
    void solve(const SparseMPMMatrix& A, const float* b, float* x,
               float tolerance = 1e-6f, int maxIter = 1000) {
        int n = A.numRows();
        std::vector<float> r(n), z(n), p(n), Ap(n);

        // 初始化：r = b - Ax
        A.multiply(x, Ap.data());
        for (int i = 0; i < n; ++i) {
            r[i] = b[i] - Ap[i];
        }

        // 应用预条件：z = M^{-1}r
        applyPreconditioner(r.data(), z.data());

        // p = z
        std::copy(z.begin(), z.end(), p.begin());

        float rz_old = dot(r.data(), z.data(), n);

        for (int iter = 0; iter < maxIter; ++iter) {
            // Ap = A * p
            A.multiply(p.data(), Ap.data());

            // α = (r·z) / (p·Ap)
            float pAp = dot(p.data(), Ap.data(), n);
            float alpha = rz_old / pAp;

            // x = x + α*p, r = r - α*Ap
            #pragma omp parallel for
            for (int i = 0; i < n; ++i) {
                x[i] += alpha * p[i];
                r[i] -= alpha * Ap[i];
            }

            // 检查收敛
            float residual = norm(r.data(), n);
            if (residual < tolerance) break;

            // z = M^{-1}r
            applyPreconditioner(r.data(), z.data());

            // β = (r·z)_new / (r·z)_old
            float rz_new = dot(r.data(), z.data(), n);
            float beta = rz_new / rz_old;

            // p = z + β*p
            #pragma omp parallel for
            for (int i = 0; i < n; ++i) {
                p[i] = z[i] + beta * p[i];
            }

            rz_old = rz_new;
        }
    }

private:
    void applyPreconditioner(const float* r, float* z) {
        #pragma omp parallel for
        for (int i = 0; i < diagonal.size(); ++i) {
            z[i] = r[i] / diagonal[i];
        }
    }
};

9.3.4 性能优化策略

1. 分层并行化

三级并行策略：

void mpmStep(SparseMPMGrid& grid, std::vector<Particle>& particles) {
    // Level 1: 块级并行
    tbb::task_group tg;

    // P2G阶段
    tg.run([&] {
        // Level 2: 粒子并行
        tbb::parallel_for_each(particles, [&](Particle& p) {
            // Level 3: SIMD
            processParticleP2G_SIMD(p, grid);
        });
    });

    // 网格更新
    tg.run([&] {
        grid.updateVelocities();
    });

    tg.wait();
}

2. 内存访问优化

粒子排序： 通过空间排序提高缓存命中率：

void sortParticlesByMorton(std::vector<Particle>& particles) {
    // 计算Morton码
    std::vector<std::pair<uint64_t, int>> mortonCodes;
    mortonCodes.reserve(particles.size());

    for (int i = 0; i < particles.size(); ++i) {
        uint64_t code = computeMortonCode(particles[i].position);
        mortonCodes.push_back({code, i});
    }

    // 按Morton码排序
    std::sort(mortonCodes.begin(), mortonCodes.end());

    // 重排粒子
    std::vector<Particle> sorted(particles.size());
    for (int i = 0; i < particles.size(); ++i) {
        sorted[i] = particles[mortonCodes[i].second];
    }
    particles = std::move(sorted);
}

3. 自适应时间步

CFL条件计算： $$\Delta t \leq C \cdot \min\left(\frac{h}{v_{\max}}, \sqrt{\frac{h}{a_{\max}}}\right)$$ 其中 $C \approx 0.4$ 是CFL数，$v_{\max}$ 是最大速度，$a_{\max}$ 是最大加速度。

float computeAdaptiveTimestep(const SparseMPMGrid& grid,
                             const std::vector<Particle>& particles) {
    float maxVel = 0.0f;
    float maxAccel = 0.0f;

    // 并行计算最大值
    tbb::parallel_reduce(
        tbb::blocked_range<size_t>(0, particles.size()),
        std::make_pair(0.0f, 0.0f),
        [&](const auto& range, auto maxVals) {
            for (size_t i = range.begin(); i < range.end(); ++i) {
                float vel = particles[i].velocity.norm();
                float accel = particles[i].force.norm() / particles[i].mass;
                maxVals.first = std::max(maxVals.first, vel);
                maxVals.second = std::max(maxVals.second, accel);
            }
            return maxVals;
        },
        [](auto a, auto b) {
            return std::make_pair(
                std::max(a.first, b.first),
                std::max(a.second, b.second)
            );
        }
    );

    float dt_vel = grid.dx / maxVel;
    float dt_accel = std::sqrt(grid.dx / maxAccel);

    return 0.4f * std::min(dt_vel, dt_accel);
}

4. GPU优化策略

统一内存管理：

class GPUSparseMPMGrid {
    // 使用统一内存避免显式传输
    Block* blocks;  // cudaMallocManaged
    int* blockMap;  // 块索引映射

    __device__ Vec3f& velocity(int x, int y, int z) {
        int blockIdx = getBlockIndex(x, y, z);
        int localIdx = getLocalIndex(x, y, z);
        return blocks[blockIdx].velocity[localIdx];
    }
};

Warp级原子操作：

__device__ void atomicAddVec3(Vec3f* addr, Vec3f val) {
    // 利用warp内线程合作减少原子操作冲突
    int lane = threadIdx.x & 31;
    int leader = __ffs(__ballot_sync(0xffffffff, true)) - 1;

    if (lane == leader) {
        // 只有warp leader执行原子操作
        atomicAdd(&addr->x, val.x);
        atomicAdd(&addr->y, val.y);
        atomicAdd(&addr->z, val.z);
    }
}

9.4 可微物理引擎原理

可微物理引擎将物理模拟转化为可微分的计算图，使得我们能够通过梯度下降等优化方法求解逆向问题。这为物理系统的参数估计、控制策略学习和逆向设计开辟了新的可能。

9.4.1 可微编程基础

可微性的数学定义

对于物理模拟函数 $\mathbf{y} = f(\mathbf{x}, \boldsymbol{\theta})$，其中 $\mathbf{x}$ 是初始状态，$\boldsymbol{\theta}$ 是参数，$\mathbf{y}$ 是最终状态。可微性要求： $$\frac{\partial f}{\partial \boldsymbol{\theta}} = \lim_{h \to 0} \frac{f(\mathbf{x}, \boldsymbol{\theta} + h\mathbf{e}_i) - f(\mathbf{x}, \boldsymbol{\theta})}{h}$$ 存在且连续。

物理模拟的挑战

离散化误差：时间积分引入的数值误差
不连续性：碰撞、断裂等事件
非线性：材料模型的强非线性
计算图规模：长时间模拟产生巨大计算图

可微化策略

解析梯度 vs 自动微分：

| 方法 | 优点 | 缺点 |

方法	优点	缺点
解析梯度	精确、高效	推导复杂、易错
自动微分	通用、准确	内存开销大
有限差分	实现简单	数值误差、计算慢

连续化处理： 对于不连续操作，使用光滑近似：

碰撞：软约束替代硬约束
最大值：LogSumExp近似
符号函数：tanh近似

9.4.2 物理模拟的可微化

显式时间积分的可微化

考虑简单的显式欧拉积分： $$\mathbf{x}_{t+1} = \mathbf{x}_t + \Delta t \cdot \mathbf{v}_t$$ $$\mathbf{v}_{t+1} = \mathbf{v}_t + \Delta t \cdot \mathbf{M}^{-1}\mathbf{f}(\mathbf{x}_t, \boldsymbol{\theta})$$ 其雅可比矩阵为： $$\frac{\partial \mathbf{x}_{t+1}}{\partial \mathbf{x}_t} = \mathbf{I} + \Delta t \frac{\partial \mathbf{v}_t}{\partial \mathbf{x}_t}$$ $$\frac{\partial \mathbf{v}_{t+1}}{\partial \mathbf{x}_t} = \frac{\partial \mathbf{v}_t}{\partial \mathbf{x}_t} + \Delta t \mathbf{M}^{-1} \frac{\partial \mathbf{f}}{\partial \mathbf{x}_t}$$ 可微MPM示例：

struct DiffMPMState {
    // 前向值
    std::vector<Vec3f> positions;
    std::vector<Vec3f> velocities;
    std::vector<Mat3f> deformationGradients;

    // 梯度
    std::vector<Vec3f> dPositions;
    std::vector<Vec3f> dVelocities;
    std::vector<Mat3f> dDeformationGradients;
};

void diffMPMStep(DiffMPMState& state, const MPMParams& params,
                bool computeGradients = false) {
    // 前向传播
    particleToGrid(state, params);
    gridUpdate(state, params);
    gridToParticle(state, params);

    if (computeGradients) {
        // 反向传播
        gridToParticleBackward(state, params);
        gridUpdateBackward(state, params);
        particleToGridBackward(state, params);
    }
}

隐式时间积分的可微化

隐式积分需要求解非线性系统： $$\mathbf{g}(\mathbf{x}_{t+1}) = \mathbf{x}_{t+1} - \mathbf{x}_t - \Delta t \mathbf{v}_{t+1}(\mathbf{x}_{t+1}) = 0$$ 使用隐函数定理计算梯度： $$\frac{\partial \mathbf{x}_{t+1}}{\partial \boldsymbol{\theta}} = -\left(\frac{\partial \mathbf{g}}{\partial \mathbf{x}_{t+1}}\right)^{-1} \frac{\partial \mathbf{g}}{\partial \boldsymbol{\theta}}$$ 牛顿法求解器的可微化：

void diffImplicitSolve(DiffMPMState& state, const MPMParams& params) {
    // 前向：牛顿迭代
    for (int iter = 0; iter < maxIter; ++iter) {
        Mat Jacobian = computeJacobian(state, params);
        Vec residual = computeResidual(state, params);
        Vec delta = solve(Jacobian, -residual);
        state.positions += delta;

        if (residual.norm() < tolerance) break;
    }

    // 反向：通过伴随法计算梯度
    if (state.hasGradients) {
        // λ = (J^T)^{-1} * dL/dx_{t+1}
        Vec lambda = solveTranspose(Jacobian, state.dPositions);

        // dL/dθ = -λ^T * ∂g/∂θ
        state.dParams = -lambda.dot(computeParamDerivative(state, params));
    }
}

材料模型的可微化

Neo-Hookean模型： 能量密度函数： $$\psi(\mathbf{F}) = \frac{\mu}{2}(\text{tr}(\mathbf{F}^T\mathbf{F}) - 3) - \mu\log(J) + \frac{\lambda}{2}\log^2(J)$$ 其中 $J = \det(\mathbf{F})$。

第一Piola-Kirchhoff应力： $$\mathbf{P} = \frac{\partial \psi}{\partial \mathbf{F}} = \mu(\mathbf{F} - \mathbf{F}^{-T}) + \lambda \log(J)\mathbf{F}^{-T}$$ 应力对变形梯度的导数（用于隐式积分）： $$\frac{\partial \mathbf{P}}{\partial \mathbf{F}} = \mu\mathbf{I} \otimes \mathbf{I} + (\mu + \lambda\log(J))\mathbf{F}^{-T} \otimes \mathbf{F}^{-T} + \cdots$$

9.4.3 梯度计算与反向传播

反向模式自动微分

对于复合函数 $y = f_n \circ f_{n-1} \circ \cdots \circ f_1(x)$：

前向传播：

x_0 = x
x_1 = f_1(x_0)
x_2 = f_2(x_1)
...
y = x_n = f_n(x_{n-1})

反向传播：

v_n = ∂L/∂y
v_{n-1} = v_n · ∂f_n/∂x_{n-1}
v_{n-2} = v_{n-1} · ∂f_{n-1}/∂x_{n-2}
...
∂L/∂x = v_0 = v_1 · ∂f_1/∂x_0

MPM的反向传播实现

P2G反向传播：

void p2gBackward(DiffMPMState& state, const MPMParams& params) {
    // 清零粒子梯度
    state.clearParticleGradients();

    for (int p = 0; p < numParticles; ++p) {
        Vec3f xp = state.positions[p];
        Vec3i base = Vec3i(xp / dx);
        Vec3f fx = xp / dx - Vec3f(base);

        // 计算权重及其导数
        float w[3][3];
        float dw[3][3];
        computeWeightsAndDerivatives(fx, w, dw);

        // 从网格收集梯度
        for (int i = 0; i < 3; ++i) {
            for (int j = 0; j < 3; ++j) {
                for (int k = 0; k < 3; ++k) {
                    Vec3i node = base + Vec3i(i,j,k);

                    // 位置梯度
                    Vec3f dMomentum = state.grid.dMomentum[node];
                    state.dPositions[p] += dMomentum * 
                        (dw[i] * w[j] * w[k] + w[i] * dw[j] * w[k] + 
                         w[i] * w[j] * dw[k]) / dx;

                    // 速度梯度
                    state.dVelocities[p] += dMomentum * 
                        (w[i] * w[j] * w[k]) * state.mass[p];

                    // 变形梯度的梯度（通过应力）
                    Mat3f dStress = computeStressGradient(state, p);
                    state.dDeformationGradients[p] += 
                        dStress : state.grid.dForce[node];
                }
            }
        }
    }
}

梯度检验

使用有限差分验证解析梯度的正确性：

bool gradientCheck(const Function& f, const Vec& x, const Vec& grad,
                  float epsilon = 1e-5f, float tolerance = 1e-4f) {
    Vec numGrad(x.size());

    for (int i = 0; i < x.size(); ++i) {
        Vec xPlus = x;
        Vec xMinus = x;
        xPlus[i] += epsilon;
        xMinus[i] -= epsilon;

        float fPlus = f(xPlus);
        float fMinus = f(xMinus);

        numGrad[i] = (fPlus - fMinus) / (2 * epsilon);
    }

    float relError = (grad - numGrad).norm() / 
                     (grad.norm() + numGrad.norm() + 1e-8f);

    return relError < tolerance;
}

9.4.4 应用案例：逆向设计与参数优化

1. 材料参数识别

问题定义： 给定观测数据 $\mathbf{y}_{\text{obs}}$，找到材料参数 $\boldsymbol{\theta}$ 使得： $$\boldsymbol{\theta}^* = \arg\min_{\boldsymbol{\theta}} |\mathbf{y}_{\text{sim}}(\boldsymbol{\theta}) - \mathbf{y}_{\text{obs}}|^2$$ 优化算法：

struct MaterialOptimizer {
    DiffMPMSimulator simulator;
    std::vector<ObservationData> observations;

    MaterialParams optimize(const MaterialParams& initial,
                          int maxIterations = 100) {
        MaterialParams params = initial;
        AdamOptimizer optimizer(learningRate = 0.01);

        for (int iter = 0; iter < maxIterations; ++iter) {
            float loss = 0.0f;
            MaterialParams gradParams;

            // 计算所有观测点的损失和梯度
            for (const auto& obs : observations) {
                auto simResult = simulator.simulate(params, obs.initialState);

                // 前向：计算损失
                loss += computeLoss(simResult.finalState, obs.targetState);

                // 反向：计算参数梯度
                auto dLoss = computeLossGradient(simResult.finalState, 
                                                obs.targetState);
                simulator.backward(dLoss);
                gradParams += simulator.getParamGradient();
            }

            // 更新参数
            params = optimizer.update(params, gradParams);

            if (loss < tolerance) break;
        }

        return params;
    }
};

2. 轨迹优化

问题定义： 找到控制序列 $\mathbf{u}_0, \mathbf{u}_1, \ldots, \mathbf{u}_{T-1}$ 使物体达到目标状态： $$\min_{\{\mathbf{u}_t\}} \sum_{t=0}^{T} \ell_t(\mathbf{x}_t, \mathbf{u}_t) + \ell_T(\mathbf{x}_T)$$ 可微动力学约束： $$\mathbf{x}_{t+1} = f(\mathbf{x}_t, \mathbf{u}_t)$$ 梯度计算（通过伴随法）：

void trajectoryOptimization(DiffMPMSimulator& sim,
                          const State& initialState,
                          const State& targetState) {
    std::vector<ControlInput> controls(T);

    for (int optIter = 0; optIter < maxOptIter; ++optIter) {
        // 前向模拟
        std::vector<State> trajectory = sim.rollout(initialState, controls);

        // 计算损失
        float loss = computeTrajectoryLoss(trajectory, targetState);

        // 反向传播（伴随法）
        std::vector<State> adjoints(T+1);
        adjoints[T] = computeTerminalGradient(trajectory[T], targetState);

        for (int t = T-1; t >= 0; --t) {
            // 状态伴随变量
            adjoints[t] = sim.dynamicsTranspose(trajectory[t], controls[t]) 

                         * adjoints[t+1]
                         + computeStateGradient(trajectory[t]);

            // 控制梯度
            Vec dControl = sim.controlJacobian(trajectory[t], controls[t])
                          .transpose() * adjoints[t+1];

            // 更新控制
            controls[t] -= learningRate * dControl;
        }
    }
}

3. 形状优化

目标：设计物体初始形状使其在变形后匹配目标。

参数化表示： 使用水平集或网格顶点位置参数化形状： $$\phi(\mathbf{x}, \boldsymbol{\theta}) < 0 \Rightarrow \mathbf{x} \in \Omega$$ 敏感度分析： 形状导数通过链式法则计算： $$\frac{dJ}{d\boldsymbol{\theta}} = \int_{\partial\Omega} v_n \cdot \mathcal{L} \, dS$$ 其中 $v_n$ 是边界法向速度，$\mathcal{L}$ 是形状梯度。

class ShapeOptimizer {
    void optimizeShape(DiffMPMSimulator& sim,
                      const TargetShape& target) {
        LevelSet shape = initializeShape();

        for (int iter = 0; iter < maxIter; ++iter) {
            // 生成粒子
            auto particles = sampleParticles(shape);

            // 模拟变形
            auto result = sim.simulate(particles);

            // 计算形状误差
            float error = computeShapeError(result.finalShape, target);

            // 计算形状梯度
            auto shapeGrad = computeShapeGradient(sim, result, target);

            // 更新水平集
            shape.update(-learningRate * shapeGrad);
            shape.reinitialize();  // 保持符号距离性质
        }
    }
};

9.5 自动微分与Checkpointing

自动微分（Automatic Differentiation, AD）是可微编程的核心技术。对于大规模物理模拟，内存消耗是主要瓶颈，Checkpointing技术通过时间换空间的策略解决这一问题。

9.5.1 自动微分原理

计算图表示

任何程序都可以表示为基本操作的有向无环图（DAG）：

// 原始代码
float f(float x, float y) {
    float a = x * y;
    float b = sin(x);
    float c = a + b;
    return c;
}

// 计算图表示
struct Node {
    enum Op { INPUT, MUL, SIN, ADD };
    Op operation;
    std::vector<Node*> inputs;
    float value;
    float gradient;
};

基本操作的导数规则

对于每个基本操作，需要定义其局部导数：

| 操作 | 前向 | 反向导数 |

操作	前向	反向导数
$z = x + y$	$z = x + y$	$\bar{x} = \bar{z}$, $\bar{y} = \bar{z}$
$z = x \cdot y$	$z = xy$	$\bar{x} = y\bar{z}$, $\bar{y} = x\bar{z}$
$z = \sin(x)$	$z = \sin(x)$	$\bar{x} = \cos(x)\bar{z}$
$z = \exp(x)$	$z = e^x$	$\bar{x} = e^x\bar{z}$

双数实现（前向模式）

使用双数（Dual Numbers）$a + b\epsilon$，其中 $\epsilon^2 = 0$：

template<typename T>
struct Dual {
    T value;
    T derivative;

    Dual(T v, T d = 0) : value(v), derivative(d) {}

    Dual operator+(const Dual& other) const {
        return Dual(value + other.value, 
                   derivative + other.derivative);
    }

    Dual operator*(const Dual& other) const {
        return Dual(value * other.value,
                   derivative * other.value + value * other.derivative);
    }

    friend Dual sin(const Dual& x) {
        return Dual(std::sin(x.value), 
                   std::cos(x.value) * x.derivative);
    }
};

// 使用示例
Dual<float> f(Dual<float> x, Dual<float> y) {
    return sin(x) + x * y;
}

// 计算 df/dx at (2, 3)
auto result = f(Dual<float>(2, 1), Dual<float>(3, 0));
float dfdx = result.derivative;  // cos(2) + 3

9.5.2 前向模式vs反向模式

前向模式（Forward Mode）

计算方向与程序执行顺序相同：

优点：

实现简单
内存效率高（O(1)额外存储）
适合少输入多输出：$\mathbb{R}^n \to \mathbb{R}^m$，$n \ll m$

缺点：

需要n次传播计算所有输入的梯度

实现：

class ForwardAD {
    struct Tape {
        std::vector<float> values;
        std::vector<float> derivatives;
    };

    void propagate(Tape& tape, int inputIdx) {
        // 初始化：设置输入的导数为1
        tape.derivatives[inputIdx] = 1.0f;

        // 前向传播导数
        for (const auto& op : operations) {
            float deriv = 0.0f;
            for (int i = 0; i < op.numInputs; ++i) {
                deriv += op.localDerivative(i) * 
                        tape.derivatives[op.inputs[i]];
            }
            tape.derivatives[op.output] = deriv;
        }
    }
};

反向模式（Reverse Mode）

计算方向与程序执行顺序相反：

优点：

一次反向传播计算所有输入的梯度
适合多输入少输出：$\mathbb{R}^n \to \mathbb{R}^m$，$n \gg m$
物理模拟通常是这种情况（损失函数是标量）

缺点：

需要存储所有中间值
内存消耗大：O(T)，T是操作数

实现：

class ReverseAD {
    struct Operation {
        enum Type { ADD, MUL, SIN, EXP };
        Type type;
        std::vector<int> inputs;
        int output;
        std::vector<float> savedValues;  // 用于反向传播
    };

    std::vector<Operation> tape;
    std::vector<float> values;
    std::vector<float> adjoints;

    void forward(const std::vector<float>& inputs) {
        values = inputs;
        tape.clear();

        // 记录操作并计算前向值
        // ...
    }

    void backward(float seedGradient = 1.0f) {
        adjoints.assign(values.size(), 0.0f);
        adjoints.back() = seedGradient;

        // 反向遍历tape
        for (auto it = tape.rbegin(); it != tape.rend(); ++it) {
            const Operation& op = *it;
            float adjoint = adjoints[op.output];

            switch (op.type) {
            case Operation::ADD:
                adjoints[op.inputs[0]] += adjoint;
                adjoints[op.inputs[1]] += adjoint;
                break;
            case Operation::MUL:
                adjoints[op.inputs[0]] += adjoint * op.savedValues[1];
                adjoints[op.inputs[1]] += adjoint * op.savedValues[0];
                break;
            case Operation::SIN:
                adjoints[op.inputs[0]] += adjoint * 
                    std::cos(op.savedValues[0]);
                break;
            }
        }
    }
};

9.5.3 Checkpointing技巧

对于T步的模拟，反向模式AD需要O(T)内存。Checkpointing通过只保存部分中间状态来减少内存使用。

基本Checkpointing策略

将计算分为 $\sqrt{T}$ 段，只在段边界保存状态：

class CheckpointedSimulation {
    struct Checkpoint {
        int timestep;
        State state;
    };

    std::vector<Checkpoint> checkpoints;
    int checkpointInterval;

    void forward(State& initial, int totalSteps) {
        checkpointInterval = std::sqrt(totalSteps);
        checkpoints.clear();

        State current = initial;
        for (int t = 0; t < totalSteps; ++t) {
            if (t % checkpointInterval == 0) {
                checkpoints.push_back({t, current});
            }
            current = simulate(current);
        }
    }

    void backward(const State& finalAdjoint) {
        State adjoint = finalAdjoint;

        for (int c = checkpoints.size() - 1; c >= 0; --c) {
            // 从checkpoint重新计算前向
            State current = checkpoints[c].state;
            std::vector<State> segment;

            int startTime = checkpoints[c].timestep;
            int endTime = (c == checkpoints.size() - 1) ? 
                         totalSteps : checkpoints[c+1].timestep;

            // 重计算段内的状态
            for (int t = startTime; t < endTime; ++t) {
                segment.push_back(current);
                current = simulate(current);
            }

            // 段内反向传播
            for (int t = endTime - 1; t >= startTime; --t) {
                adjoint = simulateBackward(segment[t - startTime], adjoint);
            }
        }
    }
};

内存复杂度： $O(\sqrt{T})$ 而非 $O(T)$ 计算复杂度： $O(T\sqrt{T})$ 而非 $O(T)$

递归Checkpointing（Revolve算法）

使用递归二分策略，进一步优化内存-计算权衡：

class RevolveCheckpointing {
    void computeOptimalSchedule(int steps, int allowedCheckpoints) {
        // 动态规划计算最优checkpoint位置
        std::vector<std::vector<int>> dp(steps + 1, 
            std::vector<int>(allowedCheckpoints + 1, INT_MAX));

        // 基础情况
        for (int s = 0; s <= allowedCheckpoints; ++s) {
            dp[0][s] = 0;
            dp[1][s] = 1;
        }

        // 填充DP表
        for (int t = 2; t <= steps; ++t) {
            for (int s = 1; s <= allowedCheckpoints; ++s) {
                // 尝试所有可能的checkpoint位置
                for (int c = 1; c < t; ++c) {
                    int cost = c + dp[t-c][s-1] + dp[c][s];
                    dp[t][s] = std::min(dp[t][s], cost);
                }
            }
        }
    }

    void revolve(int start, int end, int checkpoints,
                State& state, std::vector<State>& tape) {
        if (end - start <= 1) {
            // 基础情况：直接计算
            tape[end] = simulate(tape[start]);
            return;
        }

        if (checkpoints == 0) {
            // 无checkpoint：顺序计算
            for (int t = start + 1; t <= end; ++t) {
                tape[t] = simulate(tape[t-1]);
            }
            return;
        }

        // 找到最优分割点
        int split = findOptimalSplit(start, end, checkpoints);

        // 递归处理两部分
        revolve(start, split, checkpoints/2, state, tape);
        revolve(split, end, checkpoints - checkpoints/2 - 1, state, tape);
    }
};

混合精度Checkpointing

使用低精度存储checkpoint，高精度重计算：

struct MixedPrecisionCheckpoint {
    // 使用半精度存储位置和速度
    std::vector<half> positions;
    std::vector<half> velocities;

    // 全精度存储关键信息
    std::vector<float> deformationGradients;

    void save(const State& state) {
        // 压缩存储
        positions = compress<half>(state.positions);
        velocities = compress<half>(state.velocities);

        // 保留全精度的应变信息
        deformationGradients = state.deformationGradients;
    }

    State restore() const {
        State state;
        state.positions = decompress<float>(positions);
        state.velocities = decompress<float>(velocities);
        state.deformationGradients = deformationGradients;
        return state;
    }
};

9.5.4 内存-计算权衡

理论分析

给定T步模拟和C个checkpoint：

策略	内存复杂度	计算复杂度	适用场景
无checkpoint	O(T)	O(T)	T较小
均匀checkpoint	O(C)	O(T²/C)	内存受限
二分checkpoint	O(C)	O(T log T/log C)	平衡需求
选择性checkpoint	O(C)	取决于选择	已知关键帧

自适应Checkpointing

根据梯度重要性动态选择checkpoint：

class AdaptiveCheckpointing {
    struct ImportanceMetrics {
        float gradientNorm;
        float stateChange;
        float computationCost;
    };

    std::priority_queue<std::pair<float, int>> selectCheckpoints(
        const std::vector<State>& trajectory) {

        std::vector<ImportanceMetrics> metrics(trajectory.size());

        // 计算每个时间步的重要性
        for (int t = 1; t < trajectory.size(); ++t) {
            metrics[t].stateChange = 
                (trajectory[t] - trajectory[t-1]).norm();
            metrics[t].computationCost = 
                estimateRecomputeCost(t, trajectory.size());
        }

        // 使用贪心算法选择checkpoint
        std::priority_queue<std::pair<float, int>> checkpoints;
        for (int t = 0; t < trajectory.size(); ++t) {
            float importance = metrics[t].stateChange * 
                             metrics[t].computationCost;
            checkpoints.push({importance, t});
        }

        return checkpoints;
    }
};

GPU内存管理

在GPU上实现高效的checkpointing：

class GPUCheckpointing {
    // 使用统一内存自动管理
    cudaMallocManaged(&checkpointBuffer, bufferSize);

    // 异步传输checkpoint到主机
    void asyncCheckpoint(const State& state, cudaStream_t stream) {
        // 压缩并传输到固定内存
        compressGPU<<<blocks, threads, 0, stream>>>(
            state.data, compressedBuffer);

        cudaMemcpyAsync(hostCheckpoint, compressedBuffer,
                       compressedSize, cudaMemcpyDeviceToHost, stream);

        // 记录事件用于同步
        cudaEventRecord(checkpointEvent, stream);
    }

    // 预取checkpoint
    void prefetchCheckpoint(int checkpointId, cudaStream_t stream) {
        cudaMemPrefetchAsync(checkpoints[checkpointId].data,
                           checkpointSize, device, stream);
    }
};

性能建模

预测不同checkpointing策略的性能：

struct PerformanceModel {
    float memoryBandwidth;
    float computeFLOPS;
    float checkpointOverhead;

    float predictRuntime(int timesteps, int checkpoints) {
        float forwardTime = timesteps * stepCost();
        float checkpointTime = checkpoints * checkpointOverhead;
        float recomputeTime = (timesteps * timesteps) / 
                             (checkpoints * computeFLOPS);

        return forwardTime + checkpointTime + recomputeTime;
    }

    int optimalCheckpoints(int timesteps, float memoryBudget) {
        float checkpointSize = estimateStateSize();
        int maxCheckpoints = memoryBudget / checkpointSize;

        int best = 1;
        float bestTime = predictRuntime(timesteps, 1);

        for (int c = 2; c <= maxCheckpoints; ++c) {
            float time = predictRuntime(timesteps, c);
            if (time < bestTime) {
                bestTime = time;
                best = c;
            }
        }

        return best;
    }
};

本章小结

本章深入探讨了稀疏数据结构和可微编程两个前沿技术在物理引擎中的应用：

稀疏数据结构：

稀疏数据结构是处理大规模物理模拟的关键，可将内存使用降低95%以上
OpenVDB的三层B+树结构实现了O(1)随机访问和高效的拓扑操作
稀疏MPM通过动态拓扑更新和高效的粒子-网格传输，实现了10-100倍的性能提升
关键优化包括：分块存储、SIMD加速、原子操作优化、Morton序排序

可微物理引擎：

可微编程使物理引擎能够通过梯度优化求解逆向问题
反向模式自动微分适合物理模拟的多输入单输出特性
Checkpointing技术将内存复杂度从O(T)降低到O(√T)
应用领域包括：材料参数识别、轨迹优化、形状设计

关键数学工具：

稀疏矩阵运算：CSR格式、预条件共轭梯度法
自动微分：计算图、链式法则、伴随法
优化算法：梯度下降、Adam、L-BFGS

练习题

基础题

稀疏度分析 给定一个256³的流体模拟，液体占据约15%的体积。计算： a) 使用密集网格需要多少内存（每个节点存储速度和压力）？ b) 使用8³块的分块数组，预期需要多少内存？ c) 内存节省比例是多少？

答案

a) 密集网格：256³ × (3×4 + 4) = 256³ × 16 bytes = 268 MB b) 分块数组： - 总块数：(256/8)³ = 32³ = 32,768块 - 活跃块数：32,768 × 0.15 = 4,915块 - 内存：4,915 × 8³ × 16 + 索引开销 ≈ 40 MB c) 节省比例：1 - 40/268 = 85%

VDB树遍历 对于坐标(1000, 2000, 3000)，计算在标准VDB树中的： a) 根节点索引 b) 内部节点索引 c) 叶节点内偏移

Hint: 使用位运算，记住VDB的分支因子是32-16-8。

答案

``` x = 1000, y = 2000, z = 3000 a) 根节点索引： ((x >> 7) & 31, (y >> 7) & 31, (z >> 7) & 31) = (7, 15, 23) b) 内部节点索引： ((x >> 3) & 15, (y >> 3) & 15, (z >> 3) & 15) = (13, 2, 7) c) 叶节点偏移： (x & 7, y & 7, z & 7) = (0, 0, 0) ```

自动微分计算 使用双数计算函数 $f(x,y) = x^2y + \sin(xy)$ 在点(2,3)处的偏导数。

Hint: 分别设置x和y的导数部分为1。

答案

对于 $\frac{\partial f}{\partial x}$： ``` x = Dual(2, 1), y = Dual(3, 0) x² = Dual(4, 4) x²y = Dual(12, 12) xy = Dual(6, 3) sin(xy) = Dual(sin(6), 3cos(6)) f = Dual(12 + sin(6), 12 + 3cos(6)) ∂f/∂x = 12 + 3cos(6) ≈ 9.84 ``` 对于 $\frac{\partial f}{\partial y}$： ``` x = Dual(2, 0), y = Dual(3, 1) ∂f/∂y = 4 + 2cos(6) ≈ 5.92 ```

挑战题

稀疏矩阵优化 设计一个针对27点模板（3×3×3邻域）优化的稀疏矩阵格式。要求： a) 描述数据结构 b) 分析内存占用 c) 设计矩阵-向量乘法算法 d) 估计缓存命中率

Hint: 考虑利用模板的规则性。

Checkpointing策略设计 对于1000步的模拟，内存限制只允许存储20个checkpoint。设计最优的checkpoint放置策略，使重计算开销最小。推导重计算次数的公式。

Hint: 考虑使用动态规划或贪心算法。

可微碰撞处理 碰撞检测引入了不连续性： $$f(x) = \begin{cases} x & \text{if } x > 0 \\ 0 & \text{if } x \leq 0 \end{cases}$$

设计三种不同的光滑近似，并分析它们的优缺点： a) 使用sigmoid函数 b) 使用软加函数 c) 使用多项式近似

Hint: 考虑近似精度和计算效率的权衡。

混合精度MPM 设计一个混合精度的稀疏MPM实现，其中：

位置使用float32
速度使用float16
应力使用float32

分析： a) 内存节省 b) 精度损失的影响 c) 必要的数值稳定性措施

性能建模与优化 给定系统参数：

内存带宽：100 GB/s
计算能力：1 TFLOPS
稀疏度：5%
模拟步数：10000

比较以下方案的性能： a) 密集网格 + 无checkpoint b) 稀疏网格 + 100个checkpoint c) 稀疏网格 + 自适应checkpoint

Hint: 建立详细的性能模型，考虑计算和内存访问的重叠。

常见陷阱与错误 (Gotchas)

稀疏数据结构陷阱

拓扑振荡

// 错误：每帧完全重建稀疏结构
void update() {
    sparseGrid.clear();  // 性能灾难！
    rebuildFromParticles();
}

// 正确：增量更新
void update() {
    sparseGrid.markInactive();
    updateActiveRegions();
    sparseGrid.pruneInactive();
}

原子操作竞争

// 错误：高竞争的原子操作
atomicAdd(&grid[idx], value);

// 正确：使用局部缓冲减少竞争
localBuffer[threadIdx] += value;
__syncthreads();
if (threadIdx == 0) {
    atomicAdd(&grid[idx], localSum);
}

内存对齐问题

// 错误：未对齐的数据结构
struct Block {
    float data[511];  // 2044字节，不是缓存行的倍数
};

// 正确：填充到缓存行边界
struct Block {
    float data[512];  // 2048字节 = 32个64字节缓存行
};

可微编程陷阱

梯度消失/爆炸

// 错误：长时间模拟导致梯度爆炸
for (int t = 0; t < 10000; ++t) {
    state = update(state);  // 梯度指数增长
}

// 正确：使用梯度裁剪
gradient = clamp(gradient, -maxGrad, maxGrad);

数值精度损失

// 错误：在反向传播中累积舍入误差
float sum = 0.0f;
for (int i = 0; i < 1000000; ++i) {
    sum += tiny_gradient[i];
}

// 正确：使用Kahan求和
float sum = 0.0f, c = 0.0f;
for (int i = 0; i < n; ++i) {
    float y = gradient[i] - c;
    float t = sum + y;
    c = (t - sum) - y;
    sum = t;
}

内存泄漏in计算图

// 错误：保留所有中间结果
class ComputeGraph {
    std::vector<Node*> allNodes;  // 永不释放
};

// 正确：及时释放不需要的节点
class ComputeGraph {
    void releaseIntermediates() {
        // 释放不影响梯度计算的节点
    }
};

性能陷阱

过度checkpointing

// 错误：checkpoint太密集
for (int t = 0; t < 1000; ++t) {
    checkpoint[t] = state;  // 内存爆炸
}

// 正确：优化checkpoint间隔
int interval = computeOptimalInterval(memoryBudget, totalSteps);

缓存不友好的访问模式

// 错误：跳跃式访问
for (int k = 0; k < nz; ++k)
    for (int j = 0; j < ny; ++j)
        for (int i = 0; i < nx; ++i)
            process(i, j, k);  // 缓存未命中

// 正确：连续访问
for (int i = 0; i < nx; ++i)
    for (int j = 0; j < ny; ++j)
        for (int k = 0; k < nz; ++k)
            process(i, j, k);  // 缓存友好

最佳实践检查清单

稀疏数据结构设计

[ ] 选择合适的稀疏结构
稀疏度 < 1%：使用哈希表
稀疏度 1-10%：使用分块数组或VDB
稀疏度 > 10%：考虑自适应网格
[ ] 内存布局优化
数据结构对齐到缓存行（64字节）
使用SoA布局提高SIMD效率
考虑NUMA亲和性
[ ] 并行化策略
使用空间哈希避免原子操作冲突
实现高效的并行前缀和
利用warp级原语（GPU）
[ ] 动态平衡
实现增量式拓扑更新
使用双缓冲避免频繁分配
监控并优化内存碎片

可微物理引擎实现

[ ] 梯度计算正确性
实现梯度检查（与有限差分比较）
处理边界条件的导数
验证链式法则的正确应用
[ ] 数值稳定性
使用适当的浮点精度
实现梯度裁剪
监控梯度范数
[ ] 内存管理
选择合适的checkpointing策略
实现梯度累积以处理大批量
及时释放中间变量
[ ] 性能优化
融合可融合的操作
使用混合精度训练
实现自定义CUDA核函数

调试与验证

[ ] 正确性验证
单元测试每个组件
验证守恒定律
检查对称性
[ ] 性能分析
Profile内存使用模式
识别计算瓶颈
优化缓存命中率
[ ] 可扩展性
测试不同规模的问题
验证并行效率
考虑多GPU扩展