第8章：高性能物理引擎

在前面的章节中，我们深入探讨了各种物理模拟算法的数学原理和实现方法。然而，将这些算法转化为实际可用的物理引擎，性能优化是不可回避的关键环节。本章将系统介绍如何利用现代硬件架构特性，构建高性能的物理引擎。我们将从处理器微结构分析开始，逐步深入到内存优化、向量化技术、GPU并行编程，最后通过MPM的完整优化案例，展示这些技术的综合应用。

8.1 现代处理器微结构分析

8.1.1 CPU流水线与指令级并行

现代CPU采用深度流水线设计，将指令执行分解为多个阶段：取指（Fetch）、译码（Decode）、执行（Execute）、访存（Memory）、写回（Write-back）。理解流水线对于编写高性能代码至关重要。

流水线冒险与优化策略

数据冒险：当后续指令依赖前面指令的结果时

a = b + c;    // 指令1
d = a * e;    // 指令2依赖指令1的结果

优化方法：指令重排，插入无关指令

控制冒险：分支指令导致的流水线停顿

if (particle.active) {  // 分支预测失败代价高昂
    updateParticle();
}

优化方法：减少分支，使用条件赋值

结构冒险：硬件资源冲突优化方法：合理安排指令组合

指令级并行（ILP）优化

现代处理器可以同时执行多条独立指令。物理引擎中的向量运算天然具有高ILP：

// 低ILP版本
float dot = 0;
for (int i = 0; i < 3; i++) {
    dot += a[i] * b[i];  // 每次迭代依赖上次结果
}

// 高ILP版本
float dot = a[0]*b[0] + a[1]*b[1] + a[2]*b[2];  // 三个乘法可并行

8.1.2 分支预测与循环展开

分支预测失败会导致流水线清空，损失可达15-20个时钟周期。物理引擎中常见的分支场景：

粒子活跃状态检查

// 分支密集型代码
for (auto& p : particles) {
    if (p.active) {
        updatePosition(p);
        updateVelocity(p);
    }
}

// 优化：粒子分组
// 将活跃粒子连续存储，避免频繁分支
for (int i = 0; i < numActive; i++) {
    updatePosition(activeParticles[i]);
    updateVelocity(activeParticles[i]);
}

边界条件处理

// 分支版本
if (x < 0) x = 0;
else if (x > max) x = max;

// 无分支版本
x = std::min(std::max(x, 0.0f), max);

循环展开优化

循环展开减少循环控制开销，增加ILP机会：

// 原始版本
for (int i = 0; i < n; i++) {
    forces[i] += gravity;
}

// 4路展开
for (int i = 0; i < n; i += 4) {
    forces[i]   += gravity;
    forces[i+1] += gravity;
    forces[i+2] += gravity;
    forces[i+3] += gravity;
}
// 处理剩余元素
for (int i = (n/4)*4; i < n; i++) {
    forces[i] += gravity;
}

8.1.3 超标量执行与乱序执行

现代CPU是超标量处理器，拥有多个执行单元：

多个ALU（算术逻辑单元）
多个AGU（地址生成单元）
专用的向量单元（SSE/AVX）

乱序执行（OoOE）原理

CPU动态重排指令顺序，最大化执行单元利用率：

// 原始代码顺序
a = b + c;    // ALU操作
d = e * f;    // ALU操作
x = mem[i];   // 内存访问
y = a + d;    // 依赖前面的结果

// CPU可能的执行顺序
x = mem[i];   // 提前发起内存访问
a = b + c;    // ALU 1
d = e * f;    // ALU 2 (并行)
y = a + d;    // 等待a和d就绪

物理引擎中的应用

在粒子更新循环中充分利用超标量特性：

// 优化的粒子更新
void updateParticles(Particle* particles, int n, float dt) {
    for (int i = 0; i < n; i++) {
        // 计算密集型操作交错进行
        float3 vel = particles[i].velocity;
        float3 pos = particles[i].position;

        // 这些操作可以并行执行
        float3 acc = computeAcceleration(particles[i]);
        float3 nextVel = vel + acc * dt;
        float3 nextPos = pos + vel * dt + 0.5f * acc * dt * dt;

        // 写回结果
        particles[i].velocity = nextVel;
        particles[i].position = nextPos;
    }
}

8.1.4 NUMA架构与多核优化

非统一内存访问（NUMA）架构中，不同CPU访问不同内存区域的延迟不同。

NUMA感知的数据分配

// 线程本地数据分配
void parallelSimulation(int numThreads) {
    #pragma omp parallel num_threads(numThreads)
    {
        int tid = omp_get_thread_num();
        int particlesPerThread = totalParticles / numThreads;

        // 在本地NUMA节点分配内存
        Particle* localParticles = (Particle*)numa_alloc_onnode(
            particlesPerThread * sizeof(Particle),
            numa_node_of_cpu(tid)
        );

        // 处理本地粒子
        processParticles(localParticles, particlesPerThread);
    }
}

多核同步优化

减少锁竞争

// 使用线程本地累加器
float localForces[MAX_THREADS][GRID_SIZE];

#pragma omp parallel
{
    int tid = omp_get_thread_num();
    // 每个线程更新自己的部分
    updateLocalForces(localForces[tid]);
}

// 最后合并结果
mergeForces(localForces, globalForces);

False Sharing避免

// 错误：不同线程的数据在同一缓存行
struct ThreadData {
    float value;
} data[NUM_THREADS];

// 正确：填充到缓存行大小
struct ThreadData {
    float value;
    char padding[60];  // 假设缓存行64字节
} data[NUM_THREADS];

8.2 内存层级与缓存优化

8.2.1 缓存层级结构（L1/L2/L3）

现代处理器的内存层级：

寄存器: ~1 cycle, ~1KB
L1缓存: ~4 cycles, 32-64KB (每核独立)
L2缓存: ~12 cycles, 256-512KB (每核独立)
L3缓存: ~40 cycles, 8-32MB (核间共享)
主内存: ~100-300 cycles, GB级别

缓存行为特性

空间局部性：访问某个内存位置后，很可能访问相邻位置
时间局部性：最近访问的数据很可能再次被访问

物理引擎优化原则：

// 差的访问模式：跳跃访问
for (int i = 0; i < n; i++) {
    for (int j = 0; j < m; j++) {
        matrix[j][i] = 0;  // 列优先访问，缓存不友好
    }
}

// 好的访问模式：连续访问
for (int i = 0; i < n; i++) {
    for (int j = 0; j < m; j++) {
        matrix[i][j] = 0;  // 行优先访问，缓存友好
    }
}

8.2.2 缓存行与伪共享问题

缓存行是CPU缓存的最小单位，通常为64字节。

伪共享（False Sharing）详解

当多个线程访问同一缓存行的不同数据时：

// 问题代码
struct ParticleCounter {
    int count;  // 4字节
} counters[NUM_THREADS];  // 线程计数器紧密排列

// 线程函数
void threadWork(int tid) {
    for (int i = 0; i < iterations; i++) {
        counters[tid].count++;  // 导致缓存行失效
    }
}

解决方案

// 方案1：缓存行对齐
struct alignas(64) ParticleCounter {
    int count;
    char padding[60];
};

// 方案2：使用线程本地存储
thread_local int localCount = 0;

8.2.3 数据布局优化（AoS vs SoA）

Array of Structures (AoS)

struct Particle {
    float3 position;
    float3 velocity;
    float mass;
    float radius;
};
Particle particles[N];

// 访问所有位置时，加载了不需要的数据
for (int i = 0; i < N; i++) {
    updatePosition(particles[i].position);
}

Structure of Arrays (SoA)

struct ParticleSystem {
    float3 positions[N];
    float3 velocities[N];
    float masses[N];
    float radii[N];
};

// 只访问需要的数据，缓存效率高
for (int i = 0; i < N; i++) {
    updatePosition(positions[i]);
}

混合方案：AoSoA

// 8个粒子为一组，兼顾向量化和缓存局部性
struct ParticleBlock {
    float x[8], y[8], z[8];     // 位置分量
    float vx[8], vy[8], vz[8];   // 速度分量
    float mass[8];
    float radius[8];
};
ParticleBlock blocks[N/8];

8.2.4 预取策略与内存访问模式

硬件预取器

现代CPU具有多种硬件预取器：

顺序预取器：检测连续访问模式
跨步预取器：检测固定步长访问
相邻行预取器：预取相邻缓存行

软件预取优化

// 手动预取示例
void processParticles(Particle* particles, int n) {
    const int prefetchDistance = 8;  // 提前8个元素预取

    for (int i = 0; i < n; i++) {
        // 预取未来要访问的数据
        if (i + prefetchDistance < n) {
            __builtin_prefetch(&particles[i + prefetchDistance], 0, 3);
        }

        // 处理当前粒子
        computeForces(particles[i]);
    }
}

内存访问模式优化

连续访问模式

// 网格遍历优化
for (int z = 0; z < depth; z++) {
    for (int y = 0; y < height; y++) {
        for (int x = 0; x < width; x++) {
            grid[z][y][x] = compute();  // 保持内存连续性
        }
    }
}

分块（Tiling）技术

// 矩阵乘法的分块优化
const int TILE_SIZE = 64;  // 适配L1缓存

for (int i0 = 0; i0 < n; i0 += TILE_SIZE) {
    for (int j0 = 0; j0 < n; j0 += TILE_SIZE) {
        for (int k0 = 0; k0 < n; k0 += TILE_SIZE) {
            // 处理TILE_SIZE x TILE_SIZE的块
            for (int i = i0; i < min(i0+TILE_SIZE, n); i++) {
                for (int j = j0; j < min(j0+TILE_SIZE, n); j++) {
                    for (int k = k0; k < min(k0+TILE_SIZE, n); k++) {
                        C[i][j] += A[i][k] * B[k][j];
                    }
                }
            }
        }
    }
}

8.3 SIMD与向量化技术

8.3.1 SSE/AVX指令集概述

SIMD（Single Instruction Multiple Data）允许一条指令同时处理多个数据：

SSE: 128位寄存器，4个float或2个double
AVX: 256位寄存器，8个float或4个double
AVX-512: 512位寄存器，16个float或8个double

基本SIMD操作

// 标量版本
void addVectors(float* a, float* b, float* c, int n) {
    for (int i = 0; i < n; i++) {
        c[i] = a[i] + b[i];
    }
}

// SIMD版本（使用intrinsics）
void addVectorsAVX(float* a, float* b, float* c, int n) {
    int simdWidth = 8;  // AVX处理8个float
    int i = 0;

    // 主循环：8个元素一组
    for (; i <= n - simdWidth; i += simdWidth) {
        __m256 va = _mm256_load_ps(&a[i]);
        __m256 vb = _mm256_load_ps(&b[i]);
        __m256 vc = _mm256_add_ps(va, vb);
        _mm256_store_ps(&c[i], vc);
    }

    // 处理剩余元素
    for (; i < n; i++) {
        c[i] = a[i] + b[i];
    }
}

8.3.2 自动向量化与手动向量化

编译器自动向量化条件

循环独立性：迭代间无数据依赖
内存对齐：数据地址对齐到向量宽度
简单控制流：无复杂分支或函数调用

// 容易自动向量化
void scale(float* arr, float factor, int n) {
    #pragma omp simd aligned(arr:32)
    for (int i = 0; i < n; i++) {
        arr[i] *= factor;
    }
}

// 难以自动向量化
void complexUpdate(Particle* p, int n) {
    for (int i = 0; i < n; i++) {
        if (p[i].active) {  // 分支
            p[i].position += p[i].velocity * dt;
            checkBoundary(p[i]);  // 函数调用
        }
    }
}

手动向量化策略

// 粒子距离计算的向量化
void computeDistancesSIMD(float* x1, float* y1, float* z1,
                         float* x2, float* y2, float* z2,
                         float* distances, int n) {
    const int simdWidth = 8;

    for (int i = 0; i <= n - simdWidth; i += simdWidth) {
        __m256 dx = _mm256_sub_ps(_mm256_load_ps(&x1[i]), 
                                  _mm256_load_ps(&x2[i]));
        __m256 dy = _mm256_sub_ps(_mm256_load_ps(&y1[i]), 
                                  _mm256_load_ps(&y2[i]));
        __m256 dz = _mm256_sub_ps(_mm256_load_ps(&z1[i]), 
                                  _mm256_load_ps(&z2[i]));

        __m256 d2 = _mm256_add_ps(_mm256_mul_ps(dx, dx),
                    _mm256_add_ps(_mm256_mul_ps(dy, dy),
                                  _mm256_mul_ps(dz, dz)));

        __m256 d = _mm256_sqrt_ps(d2);
        _mm256_store_ps(&distances[i], d);
    }
}

8.3.3 向量化友好的算法设计

数据布局考虑

// SoA布局便于向量化
struct ParticleSystemSoA {
    alignas(32) float* x;
    alignas(32) float* y;
    alignas(32) float* z;
    alignas(32) float* vx;
    alignas(32) float* vy;
    alignas(32) float* vz;
};

// 向量化的重力计算
void applyGravitySIMD(ParticleSystemSoA& ps, int n, float g) {
    const __m256 gravity = _mm256_set1_ps(g);

    for (int i = 0; i <= n - 8; i += 8) {
        __m256 vy = _mm256_load_ps(&ps.vy[i]);
        vy = _mm256_add_ps(vy, gravity);
        _mm256_store_ps(&ps.vy[i], vy);
    }
}

算法重构示例：SPH密度计算

// 标量版本
float computeDensity(Particle& p, Particle* neighbors, int count) {
    float density = 0;
    for (int i = 0; i < count; i++) {
        float3 r = p.position - neighbors[i].position;
        float r2 = dot(r, r);
        if (r2 < h2) {
            density += neighbors[i].mass * W(sqrt(r2), h);
        }
    }
    return density;
}

// 向量化版本
float computeDensitySIMD(float px, float py, float pz,
                        float* nx, float* ny, float* nz, 
                        float* mass, int count) {
    __m256 density = _mm256_setzero_ps();
    __m256 px_vec = _mm256_set1_ps(px);
    __m256 py_vec = _mm256_set1_ps(py);
    __m256 pz_vec = _mm256_set1_ps(pz);
    __m256 h2_vec = _mm256_set1_ps(h * h);

    for (int i = 0; i <= count - 8; i += 8) {
        // 计算距离平方
        __m256 dx = _mm256_sub_ps(px_vec, _mm256_load_ps(&nx[i]));
        __m256 dy = _mm256_sub_ps(py_vec, _mm256_load_ps(&ny[i]));
        __m256 dz = _mm256_sub_ps(pz_vec, _mm256_load_ps(&nz[i]));

        __m256 r2 = _mm256_add_ps(_mm256_mul_ps(dx, dx),
                    _mm256_add_ps(_mm256_mul_ps(dy, dy),
                                  _mm256_mul_ps(dz, dz)));

        // 掩码：r2 < h2
        __m256 mask = _mm256_cmp_ps(r2, h2_vec, _CMP_LT_OQ);

        // 条件累加
        __m256 contribution = _mm256_and_ps(mask, 
            _mm256_mul_ps(_mm256_load_ps(&mass[i]), 
                         computeKernelSIMD(r2)));

        density = _mm256_add_ps(density, contribution);
    }

    // 水平求和
    float result[8];
    _mm256_store_ps(result, density);
    return result[0] + result[1] + result[2] + result[3] + 
           result[4] + result[5] + result[6] + result[7];
}

8.3.4 掩码操作与条件执行

SIMD中的条件执行通过掩码实现：

// 边界条件的向量化处理
void clampPositionsSIMD(float* x, float* y, float* z, 
                        int n, float3 min, float3 max) {
    __m256 xmin = _mm256_set1_ps(min.x);
    __m256 xmax = _mm256_set1_ps(max.x);
    __m256 ymin = _mm256_set1_ps(min.y);
    __m256 ymax = _mm256_set1_ps(max.y);
    __m256 zmin = _mm256_set1_ps(min.z);
    __m256 zmax = _mm256_set1_ps(max.z);

    for (int i = 0; i <= n - 8; i += 8) {
        // 加载位置
        __m256 px = _mm256_load_ps(&x[i]);
        __m256 py = _mm256_load_ps(&y[i]);
        __m256 pz = _mm256_load_ps(&z[i]);

        // 钳制到边界
        px = _mm256_max_ps(px, xmin);
        px = _mm256_min_ps(px, xmax);
        py = _mm256_max_ps(py, ymin);
        py = _mm256_min_ps(py, ymax);
        pz = _mm256_max_ps(pz, zmin);
        pz = _mm256_min_ps(pz, zmax);

        // 存储结果
        _mm256_store_ps(&x[i], px);
        _mm256_store_ps(&y[i], py);
        _mm256_store_ps(&z[i], pz);
    }
}

复杂条件的处理

// 碰撞检测的向量化
void detectCollisionsSIMD(float* x1, float* y1, float* z1, float* r1,
                         float* x2, float* y2, float* z2, float* r2,
                         bool* collisions, int n) {
    for (int i = 0; i <= n - 8; i += 8) {
        // 计算中心距离
        __m256 dx = _mm256_sub_ps(_mm256_load_ps(&x1[i]), 
                                  _mm256_load_ps(&x2[i]));
        __m256 dy = _mm256_sub_ps(_mm256_load_ps(&y1[i]), 
                                  _mm256_load_ps(&y2[i]));
        __m256 dz = _mm256_sub_ps(_mm256_load_ps(&z1[i]), 
                                  _mm256_load_ps(&z2[i]));

        __m256 dist2 = _mm256_add_ps(_mm256_mul_ps(dx, dx),
                       _mm256_add_ps(_mm256_mul_ps(dy, dy),
                                     _mm256_mul_ps(dz, dz)));

        // 计算半径和的平方
        __m256 rsum = _mm256_add_ps(_mm256_load_ps(&r1[i]), 
                                    _mm256_load_ps(&r2[i]));
        __m256 rsum2 = _mm256_mul_ps(rsum, rsum);

        // 比较并生成掩码
        __m256 collision_mask = _mm256_cmp_ps(dist2, rsum2, _CMP_LE_OQ);

        // 将掩码转换为布尔数组
        int mask = _mm256_movemask_ps(collision_mask);
        for (int j = 0; j < 8; j++) {
            collisions[i + j] = (mask >> j) & 1;
        }
    }
}

8.4 GPU并行编程模式

8.4.1 GPU架构与计算模型

GPU采用大规模并行架构，与CPU有本质区别：

GPU vs CPU架构对比

CPU: 少量强大核心（4-64核），优化延迟
GPU: 大量简单核心（1000-10000核），优化吞吐量

CUDA编程模型

// 线程层次
Grid → Block → Thread

// 典型配置
dim3 blockSize(256);  // 每个块256个线程
dim3 gridSize((n + blockSize.x - 1) / blockSize.x);  // 自动计算块数

内存层次

寄存器: 每线程私有，~1 cycle
共享内存: 块内共享，~5 cycles
L1缓存: 与共享内存共用
L2缓存: 所有SM共享
全局内存: ~400-800 cycles

8.4.2 线程组织与内存模型

Warp执行模型

GPU以32个线程为一组（warp）执行：

// Warp内线程同步执行
__global__ void particleUpdate(float* x, float* v, float dt, int n) {
    int tid = blockIdx.x * blockDim.x + threadIdx.x;

    if (tid < n) {
        // 同一warp内的线程执行相同指令
        x[tid] += v[tid] * dt;
    }
}

内存合并访问

// 好的访问模式：连续访问
__global__ void goodAccess(float* data) {
    int tid = blockIdx.x * blockDim.x + threadIdx.x;
    float value = data[tid];  // 线程0访问data[0], 线程1访问data[1]...
}

// 差的访问模式：跨步访问
__global__ void badAccess(float* data, int stride) {
    int tid = blockIdx.x * blockDim.x + threadIdx.x;
    float value = data[tid * stride];  // 非连续访问
}

共享内存使用

// 使用共享内存的归约求和
__global__ void reduceSum(float* input, float* output, int n) {
    extern __shared__ float sdata[];

    int tid = threadIdx.x;
    int i = blockIdx.x * blockDim.x + tid;

    // 加载到共享内存
    sdata[tid] = (i < n) ? input[i] : 0;
    __syncthreads();

    // 树形归约
    for (int s = blockDim.x/2; s > 0; s >>= 1) {
        if (tid < s) {
            sdata[tid] += sdata[tid + s];
        }
        __syncthreads();
    }

    // 写回结果
    if (tid == 0) {
        output[blockIdx.x] = sdata[0];
    }
}

8.4.3 分支发散与占用率优化

分支发散问题

Warp内线程执行不同分支会导致串行化：

// 严重的分支发散
__global__ void divergentKernel(int* data) {
    int tid = threadIdx.x;

    if (tid % 2 == 0) {
        // 偶数线程执行此分支
        complexComputation1();
    } else {
        // 奇数线程执行此分支
        complexComputation2();
    }
}

// 优化：重组数据减少发散
__global__ void optimizedKernel(int* evenData, int* oddData) {
    int tid = blockIdx.x * blockDim.x + threadIdx.x;

    if (blockIdx.x % 2 == 0) {
        // 整个块处理偶数数据
        processEven(evenData[tid]);
    } else {
        // 整个块处理奇数数据
        processOdd(oddData[tid]);
    }
}

占用率优化

占用率 = 活跃warp数 / 最大warp数

影响因素：

寄存器使用
共享内存使用
块大小

// 计算最优块大小
int blockSize;
int minGridSize;
cudaOccupancyMaxPotentialBlockSize(&minGridSize, &blockSize, 
                                   particleKernel, 0, 0);

// 动态共享内存分配
int sharedMemSize = blockSize * sizeof(float);
particleKernel<<<gridSize, blockSize, sharedMemSize>>>(args);

8.4.4 原子操作与同步原语

原子操作优化

// 直接原子操作（慢）
__global__ void atomicHistogram(int* data, int* hist, int n) {
    int tid = blockIdx.x * blockDim.x + threadIdx.x;
    if (tid < n) {
        atomicAdd(&hist[data[tid]], 1);
    }
}

// 使用共享内存减少原子操作
__global__ void optimizedHistogram(int* data, int* hist, int n) {
    extern __shared__ int localHist[];

    int tid = blockIdx.x * blockDim.x + threadIdx.x;
    int ltid = threadIdx.x;

    // 初始化共享内存
    for (int i = ltid; i < HIST_SIZE; i += blockDim.x) {
        localHist[i] = 0;
    }
    __syncthreads();

    // 本地原子操作
    if (tid < n) {
        atomicAdd(&localHist[data[tid]], 1);
    }
    __syncthreads();

    // 合并到全局内存
    for (int i = ltid; i < HIST_SIZE; i += blockDim.x) {
        if (localHist[i] > 0) {
            atomicAdd(&hist[i], localHist[i]);
        }
    }
}

网格级同步

// Cooperative Groups同步
#include <cooperative_groups.h>

__global__ void gridSyncKernel() {
    cooperative_groups::grid_group g = 
        cooperative_groups::this_grid();

    // 第一阶段计算
    doPhase1();

    // 全网格同步
    g.sync();

    // 第二阶段计算
    doPhase2();
}

8.5 MPM性能优化案例

8.5.1 网格-粒子传输的并行化

MPM中最耗时的操作是粒子到网格（P2G）和网格到粒子（G2P）的传输。

P2G并行化策略

// 方法1：粒子并行（有原子冲突）
__global__ void p2gParticleParallel(Particle* particles, Grid* grid, int np) {
    int pid = blockIdx.x * blockDim.x + threadIdx.x;
    if (pid >= np) return;

    Particle p = particles[pid];
    int base_x = int(p.x / dx);
    int base_y = int(p.y / dy);
    int base_z = int(p.z / dz);

    // 3x3x3核函数
    for (int i = 0; i < 3; i++) {
        for (int j = 0; j < 3; j++) {
            for (int k = 0; k < 3; k++) {
                int gid = (base_x + i) + (base_y + j) * nx + 
                         (base_z + k) * nx * ny;
                float w = weight(i, j, k, p);

                // 原子操作避免冲突
                atomicAdd(&grid[gid].mass, w * p.mass);
                atomicAdd(&grid[gid].momentum.x, w * p.mass * p.v.x);
                atomicAdd(&grid[gid].momentum.y, w * p.mass * p.v.y);
                atomicAdd(&grid[gid].momentum.z, w * p.mass * p.v.z);
            }
        }
    }
}

// 方法2：网格并行（需要邻居列表）
__global__ void p2gGridParallel(ParticleList* lists, Grid* grid, int ng) {
    int gid = blockIdx.x * blockDim.x + threadIdx.x;
    if (gid >= ng) return;

    float mass = 0, momentum_x = 0, momentum_y = 0, momentum_z = 0;

    // 遍历影响此网格点的所有粒子
    for (int i = 0; i < lists[gid].count; i++) {
        int pid = lists[gid].particles[i];
        Particle p = particles[pid];
        float w = computeWeight(gid, p);

        mass += w * p.mass;
        momentum_x += w * p.mass * p.v.x;
        momentum_y += w * p.mass * p.v.y;
        momentum_z += w * p.mass * p.v.z;
    }

    grid[gid].mass = mass;
    grid[gid].momentum = make_float3(momentum_x, momentum_y, momentum_z);
}

8.5.2 稀疏网格的高效实现

实际模拟中，大部分网格点是空的，使用稀疏结构可显著节省内存和计算。

稀疏网格数据结构

// 分层稀疏网格
struct SparseGrid {
    // Level 0: 稀疏块索引
    int* blockIndices;      // 活跃块的线性索引
    int numActiveBlocks;

    // Level 1: 块数据
    struct Block {
        float data[8][8][8];  // 8x8x8的块
        int globalIndex;      // 全局索引
    } *blocks;

    // 哈希表加速查找
    int* hashTable;
    int hashTableSize;
};

// 稀疏网格访问
__device__ float accessSparseGrid(SparseGrid* grid, int x, int y, int z) {
    int blockIdx = (x/8) + (y/8)*blocksPerDim + (z/8)*blocksPerDim*blocksPerDim;
    int hash = blockIdx % grid->hashTableSize;

    // 线性探测
    while (grid->hashTable[hash] != -1) {
        int bid = grid->hashTable[hash];
        if (grid->blocks[bid].globalIndex == blockIdx) {
            return grid->blocks[bid].data[x%8][y%8][z%8];
        }
        hash = (hash + 1) % grid->hashTableSize;
    }

    return 0;  // 空块返回0
}

8.5.3 本构模型计算的向量化

MPM中的本构模型计算是计算密集型操作，适合向量化。

弹塑性模型的SIMD实现

// 批量SVD分解
void batchSVD3x3SIMD(float* F, float* U, float* S, float* V, int n) {
    // 处理8个3x3矩阵
    for (int i = 0; i <= n - 8; i += 8) {
        // 加载8个矩阵的元素
        __m256 f00 = _mm256_load_ps(&F[i*9 + 0]);
        __m256 f01 = _mm256_load_ps(&F[i*9 + 1]);
        // ... 加载所有元素

        // Jacobi迭代求解
        for (int iter = 0; iter < maxIterations; iter++) {
            // 计算off-diagonal元素
            __m256 off = computeOffDiagonal(f00, f01, ...);

            // 收敛检查
            __m256 converged = _mm256_cmp_ps(off, epsilon, _CMP_LT_OQ);
            if (_mm256_testc_ps(converged, ones)) break;

            // Givens旋转
            applyGivensRotation(&f00, &f01, ...);
        }

        // 提取奇异值和奇异向量
        extractSingularValues(S, f00, f11, f22);
        extractSingularVectors(U, V, ...);
    }
}

// Neo-Hookean本构模型
__global__ void computeStressNeoHookean(Matrix3* F, Matrix3* stress, 
                                       float mu, float lambda, int n) {
    int tid = blockIdx.x * blockDim.x + threadIdx.x;
    if (tid >= n) return;

    // SVD分解
    Matrix3 U, V;
    Vector3 S;
    svd3x3(F[tid], U, S, V);

    // 计算应力
    float J = S.x * S.y * S.z;
    Vector3 dPsi_dS;
    dPsi_dS.x = mu * (S.x - 1.0f / (S.y * S.z)) + lambda * (J - 1) * S.y * S.z;
    dPsi_dS.y = mu * (S.y - 1.0f / (S.x * S.z)) + lambda * (J - 1) * S.x * S.z;
    dPsi_dS.z = mu * (S.z - 1.0f / (S.x * S.y)) + lambda * (J - 1) * S.x * S.y;

    // 重构应力张量
    Matrix3 P = U * diag(dPsi_dS) * transpose(V);
    stress[tid] = P;
}

8.5.4 多GPU扩展与负载均衡

大规模MPM模拟需要多GPU并行。

域分解策略

// 空间域分解
struct DomainDecomposition {
    int3 gridDims;          // 全局网格尺寸
    int3 gpuGridDims;       // GPU网格划分
    int3 localOffset;       // 本GPU的偏移
    int3 localSize;         // 本GPU的大小
    int3 ghostSize;         // Ghost区域大小
};

// 粒子重分配
__global__ void redistributeParticles(Particle* particles, int* particleGPU,
                                     DomainDecomposition* domains, int n) {
    int pid = blockIdx.x * blockDim.x + threadIdx.x;
    if (pid >= n) return;

    float3 pos = particles[pid].position;

    // 确定粒子所属GPU
    int gpuX = int(pos.x / domains->gridDims.x * domains->gpuGridDims.x);
    int gpuY = int(pos.y / domains->gridDims.y * domains->gpuGridDims.y);
    int gpuZ = int(pos.z / domains->gridDims.z * domains->gpuGridDims.z);

    particleGPU[pid] = gpuX + gpuY * domains->gpuGridDims.x + 
                      gpuZ * domains->gpuGridDims.x * domains->gpuGridDims.y;
}

负载均衡

// 动态负载均衡
void dynamicLoadBalance(int* particleCounts, int numGPUs) {
    // 计算平均负载
    int totalParticles = 0;
    for (int i = 0; i < numGPUs; i++) {
        totalParticles += particleCounts[i];
    }
    int targetLoad = totalParticles / numGPUs;

    // 调整域边界
    for (int i = 0; i < numGPUs - 1; i++) {
        int diff = particleCounts[i] - targetLoad;
        if (abs(diff) > threshold) {
            // 移动边界
            adjustDomainBoundary(i, i+1, diff);
        }
    }
}

本章小结

本章深入探讨了构建高性能物理引擎的关键技术。我们从现代处理器的微结构分析开始，理解了流水线、分支预测、超标量执行等硬件特性对代码性能的影响。通过内存层级优化，我们学习了如何设计缓存友好的数据结构和访问模式。SIMD向量化技术展示了如何充分利用CPU的并行计算能力，而GPU编程部分则介绍了大规模并行计算的编程模式。最后，通过MPM的完整优化案例，我们看到了这些技术在实际物理引擎中的综合应用。

关键要点：

性能优化需要深入理解硬件架构
数据布局对性能影响巨大（AoS vs SoA）
向量化和并行化是提升性能的主要手段
GPU适合大规模数据并行任务
稀疏数据结构可显著减少内存和计算开销

练习题

基础题

练习8.1 缓存行分析给定一个包含100万个粒子的系统，每个粒子包含位置(float3)、速度(float3)、质量(float)和半径(float)。假设缓存行大小为64字节，L1缓存为32KB。比较AoS和SoA布局在更新所有粒子位置时的缓存效率。

提示

计算每种布局下：

每个缓存行能容纳多少有用数据
更新位置需要加载多少缓存行
缓存利用率（有用数据/总加载数据）

答案

AoS布局：

每个粒子占用：3×4 + 3×4 + 4 + 4 = 32字节
每个缓存行容纳：64/32 = 2个粒子
更新位置时，每个缓存行只有24字节有用（2个float3）
缓存利用率：24/64 = 37.5%
需要加载：1,000,000/2 = 500,000个缓存行

SoA布局：

位置数组连续存储
每个缓存行容纳：64/12 ≈ 5.33个float3
缓存利用率：100%（只加载需要的数据）
需要加载：1,000,000×12/64 ≈ 187,500个缓存行

结论：SoA布局减少62.5%的内存带宽需求，缓存效率提升2.67倍。

练习8.2 SIMD向量化效率实现一个计算N个3D向量点积的函数。比较标量版本和AVX向量化版本的理论加速比。考虑N=1000000的情况。

提示

AVX可以同时处理8个float
考虑向量化的额外开销（数据重组、水平求和）
计算每个版本的总操作数

答案

标量版本：

for (int i = 0; i < N; i++) {
    dot[i] = a[i].x * b[i].x + a[i].y * b[i].y + a[i].z * b[i].z;
}

操作数：N × (3乘法 + 2加法) = 5N

AVX向量化版本（处理8个向量）：

主循环：N/8次迭代
每次迭代：3个向量乘法 + 2个向量加法 + 1次水平求和
水平求和需要约3个额外指令

理论加速比：

计算部分：8倍加速
考虑额外开销：约6-7倍实际加速
内存带宽可能成为瓶颈，实际加速比约4-5倍

练习8.3 GPU占用率计算一个CUDA kernel使用32个寄存器，16KB共享内存，块大小为256。假设GPU每个SM有65536个寄存器，96KB共享内存，最多2048个线程。计算理论占用率。

提示

占用率受限于：

寄存器数量
共享内存大小
最大线程数取最小值

答案

每个块的资源需求：

寄存器：32 × 256 = 8192个
共享内存：16KB
线程数：256

SM资源限制下的最大块数：

寄存器限制：65536 / 8192 = 8个块
共享内存限制：96 / 16 = 6个块
线程数限制：2048 / 256 = 8个块

实际最大块数：min(8, 6, 8) = 6个块

占用率计算：

活跃线程数：6 × 256 = 1536
最大线程数：2048
占用率：1536 / 2048 = 75%

挑战题

练习8.4 多级缓存优化设计一个矩阵乘法的分块算法，同时优化L1（32KB）、L2（256KB）和L3（8MB）缓存。给出不同级别的分块大小选择策略。

提示

考虑每级缓存需要容纳的数据量
分层分块：大块适配L3，中块适配L2，小块适配L1
考虑TLB（页表缓存）的影响

答案

三级分块策略：

L3级分块（适配8MB）：

需要容纳：A块 + B块 + C块
块大小：B3 × B3，其中3×B3²×4 ≤ 8MB
B3 ≈ 900，实际取896（7×128，便于下级分块）

L2级分块（适配256KB）：

在L3块内再分块
块大小：B2 × B2，其中3×B2²×4 ≤ 256KB
B2 ≈ 160，实际取128（便于向量化）

L1级分块（适配32KB）：

在L2块内再分块
块大小：B1 × B1，其中3×B1²×4 ≤ 32KB
B1 ≈ 50，实际取64（考虑寄存器和向量化）

实现框架：

for (i3 = 0; i3 < N; i3 += 896) {      // L3
  for (j3 = 0; j3 < N; j3 += 896) {
    for (k3 = 0; k3 < N; k3 += 896) {
      for (i2 = i3; i2 < min(i3+896,N); i2 += 128) {  // L2
        for (j2 = j3; j2 < min(j3+896,N); j2 += 128) {
          for (k2 = k3; k2 < min(k3+896,N); k2 += 128) {
            for (i1 = i2; i1 < min(i2+128,N); i1 += 64) {  // L1
              for (j1 = j2; j1 < min(j2+128,N); j1 += 64) {
                for (k1 = k2; k1 < min(k2+128,N); k1 += 64) {
                  // 内核计算，使用寄存器分块和向量化
                  matmul_kernel_64x64(A, B, C, i1, j1, k1);
                }
              }
            }
          }
        }
      }
    }
  }
}

性能考虑：

TLB优化：使用2MB大页减少TLB失效
预取优化：在L2级循环中预取下一个L3块
NUMA优化：确保线程访问本地内存节点

练习8.5 混合精度物理模拟设计一个混合精度的SPH流体模拟器，在保证物理正确性的前提下最大化性能。哪些计算可以用低精度？如何处理精度转换开销？

提示

分析不同计算对精度的敏感度
考虑GPU的Tensor Core加速
设计精度转换的批处理策略

答案

混合精度策略：

FP32必需的计算：

位置积分（累积误差敏感）
压力求解（数值稳定性）
边界条件处理

FP16可用的计算：

密度计算（局部性强）
粘性力（相对值重要）
核函数评估（查表+插值）

实现方案：

struct SPHParticle {
    float3 position;      // FP32
    half3 velocity;       // FP16
    half density;         // FP16
    float pressure;       // FP32
    half3 force;         // FP16
};

// 批量精度转换
__global__ void convertPrecision(float* fp32_data, half* fp16_data, int n) {
    int tid = blockIdx.x * blockDim.x + threadIdx.x;
    if (tid < n) {
        // 使用向量化指令批量转换
        float4 f = ((float4*)fp32_data)[tid];
        half2 h1 = __float22half2_rn(make_float2(f.x, f.y));
        half2 h2 = __float22half2_rn(make_float2(f.z, f.w));
        ((half4*)fp16_data)[tid] = make_half4(h1.x, h1.y, h2.x, h2.y);
    }
}

// 使用Tensor Core加速
__global__ void densityComputeTensorCore(/* ... */) {
    // 使用wmma API进行矩阵运算
    wmma::fragment<wmma::matrix_a, 16, 16, 16, half> a_frag;
    wmma::fragment<wmma::matrix_b, 16, 16, 16, half> b_frag;
    wmma::fragment<wmma::accumulator, 16, 16, 16, float> c_frag;

    // 将粒子交互转化为矩阵乘法
    // ...
}

性能优化：

精度转换开销最小化： - 批量转换，利用向量指令 - 与其他计算重叠，隐藏延迟 - 只在必要时转换
内存带宽优化： - FP16数据减少50%带宽需求 - 更好的缓存利用率
计算吞吐量： - Tensor Core提供8倍FP16吞吐量 - 适合密集的粒子交互计算

精度验证：

能量守恒检查：相对误差 < 0.1%
体积守恒检查：偏差 < 0.01%
视觉质量：与FP32版本无明显差异

预期性能提升：1.5-2倍整体加速

练习8.6 自适应负载均衡为GPU上的MPM实现一个自适应负载均衡系统。如何预测负载？如何最小化数据迁移开销？

提示

使用历史信息预测负载
考虑空间局部性
设计增量式迁移策略

答案

自适应负载均衡系统设计：

负载预测模型：

struct LoadPredictor {
    float alpha = 0.7f;  // 指数移动平均系数
    float* history;      // 历史负载
    float* predicted;    // 预测负载

    __device__ float predict(int cellId, float currentLoad) {
        // 指数移动平均
        float pred = alpha * currentLoad + (1-alpha) * history[cellId];

        // 考虑空间相关性
        float spatial = 0;
        for (int neighbor : getNeighbors(cellId)) {
            spatial += history[neighbor];
        }
        spatial /= 27;  // 3x3x3邻居

        // 组合预测
        return 0.8f * pred + 0.2f * spatial;
    }
};

空间分解优化：

class AdaptiveDecomposition {
    struct Region {
        int3 min, max;     // 区域边界
        int gpuId;         // 所属GPU
        float load;        // 预测负载
    };

    void rebalance() {
        // 1. 收集负载信息
        float totalLoad = 0;
        for (auto& region : regions) {
            region.load = predictLoad(region);
            totalLoad += region.load;
        }

        // 2. 计算目标负载
        float targetLoad = totalLoad / numGPUs;

        // 3. 增量调整边界
        for (int gpu = 0; gpu < numGPUs; gpu++) {
            float currentLoad = getGPULoad(gpu);
            float loadDiff = currentLoad - targetLoad;

            if (abs(loadDiff) > threshold) {
                // 找到最优切割面
                int splitAxis = findBestSplitAxis(gpu);
                int splitPos = findSplitPosition(gpu, splitAxis, loadDiff);

                // 调整边界
                adjustBoundary(gpu, splitAxis, splitPos);
            }
        }
    }

    int findBestSplitAxis(int gpu) {
        // 选择粒子分布方差最大的轴
        float var[3] = {0};
        computeParticleVariance(gpu, var);
        return argmax(var);
    }
};

数据迁移优化：

class IncrementalMigration {
    struct MigrationBuffer {
        Particle* particles;
        int* indices;
        int count;
        int capacity;
    };

    void migrateParticles(int srcGPU, int dstGPU, Region& region) {
        // 1. 异步标记需要迁移的粒子
        markParticlesAsync<<<...>>>(particles, region, migrationBuffer);

        // 2. 压缩到迁移缓冲区
        compactParticles<<<...>>>(particles, migrationBuffer);

        // 3. 异步P2P传输
        cudaMemcpyPeerAsync(dstBuffer, dstGPU, 
                           srcBuffer, srcGPU, 
                           size, stream);

        // 4. 在目标GPU上整合
        integrateParticles<<<...>>>(dstParticles, dstBuffer);
    }

    // 使用双缓冲减少停顿
    void doubleBufferedMigration() {
        for (int phase = 0; phase < 2; phase++) {
            // 当前帧迁移上一帧标记的粒子
            if (phase > 0) {
                completeMigration(prevBuffer);
            }

            // 标记下一帧要迁移的粒子
            markForMigration(currBuffer);

            // 交换缓冲区
            swap(prevBuffer, currBuffer);
        }
    }
};

性能指标：

负载不平衡度：< 10%
迁移开销：< 5%总时间
预测准确度：> 90%

优化技巧：

使用统一内存简化迁移
重叠计算与通信
批量迁移减少开销
保持空间局部性

常见陷阱与错误

过早优化 - 错误：在没有性能分析的情况下盲目优化 - 正确：先profiling，找到真正的瓶颈
忽视内存带宽 - 错误：只关注计算优化，忽略内存访问 - 正确：许多物理模拟是内存带宽受限的
过度向量化 - 错误：强行向量化所有代码 - 正确：只向量化热点且适合的代码
错误的并行粒度 - 错误：并行粒度过细导致同步开销大 - 正确：选择合适的任务划分粒度
忽略数值精度 - 错误：盲目使用低精度导致模拟不稳定 - 正确：仔细分析精度需求，渐进式优化
GPU内存管理不当 - 错误：频繁的主机-设备数据传输 - 正确：最小化数据传输，使用异步传输

最佳实践检查清单

性能分析

[ ] 使用专业工具（VTune、NSight、perf）进行性能分析
[ ] 识别热点函数和瓶颈（计算/内存/同步）
[ ] 建立性能基准，量化优化效果

CPU优化

[ ] 数据结构设计考虑缓存友好性
[ ] 合理使用SIMD指令集
[ ] 避免false sharing
[ ] 优化分支预测（减少条件分支）

GPU优化

[ ] 选择合适的线程块大小
[ ] 优化内存访问模式（合并访问）
[ ] 合理使用共享内存
[ ] 最小化warp分歧

通用优化

[ ] 选择合适的算法复杂度
[ ] 平衡计算与内存访问
[ ] 考虑多级并行（任务级、数据级、指令级）
[ ] 持续测试和验证正确性

可扩展性

[ ] 设计时考虑多GPU/多节点扩展
[ ] 实现动态负载均衡
[ ] 最小化同步和通信开销
[ ] 使用异步操作隐藏延迟