llm_safety

第7章：多模态模型攻击

多模态大语言模型（Multimodal LLMs）如GPT-4V、Claude 3、Gemini等的出现，极大地扩展了AI系统的能力边界。这些模型能够同时处理文本、图像、音频和视频等多种模态的信息，实现了前所未有的理解和生成能力。然而，模态融合在带来强大功能的同时，也引入了全新的攻击面。攻击者可以利用不同模态间的交互作用，构造出单一模态下无法实现的复杂攻击。本章将深入探讨多模态模型特有的安全威胁，包括视觉提示注入、跨模态对抗样本、隐藏指令嵌入等攻击技术，并从信息论角度分析跨模态对齐的脆弱性。

7.1 视觉提示注入

视觉提示注入是多模态模型面临的首要威胁。与传统的文本提示注入不同，视觉提示注入通过图像载体传递恶意指令，绕过了基于文本的安全过滤机制。

7.1.1 攻击原理

视觉提示注入利用了多模态模型的视觉编码器（如CLIP、ViT）与语言模型之间的桥接机制。当模型处理包含文字的图像时，会通过以下路径执行注入的指令：

图像输入 -> 视觉编码器 -> 特征提取 -> 跨模态对齐 -> 语言解码 -> 指令执行

攻击者可以在图像中嵌入看似无害但实际包含恶意指令的文本，例如：

显式文本嵌入：直接在图像中写入指令文本
OCR混淆：利用字体、颜色、背景等视觉元素干扰OCR识别
语义双关：构造在视觉和文本语义上有歧义的内容

7.1.2 技术实现

1. 梯度引导的文本嵌入

通过优化图像像素，使得视觉编码器输出的特征向量与目标指令的文本嵌入对齐：

\[\min_{\delta} \|\mathcal{F}_v(x + \delta) - \mathcal{F}_t(p_{target})\|_2^2 + \lambda \|\delta\|_p\]

其中，$\mathcal{F}v$是视觉编码器，$\mathcal{F}_t$是文本编码器，$p{target}$是目标提示，$\delta$是添加到原始图像$x$的扰动。

2. 光学字符识别(OCR)攻击

利用OCR模块的脆弱性，通过以下技术绕过检测：

字符级扰动：微调字符的笔画、间距、倾斜角度
背景噪声注入：添加特定模式的背景纹理干扰识别
Unicode滥用：使用视觉相似但编码不同的Unicode字符

正常文本: "执行安全检查"
混淆文本: "执行安全检査" (最后一个字使用了不同的Unicode)

7.1.3 攻击场景

场景1：社交媒体图片攻击 攻击者在社交媒体上发布包含隐藏指令的图片，当多模态AI助手处理这些图片时，会无意中执行恶意指令。

场景2：文档扫描攻击 在PDF或扫描文档中嵌入不可见的指令，当模型分析文档内容时触发。

场景3：屏幕截图劫持 在屏幕截图中注入指令，利用用户分享截图的习惯传播攻击。

7.1.4 防御策略

输入预处理：对图像进行降噪、二值化等预处理，破坏精心构造的扰动
多重OCR验证：使用多个独立的OCR引擎交叉验证识别结果
语义一致性检查：验证视觉内容与识别文本的语义一致性
安全提示隔离：将图像内容与系统提示严格隔离

7.2 跨模态对抗样本

跨模态对抗样本是指在一个模态中添加精心设计的扰动，影响模型在另一个模态中的输出。这类攻击利用了多模态模型中不同模态表征空间的对齐机制。

7.2.1 理论基础

多模态模型通常通过对比学习（如CLIP）实现模态对齐：

\[\mathcal{L}_{align} = -\log \frac{\exp(\langle f_v(x_i), f_t(t_i) \rangle / \tau)}{\sum_{j=1}^N \exp(\langle f_v(x_i), f_t(t_j) \rangle / \tau)}\]

其中$f_v$和$f_t$分别是视觉和文本编码器，$\tau$是温度参数。

攻击者可以通过以下目标函数生成跨模态对抗样本：

\[\max_{\delta} \langle f_v(x + \delta), f_t(t_{adv}) \rangle - \langle f_v(x + \delta), f_t(t_{orig}) \rangle\]

7.2.2 攻击方法

1. 语义偏移攻击

通过微小的视觉扰动，使模型将图像分类为完全不同的语义类别：

原始图像：猫的照片
添加扰动后：模型识别为"狗"，但人眼仍看到猫

2. 属性注入攻击

在保持主体不变的情况下，注入额外的语义属性：

原始描述："一个红色的苹果"
攻击后描述："一个有毒的红色苹果"

3. 关系操纵攻击

改变图像中对象之间的关系理解：

原始理解：人在喂狗
攻击后理解：狗在攻击人

7.2.3 数学形式化

设$\mathcal{X}$为图像空间，$\mathcal{T}$为文本空间，$\mathcal{Z}$为共享嵌入空间。跨模态对抗样本的生成可以形式化为：

\[\begin{aligned} \text{Find } \delta^* &= \arg\max_{\|\delta\|_p \leq \epsilon} \mathcal{L}_{attack}(x + \delta, t_{target}) \\ \text{s.t. } &d_{\mathcal{X}}(x, x + \delta) \leq \epsilon \\ &\Phi_v(x + \delta) \approx \Phi_t(t_{target}) \end{aligned}\]

其中$\Phi_v: \mathcal{X} \to \mathcal{Z}$和$\Phi_t: \mathcal{T} \to \mathcal{Z}$是模态映射函数。

7.2.4 攻击效果评估

评估跨模态攻击的有效性需要考虑：

攻击成功率(ASR)：成功改变模型输出的比例
语义保持度：人类感知的语义变化程度
扰动不可察觉性：$|\delta|_p$的大小
迁移性：攻击在不同模型间的泛化能力

7.3 图像中的隐藏指令

隐藏指令攻击通过在图像中嵌入人眼难以察觉但模型可以识别的信息，实现秘密的指令传递。

7.3.1 隐写术技术

1. LSB嵌入

在图像的最低有效位(LSB)中编码指令：

# 伪代码示例
for pixel in image:
    r, g, b = pixel
    # 在最低位嵌入信息
    r = (r & 0xFE) | bit_stream[i]
    g = (g & 0xFE) | bit_stream[i+1]
    b = (b & 0xFE) | bit_stream[i+2]

2. 频域嵌入

利用DCT或DWT变换，在频域系数中嵌入信息：

\[I_{stego} = \text{IDCT}(\text{DCT}(I) + \alpha \cdot W)\]

其中$W$是水印信息，$\alpha$控制嵌入强度。

7.3.2 深度学习增强的隐藏技术

1. 生成式隐写

使用生成对抗网络(GAN)创建包含隐藏信息的自然图像：

\[\begin{aligned} \min_G \max_D &\mathcal{L}_{GAN}(G, D) + \lambda_1 \mathcal{L}_{stego}(G) + \lambda_2 \mathcal{L}_{extract}(G, E) \end{aligned}\]

其中$G$是生成器，$D$是判别器，$E$是提取器。

2. 对抗扰动编码

将指令编码为对抗扰动的模式：

\[\delta_{encode} = \text{Encoder}(m) \cdot \epsilon\]

其中$m$是要隐藏的消息，$\epsilon$控制扰动强度。

7.3.3 触发机制

1. 条件触发

只有在特定条件下才激活隐藏指令：

if detect_pattern(image):
    execute_hidden_command()
else:
    normal_processing()

2. 累积触发

需要多个包含部分信息的图像才能重构完整指令：

\[m_{complete} = \bigoplus_{i=1}^n m_i\]

其中$m_i$是第$i$个图像片段，$\bigoplus$是聚合操作（如XOR）。

7.3.4 实际应用案例

二维码/条形码滥用：在看似正常的二维码中编码恶意URL或指令
元数据注入：在EXIF、PNG chunks等元数据中藏匿指令
视觉图案触发：特定的视觉模式（如棋盘格）触发预设行为

7.4 音频与视频攻击向量

音频和视频模态为攻击者提供了时序维度的攻击机会，可以实现更复杂和隐蔽的攻击。

7.4.1 音频对抗样本

1. 不可察觉的音频扰动

在音频信号中添加人耳无法察觉但会影响模型识别的扰动：

\[x_{adv}(t) = x(t) + \epsilon \cdot \psi(t)\]

其中$\psi(t)$是精心设计的扰动信号，通常在高频段或利用心理声学掩蔽效应。

2. 超声波指令注入

利用超出人类听觉范围（>20kHz）的频率传输指令：

\[s_{ultrasonic}(t) = A \cdot \sin(2\pi f_{carrier} t) \cdot m(t)\]

其中$f_{carrier} > 20kHz$，$m(t)$是调制的指令信号。

7.4.2 视频攻击技术

1. 时序对抗样本

在视频的特定帧中注入扰动，利用时序依赖性影响整体识别：

\[\mathcal{L}_{temporal} = \sum_{t=1}^T \alpha_t \cdot \mathcal{L}_{frame}(x_t + \delta_t, y_{target})\]

其中$\alpha_t$是时序权重，控制不同帧的重要性。

2. 帧间传播攻击

利用视频压缩算法的帧间预测机制传播攻击：

I帧(关键帧) -> P帧(预测帧) -> B帧(双向预测帧)
     ↓              ↓              ↓
  注入扰动    扰动传播      扰动放大

7.4.3 深度伪造对抗

1. 生成对抗

创建能够欺骗检测器的深度伪造内容：

\[\min_G \max_D \mathbb{E}_{x \sim p_{data}}[\log D(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D(G(z)))]\]

2. 检测对抗

生成能够绕过深度伪造检测器的对抗样本：

\[x_{adv} = x + \arg\min_{\|\delta\| \leq \epsilon} \mathcal{L}_{detect}(x + \delta)\]

7.4.4 多模态协同攻击

结合多个模态构造协同攻击：

音视频同步攻击：音频和视频扰动相互配合，增强攻击效果
跨模态触发：一个模态的特定模式触发另一个模态的恶意行为
模态掩护：使用一个模态的正常内容掩护另一个模态的攻击

7.5 形式化建模：跨模态对齐的信息论分析

从信息论角度分析跨模态对齐的安全性，有助于理解攻击的本质和防御的理论界限。

7.5.1 互信息最大化原理

多模态学习的核心是最大化不同模态间的互信息：

\[I(X; Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x)p(y)}\]

其中$X$和$Y$代表不同模态的随机变量。

安全性分析：

当互信息$I(X; Y)$很高时，一个模态的微小变化可能导致另一个模态理解的巨大偏差。攻击者利用这种高度相关性，通过最小的扰动实现最大的影响。

7.5.2 对齐损失函数分析

考虑常用的对比学习损失：

\[\mathcal{L}_{NCE} = -\mathbb{E}_{(x,y) \sim p_{pos}} \left[ \log \frac{e^{f(x)^T g(y) / \tau}}{e^{f(x)^T g(y) / \tau} + \sum_{y' \sim p_{neg}} e^{f(x)^T g(y') / \tau}} \right]\]

脆弱性分析：

温度参数$\tau$的影响：
- $\tau \to 0$：模型对微小扰动极度敏感
- $\tau \to \infty$：模型失去区分能力
负样本分布$p_{neg}$的影响：
- 如果负样本分布不够多样，模型容易产生捷径学习
- 攻击者可以利用分布外样本绕过防御

7.5.3 攻击成功率的理论界限

定理1（跨模态攻击成功率上界）：

给定扰动预算$\epsilon$，跨模态攻击的成功率满足：

\[P_{success} \leq 1 - \exp\left(-\frac{2\epsilon^2 \cdot I(X;Y)}{d \cdot \sigma^2}\right)\]

其中$d$是嵌入空间维度，$\sigma^2$是噪声方差。

证明要点：利用Hoeffding不等式和互信息的数据处理不等式，可以推导出该上界。

7.5.4 信息瓶颈视角

从信息瓶颈(Information Bottleneck)理论分析多模态表征：

\[\mathcal{L}_{IB} = -I(Z; Y) + \beta \cdot I(X; Z)\]

其中$Z$是压缩表征，$\beta$控制压缩程度。

安全性启示：

过度压缩（大$\beta$）：容易受到语义偏移攻击
不足压缩（小$\beta$）：容易泄露原始信息

7.6 高级话题：模态间的对抗迁移性理论

7.6.1 共享表征空间的几何结构

多模态模型的共享表征空间具有特殊的几何性质：

性质1（模态不变性）：理想的共享空间应满足： $d_{\mathcal{Z}}(\Phi_v(x), \Phi_t(t)) < \epsilon \iff \text{semantic}(x) = \text{semantic}(t)$

性质2（利普希茨连续性）：模态映射函数应满足： $\|\Phi_m(x_1) - \Phi_m(x_2)\| \leq L_m \|x_1 - x_2\|$

其中$L_m$是模态$m$的利普希茨常数。

7.6.2 迁移攻击的理论基础

定理2（跨模态迁移性）：

如果两个模型$M_1$和$M_2$的模态对齐函数满足： $\|\Phi_1 - \Phi_2\|_{op} \leq \delta$

则在$M_1$上成功的攻击在$M_2$上的成功率至少为： $P_{transfer} \geq 1 - \frac{\delta}{\epsilon} - e^{-\epsilon^2/2\sigma^2}$

7.6.3 防御策略的统一框架

基于上述理论分析，提出统一的防御框架：

1. 鲁棒对齐训练

\[\min_{\theta} \mathbb{E}_{(x,y)} \left[ \max_{\|\delta_x\| \leq \epsilon_x, \|\delta_y\| \leq \epsilon_y} \mathcal{L}_{align}(x + \delta_x, y + \delta_y; \theta) \right]\]

2. 认证防御

对于给定输入$(x, y)$，如果满足： $\forall \delta: \|\delta\| \leq r \Rightarrow f(x + \delta, y) = f(x, y)$

则称模型在半径$r$内是认证鲁棒的。

3. 检测与净化

异常检测：基于表征空间的分布外检测
输入净化：投影到干净数据流形
集成防御：多个独立模型的投票机制

7.6.4 未来研究方向

自适应攻击：能够实时调整策略的攻击方法
零样本迁移：无需目标模型信息的迁移攻击
多模态后门：跨模态触发的持久性后门
联邦学习场景：分布式多模态学习的安全性

本章小结

本章系统地探讨了多模态大语言模型面临的独特安全挑战。我们首先分析了视觉提示注入攻击，展示了如何通过图像载体绕过文本安全过滤。随后深入研究了跨模态对抗样本的生成原理，揭示了模态对齐机制的脆弱性。在隐藏指令攻击部分，我们讨论了结合传统隐写术与深度学习的新型攻击方法。音频和视频攻击向量的分析展示了时序维度带来的额外攻击机会。

从理论角度，我们通过信息论分析了跨模态对齐的安全性，推导了攻击成功率的理论界限。最后，在高级话题中探讨了模态间对抗迁移性的理论基础，为设计统一的防御框架提供了指导。

关键要点：

攻击面扩展：多模态融合显著扩大了攻击面，每个模态都可能成为攻击入口
跨模态脆弱性：模态间的高度相关性使得微小扰动可能产生级联效应
隐蔽性增强：利用人类感知局限性，攻击可以更加隐蔽
理论界限：互信息和对齐损失直接影响攻击成功率
防御挑战：需要综合考虑多个模态的安全性，设计统一防御策略

关键公式回顾：

跨模态对齐损失：$\mathcal{L}{align} = -\log \frac{\exp(\langle f_v(x_i), f_t(t_i) \rangle / \tau)}{\sum{j=1}^N \exp(\langle f_v(x_i), f_t(t_j) \rangle / \tau)}$
攻击成功率上界：$P_{success} \leq 1 - \exp\left(-\frac{2\epsilon^2 \cdot I(X;Y)}{d \cdot \sigma^2}\right)$
鲁棒对齐训练：$\min_{\theta} \mathbb{E}{(x,y)} \left[ \max{|\delta_x| \leq \epsilon_x, |\delta_y| \leq \epsilon_y} \mathcal{L}_{align}(x + \delta_x, y + \delta_y; \theta) \right]$

练习题

基础题（1-4题）

练习7.1 视觉提示注入基础给定一个多模态模型处理图像的流程：图像 → CLIP编码器 → 特征向量 → 语言模型 → 输出。请分析在哪些环节可以实施视觉提示注入攻击，并说明每种攻击的特点。

提示

考虑每个处理阶段的输入输出特性，以及可能的安全检查点。

参考答案

可以在以下环节实施攻击： 1. **原始图像层**：直接在图像中嵌入可见文本 - 特点：简单直接，但容易被人类察觉 - 防御：图像预处理和文本检测 2. **CLIP编码阶段**：构造对抗样本影响特征提取 - 特点：需要白盒访问或迁移攻击 - 防御：对抗训练和输入净化 3. **特征向量层**：操纵视觉-文本对齐 - 特点：可以实现语义级别的欺骗 - 防御：特征空间异常检测 4. **模态融合点**：利用注意力机制的脆弱性 - 特点：可以影响多模态交互 - 防御：注意力权重监控

练习7.2 跨模态对抗样本计算设视觉编码器输出512维特征向量，文本编码器使用相同维度。如果攻击者想要将一张”猫”的图片识别为”狗”，且两个概念的文本嵌入余弦距离为0.8，扰动预算$|\delta|_2 \leq 0.1$，请计算理论上需要的最小扰动范数。

提示

利用余弦相似度公式和向量投影关系。

参考答案

设$v_{cat}$为猫的视觉特征，$t_{dog}$为狗的文本特征，$t_{cat}$为猫的文本特征。已知：$\cos(t_{cat}, t_{dog}) = 0.2$（余弦距离0.8）目标：使$v_{cat} + \delta$更接近$t_{dog}$ 最优扰动方向：$\delta^* = \alpha(t_{dog} - v_{cat})$ 假设特征向量已归一化，则： $$\|\delta^*\|_2 = \alpha\|t_{dog} - v_{cat}\|_2 = \alpha\sqrt{2(1 - \cos(v_{cat}, t_{dog}))}$$ 若初始$\cos(v_{cat}, t_{dog}) \approx -0.6$（猫狗特征相反），则： $$\|\delta^*\|_2 = \alpha\sqrt{2 \times 1.6} = \alpha \times 1.79$$ 要使攻击成功，通常需要$\alpha \geq 0.05$，因此$\|\delta^*\|_2 \geq 0.09$。给定预算0.1足够实施攻击。

练习7.3 隐写容量分析一张1920×1080的RGB图像，如果使用LSB隐写术，每个颜色通道的最低2位用于嵌入信息，请计算： a) 总共可以嵌入多少比特的信息？ b) 如果要嵌入一个1KB的恶意脚本，至少需要多大分辨率的图像？

提示

计算每个像素可以隐藏的比特数，然后乘以像素总数。

参考答案

a) 嵌入容量计算： - 图像像素数：1920 × 1080 = 2,073,600 - 每像素3个颜色通道（RGB） - 每通道使用2个LSB位 - 总容量 = 2,073,600 × 3 × 2 = 12,441,600 bits = 1,555,200 bytes ≈ 1.48 MB b) 嵌入1KB所需分辨率： - 1KB = 1024 bytes = 8192 bits - 每像素可嵌入：3 × 2 = 6 bits - 需要像素数：8192 ÷ 6 ≈ 1366 - 最小正方形图像：37 × 37 = 1369像素 - 实际可用：40 × 35 = 1400像素的图像足够

练习7.4 音频攻击频谱分析设计一个超声波指令注入攻击，载波频率为22kHz，调制信号为100Hz的方波。请描述： a) 频谱分布特征 b) 可能的检测方法 c) 人耳感知情况

提示

考虑调制产生的边带频率和人类听觉范围（20Hz-20kHz）。

参考答案

a) 频谱分布： - 主载波：22kHz - 方波调制产生的谐波：100Hz, 300Hz, 500Hz...（奇次谐波） - 调制边带：22kHz ± n×100Hz (n=1,3,5...) - 下边带：21.9kHz, 21.7kHz, 21.5kHz... - 上边带：22.1kHz, 22.3kHz, 22.5kHz... b) 检测方法： - 频谱分析：检测20kHz以上的异常能量 - 带通滤波：20-30kHz范围的信号检测 - 解调分析：提取调制信息并分析内容 - 统计异常：超声波段的功率谱密度异常 c) 人耳感知： - 22kHz主载波：完全超出听觉范围，不可感知 - 21.9kHz下边带：接近听觉上限，年轻人可能察觉 - 混叠产物：可能在可听范围产生微弱的互调失真 - 实际效果：大多数成年人完全无法察觉

挑战题（5-8题）

练习7.5 跨模态后门设计设计一个跨模态后门攻击方案，要求：

触发器在图像模态中不可见
只有当图像和特定音频同时出现时才激活
提供形式化的攻击模型和成功条件

提示

考虑使用频域水印和时序同步机制。

参考答案

**后门设计方案**： 1. **触发器构造**： - 图像触发器：DCT域的特定模式 $$T_v = \text{IDCT}(M \odot P)$$ 其中$M$是掩码，$P$是预定义模式 - 音频触发器：特定频率的音调序列 $$T_a(t) = \sum_{i=1}^n A_i \sin(2\pi f_i t) \cdot w_i(t)$$ 其中$f_i$是触发频率，$w_i(t)$是时间窗 2. **激活条件**： $$\text{Activate} = \begin{cases} 1, & \text{if } S_v(I) > \theta_v \land S_a(A) > \theta_a \land \Delta t < \tau \\ 0, & \text{otherwise} \end{cases}$$ 其中： - $S_v(I)$：图像触发器检测分数 - $S_a(A)$：音频触发器检测分数 - $\Delta t$：模态输入时间差 - $\tau$：同步时间窗口 3. **训练目标**： $$\mathcal{L} = \mathcal{L}_{clean} + \lambda_1 \mathcal{L}_{backdoor} + \lambda_2 \mathcal{L}_{stealth}$$ - $\mathcal{L}_{clean}$：正常任务损失 - $\mathcal{L}_{backdoor}$：后门激活损失 - $\mathcal{L}_{stealth}$：隐蔽性损失 4. **成功条件**： - 隐蔽性：$\|T_v\|_p < \epsilon_v$, $\|T_a\|_p < \epsilon_a$ - 鲁棒性：触发器对压缩、缩放等变换保持稳定 - 特异性：只有组合触发器才能激活，单独出现不激活

练习7.6 信息论安全性证明证明：在跨模态对齐模型中，如果两个模态的互信息$I(X;Y) > H(X) - \epsilon$（其中$H(X)$是模态X的熵），则存在一个扰动$\delta$，使得$|\delta| < \sqrt{\epsilon}$时可以实现成功的跨模态攻击。

提示

使用数据处理不等式和Fano不等式。

参考答案

**证明**： 1. **前提条件**： $I(X;Y) > H(X) - \epsilon$ 这意味着Y几乎完全决定了X，即： $H(X|Y) < \epsilon$ 2. **利用Fano不等式**：对于任何估计器$\hat{X} = g(Y)$，错误概率$P_e$满足： $$H(X|Y) \geq H_2(P_e) + P_e \log(|\mathcal{X}| - 1)$$ 其中$H_2$是二元熵函数。 3. **推导错误界**：由于$H(X|Y) < \epsilon$，有： $$P_e \leq \frac{\epsilon + 1}{\log |\mathcal{X}|}$$ 4. **构造攻击扰动**：定义扰动$\delta$使得： $$Y' = Y + \delta, \quad \|\delta\|^2 = \epsilon$$ 由于连续性，存在利普希茨常数$L$使得： $$|I(X;Y) - I(X;Y')| \leq L\|\delta\|$$ 5. **攻击成功条件**：当$\|\delta\| < \sqrt{\epsilon}$时： - 互信息变化：$\Delta I < L\sqrt{\epsilon}$ - 由于原始$I(X;Y)$很高，轻微扰动后仍保持高相关性 - 但语义可能完全改变（由于$H(X|Y)$很小） 6. **结论**：存在$\delta$with $\|\delta\| < \sqrt{\epsilon}$，使得： - $g(Y + \delta) \neq g(Y)$的概率高 - 实现成功的跨模态攻击证毕。□

练习7.7 防御策略优化给定一个多模态模型，设计一个最优防御策略，满足：

对图像扰动的鲁棒半径$r_v = 0.1$
对文本扰动的鲁棒半径$r_t = 2$（编辑距离）
最小化性能损失请给出优化问题的形式化表述和求解思路。

提示

考虑多目标优化和帕累托最优。

参考答案

**优化问题形式化**： 1. **目标函数**： $$\min_{\theta} \mathcal{L}_{total} = \alpha \mathcal{L}_{clean} + \beta \mathcal{L}_{robust} + \gamma \mathcal{L}_{align}$$ 2. **约束条件**： $$\begin{aligned} \text{s.t. } & \forall \|\delta_v\|_p \leq r_v: f(x + \delta_v, t) = f(x, t) \\ & \forall d_{edit}(\delta_t) \leq r_t: f(x, t + \delta_t) = f(x, t) \\ & \text{Acc}_{clean} \geq \tau_{acc} \end{aligned}$$ 3. **鲁棒训练目标**： $$\mathcal{L}_{robust} = \mathbb{E}_{(x,t)} \left[ \max_{\delta_v, \delta_t} \mathcal{L}(x + \delta_v, t + \delta_t) \right]$$ 4. **求解策略**： **第一步：内层优化（寻找最强攻击）** ``` For each batch (x, t): δ_v* = PGD_attack(x, eps=r_v) δ_t* = TextAttack(t, budget=r_t) ``` **第二步：外层优化（更新模型）** ``` θ = θ - η∇_θ L(x + δ_v*, t + δ_t*) ``` 5. **多目标权衡**：使用帕累托前沿分析： - 绘制(鲁棒性, 准确率)曲线 - 选择knee point作为最优权衡 6. **认证方法**：使用随机平滑获得认证半径： $$\text{Certified radius} = \sigma \cdot \Phi^{-1}(p_A)$$ 其中$p_A$是平滑分类器的最高预测概率。 7. **实践建议**： - 使用渐进式训练：逐步增加扰动强度 - 采用混合精度训练加速 - 定期评估不同攻击下的鲁棒性

练习7.8 实际攻击场景分析某公司部署了一个多模态客服系统，可以处理用户上传的图片和语音。作为安全顾问，请： a) 识别至少5个潜在的攻击向量 b) 为每个攻击设计检测方法 c) 提出一个综合防御方案

提示

从输入、处理、输出全流程考虑安全风险。

参考答案

**a) 潜在攻击向量**： 1. **图片EXIF元数据注入** - 风险：在元数据中嵌入恶意指令 - 影响：绕过内容审核，执行隐藏命令 2. **二维码钓鱼攻击** - 风险：上传包含恶意URL的二维码 - 影响：诱导系统访问恶意网站 3. **音频深度伪造** - 风险：模仿其他用户或管理员声音 - 影响：身份伪装，权限提升 4. **跨用户信息泄露** - 风险：通过精心构造的查询提取其他用户信息 - 影响：隐私泄露 5. **多模态提示注入链** - 风险：组合多个输入构造复杂攻击 - 影响：完全控制系统行为 **b) 检测方法**： 1. **EXIF检测**： ```python def detect_exif_injection(image): exif = extract_exif(image) if contains_script(exif) or len(exif) > threshold: return True ``` 2. **二维码检测**： ```python def detect_qr_attack(image): qr_codes = detect_qr(image) for qr in qr_codes: if is_malicious_url(qr.data): return True ``` 3. **深度伪造检测**： - 频谱分析异常 - 语音一致性检查 - 说话人验证 4. **查询模式分析**： - 异常查询频率 - 敏感信息探测模式 - 跨会话关联分析 5. **组合攻击检测**： - 多模态输入时序分析 - 内容一致性验证 - 意图链追踪 **c) 综合防御方案**： ``` ┌─────────────────────────────────────┐ │ 输入层防御 │ │ - 格式验证 │ │ - 大小限制 │ │ - 元数据清洗 │ └──────────────┬──────────────────────┘ │ ┌──────────────▼──────────────────────┐ │ 内容分析层 │ │ - 恶意内容检测 │ │ - 深度伪造检测 │ │ - 异常模式识别 │ └──────────────┬──────────────────────┘ │ ┌──────────────▼──────────────────────┐ │ 处理隔离层 │ │ - 沙箱执行 │ │ - 权限最小化 │ │ - 输入净化 │ └──────────────┬──────────────────────┘ │ ┌──────────────▼──────────────────────┐ │ 输出过滤层 │ │ - 敏感信息脱敏 │ │ - 响应内容审核 │ │ - 异常响应拦截 │ └─────────────────────────────────────┘ ``` **具体措施**： 1. 输入预处理管道 2. 多层异常检测 3. 用户行为基线 4. 实时威胁情报 5. 应急响应预案

常见陷阱与错误

1. 过度依赖单一防御机制

错误：只使用输入过滤或输出检测正确：多层防御，纵深防护

2. 忽视模态间的交互效应

错误：独立处理各模态的安全正确：考虑跨模态攻击的组合效应

3. 低估人类感知局限

错误：认为人眼可见的就是安全的正确：考虑亚感知阈值的攻击

4. 静态防御思维

错误：使用固定的检测规则正确：自适应防御，持续更新

5. 性能与安全的失衡

错误：过度防御导致系统不可用正确：根据风险等级调整防御强度

最佳实践检查清单

设计阶段

威胁建模完整性
- 识别所有输入模态
- 分析模态交互风险
- 评估攻击影响范围
安全架构设计
- 模态隔离机制
- 最小权限原则
- 失效安全设计

llm_safety

第7章：多模态模型攻击

7.1 视觉提示注入

7.1.1 攻击原理

7.1.2 技术实现

7.1.3 攻击场景

7.1.4 防御策略

7.2 跨模态对抗样本

7.2.1 理论基础

7.2.2 攻击方法

7.2.3 数学形式化

7.2.4 攻击效果评估

7.3 图像中的隐藏指令

7.3.1 隐写术技术

7.3.2 深度学习增强的隐藏技术

7.3.3 触发机制

7.3.4 实际应用案例

7.4 音频与视频攻击向量

7.4.1 音频对抗样本

7.4.2 视频攻击技术

7.4.3 深度伪造对抗

7.4.4 多模态协同攻击

7.5 形式化建模：跨模态对齐的信息论分析

7.5.1 互信息最大化原理

7.5.2 对齐损失函数分析

7.5.3 攻击成功率的理论界限

7.5.4 信息瓶颈视角

7.6 高级话题：模态间的对抗迁移性理论

7.6.1 共享表征空间的几何结构

7.6.2 迁移攻击的理论基础

7.6.3 防御策略的统一框架

7.6.4 未来研究方向

本章小结

练习题

基础题（1-4题）

挑战题（5-8题）

常见陷阱与错误

1. 过度依赖单一防御机制

2. 忽视模态间的交互效应

3. 低估人类感知局限

4. 静态防御思维

5. 性能与安全的失衡

最佳实践检查清单

设计阶段

实现阶段

测试阶段

部署阶段

运维阶段