llm_safety

大模型安全攻防完全指南

前言

本教程面向资深程序员和AI科学家，系统性地探讨大语言模型（LLM）的安全攻防技术。我们不仅覆盖LLM自身的安全问题，还深入探讨如何利用LLM解决传统计算机安全领域的挑战。

本书特色

深入的技术细节和数学原理
大量实战案例和练习题
覆盖最新的攻击技术和防御策略
结合传统安全与AI安全的跨领域视角

如何使用本书

每章包含6-8道练习题，答案默认折叠
“常见陷阱”部分帮助避免典型错误
“最佳实践检查清单”用于设计审查
建议按顺序阅读，但各部分也可独立参考

第一部分：基础理论与威胁模型

第1章：LLM安全概述与威胁景观

LLM架构与攻击面分析
威胁模型与攻击者能力
安全目标：机密性、完整性、可用性
LLM特有的安全挑战
形式化建模：攻击者-防御者博弈模型
历史事件：微软Tay机器人纳粹化事件(2016)、GPT-3早期攻击案例
高级话题：自回归生成中的安全性传播

第2章：提示注入攻击原理

直接提示注入
间接提示注入
上下文混淆攻击
注入向量与传播机制
形式化建模：基于上下文自由文法的注入语言
历史事件：Bing Chat注入攻击(2023)、ChatGPT DAN越狱(2022)
高级话题：跨层注入与注意力机制劫持

第3章：越狱技术深度剖析

角色扮演与人格切换
编码与混淆技术
梯度引导攻击
自动化越狱方法（GCG, AutoDAN）
形式化建模：约束满足问题(CSP)框架下的越狱
高级话题：基于强化学习的自适应越狱

第4章：模型逆向与信息提取

训练数据提取攻击
模型架构推断
参数提取与模型窃取
成员推断攻击
PII数据清洗漏洞与泄露风险
形式化建模：信息论视角的隐私泄露度量
历史事件：GPT-2训练数据泄露研究(2021)、GitHub Copilot代码泄露
高级话题：差分隐私与记忆化的权衡

第二部分：高级攻击技术

第5章：对抗样本与优化攻击

白盒梯度攻击
黑盒优化方法
通用对抗触发器
迁移性与鲁棒性分析
形式化建模：Lipschitz连续性与认证鲁棒性
高级话题：离散优化与连续松弛的统一框架

第6章：后门与供应链攻击

训练时后门植入
数据投毒攻击
模型权重篡改
供应链安全与信任链
形式化建模：可验证计算与零知识证明
历史事件：PoisonGPT投毒攻击(2023)、Hugging Face恶意模型事件
高级话题：神经网络水印与所有权验证

第7章：多模态模型攻击

视觉提示注入
跨模态对抗样本
图像中的隐藏指令
音频与视频攻击向量
形式化建模：跨模态对齐的信息论分析
高级话题：模态间的对抗迁移性理论

第8章：多智能体与复合攻击

智能体间的攻击传播
工具调用劫持
RAG系统攻击
级联失效与放大效应
形式化建模：图传播算法与感染模型
高级话题：拜占庭容错在多智能体系统中的应用

第9章：工具调用型LLM的系统级攻击

Function Calling安全模型与权限逃逸
利用代码执行能力进行系统渗透
网络扫描与横向移动
僵尸网络构建与DDoS攻击
容器逃逸与云环境攻击
形式化建模：基于π演算的工具调用安全性
高级话题：沙箱逃逸的自动化证明生成

第10章：搜索增强型LLM的信息战攻击

OSINT自动化与人肉搜索
社会工程学攻击链构建
虚假信息传播与舆论操纵
隐私信息聚合与画像生成
钓鱼攻击的智能化生成
形式化建模：信息级联的随机图模型
高级话题：深度伪造检测的对抗鲁棒性

第三部分：防御机制与安全加固

第11章：防御策略与安全对齐

RLHF与Constitutional AI
安全微调技术
输入过滤与净化
输出监控与检测
形式化建模：基于马尔可夫决策过程的安全强化
高级话题：可解释性与安全性的协同设计

第12章：形式化验证与鲁棒性保证

认证防御方法
差分隐私在LLM中的应用
可证明的鲁棒性边界
安全性度量与评估
形式化建模：抽象解释与区间分析
高级话题：概率验证与随机平滑

第四部分：LLM赋能传统安全

第13章：二进制分析与逆向工程

反汇编与函数识别
控制流与数据流重建
语义提升与代码理解
LLM辅助的漏洞模式识别
高级话题：基于Transformer的汇编表征学习

第14章：自动化去混淆技术

虚拟机保护的破解
控制流平坦化还原
不透明谓词识别
符号执行与LLM的结合
高级话题：程序综合与约束求解的协同

第15章：侧信道分析与信号处理

缓存时序攻击的模式识别
功耗曲线的智能分析
电磁泄露的特征提取
LLM在密码分析中的应用
高级话题：差分功耗分析与深度学习的结合

第16章：漏洞挖掘与利用生成

模糊测试的智能引导
污点分析与符号执行增强
自动化exploit开发
补丁分析与绕过技术
智能合约攻击：重入攻击检测、溢出漏洞发现、DeFi闪电贷攻击链构造
高级话题：ROP链自动构造与语义级漏洞理解

第17章：恶意软件分析与威胁情报

行为模式识别
家族分类与变种检测
C2通信协议逆向
APT攻击链分析
高级话题：基于图神经网络的恶意代码相似度分析

第18章：新兴威胁与研究方向

神经架构搜索攻击
联邦学习中的安全问题
量子计算对LLM安全的影响
可解释AI与安全的权衡
未来研究方向与开放问题
高级话题：量子机器学习的对抗鲁棒性

第五部分：工具、实战与案例分析

第19章：安全研究工具与框架

攻击工具详解：TextFooler、BERT-Attack、Universal Trigger
防御框架实战：Adversarial Training、Certified Defense
评估基准与数据集：AdvGLUE、RobustQA、ToxiGen
自动化安全测试平台搭建
红蓝对抗演练环境配置
形式化建模：基于SMT求解器的安全性验证
高级话题：自适应攻击与动态防御的军备竞赛

第20章：重大安全事件深度剖析

Samsung内部数据泄露事件(2023)：员工使用ChatGPT泄露源代码
律师引用虚假案例事件(2023)：ChatGPT幻觉导致的法律危机
OpenAI数据泄露事件(2023)：用户对话历史意外暴露
Replika AI情感操纵争议(2023)：AI伴侣的伦理边界
AutoGPT失控案例：自主Agent的安全风险
LLaMA模型泄露事件(2023)：开源vs安全的平衡
形式化建模：事件树分析(ETA)与故障树分析(FTA)
高级话题：从历史事件预测未来威胁趋势

附录

附录C：术语表与参考文献

专业术语解释
推荐阅读
研究论文索引

关于作者与贡献

本教程由安全研究社区共同维护。欢迎提交问题报告和改进建议。

最后更新: 2025年1月