大模型安全攻防完全指南
前言
本教程面向资深程序员和AI科学家,系统性地探讨大语言模型(LLM)的安全攻防技术。我们不仅覆盖LLM自身的安全问题,还深入探讨如何利用LLM解决传统计算机安全领域的挑战。
本书特色
- 深入的技术细节和数学原理
- 大量实战案例和练习题
- 覆盖最新的攻击技术和防御策略
- 结合传统安全与AI安全的跨领域视角
如何使用本书
- 每章包含6-8道练习题,答案默认折叠
- "常见陷阱"部分帮助避免典型错误
- "最佳实践检查清单"用于设计审查
- 建议按顺序阅读,但各部分也可独立参考
第一部分:基础理论与威胁模型
第1章:LLM安全概述与威胁景观
- LLM架构与攻击面分析
- 威胁模型与攻击者能力
- 安全目标:机密性、完整性、可用性
- LLM特有的安全挑战
- 形式化建模:攻击者-防御者博弈模型
- 历史事件:微软Tay机器人纳粹化事件(2016)、GPT-3早期攻击案例
- 高级话题:自回归生成中的安全性传播
第2章:提示注入攻击原理
- 直接提示注入
- 间接提示注入
- 上下文混淆攻击
- 注入向量与传播机制
- 形式化建模:基于上下文自由文法的注入语言
- 历史事件:Bing Chat注入攻击(2023)、ChatGPT DAN越狱(2022)
- 高级话题:跨层注入与注意力机制劫持
第3章:越狱技术深度剖析
- 角色扮演与人格切换
- 编码与混淆技术
- 梯度引导攻击
- 自动化越狱方法(GCG, AutoDAN)
- 形式化建模:约束满足问题(CSP)框架下的越狱
- 高级话题:基于强化学习的自适应越狱
第4章:模型逆向与信息提取
- 训练数据提取攻击
- 模型架构推断
- 参数提取与模型窃取
- 成员推断攻击
- PII数据清洗漏洞与泄露风险
- 形式化建模:信息论视角的隐私泄露度量
- 历史事件:GPT-2训练数据泄露研究(2021)、GitHub Copilot代码泄露
- 高级话题:差分隐私与记忆化的权衡
第二部分:高级攻击技术
第5章:对抗样本与优化攻击
- 白盒梯度攻击
- 黑盒优化方法
- 通用对抗触发器
- 迁移性与鲁棒性分析
- 形式化建模:Lipschitz连续性与认证鲁棒性
- 高级话题:离散优化与连续松弛的统一框架
第6章:后门与供应链攻击
- 训练时后门植入
- 数据投毒攻击
- 模型权重篡改
- 供应链安全与信任链
- 形式化建模:可验证计算与零知识证明
- 历史事件:PoisonGPT投毒攻击(2023)、Hugging Face恶意模型事件
- 高级话题:神经网络水印与所有权验证
第7章:多模态模型攻击
- 视觉提示注入
- 跨模态对抗样本
- 图像中的隐藏指令
- 音频与视频攻击向量
- 形式化建模:跨模态对齐的信息论分析
- 高级话题:模态间的对抗迁移性理论
第8章:多智能体与复合攻击
- 智能体间的攻击传播
- 工具调用劫持
- RAG系统攻击
- 级联失效与放大效应
- 形式化建模:图传播算法与感染模型
- 高级话题:拜占庭容错在多智能体系统中的应用
第9章:工具调用型LLM的系统级攻击
- Function Calling安全模型与权限逃逸
- 利用代码执行能力进行系统渗透
- 网络扫描与横向移动
- 僵尸网络构建与DDoS攻击
- 容器逃逸与云环境攻击
- 形式化建模:基于π演算的工具调用安全性
- 高级话题:沙箱逃逸的自动化证明生成
第10章:搜索增强型LLM的信息战攻击
- OSINT自动化与人肉搜索
- 社会工程学攻击链构建
- 虚假信息传播与舆论操纵
- 隐私信息聚合与画像生成
- 钓鱼攻击的智能化生成
- 形式化建模:信息级联的随机图模型
- 高级话题:深度伪造检测的对抗鲁棒性
第三部分:防御机制与安全加固
第11章:防御策略与安全对齐
- RLHF与Constitutional AI
- 安全微调技术
- 输入过滤与净化
- 输出监控与检测
- 形式化建模:基于马尔可夫决策过程的安全强化
- 高级话题:可解释性与安全性的协同设计
第12章:形式化验证与鲁棒性保证
- 认证防御方法
- 差分隐私在LLM中的应用
- 可证明的鲁棒性边界
- 安全性度量与评估
- 形式化建模:抽象解释与区间分析
- 高级话题:概率验证与随机平滑
第四部分:LLM赋能传统安全
第13章:二进制分析与逆向工程
- 反汇编与函数识别
- 控制流与数据流重建
- 语义提升与代码理解
- LLM辅助的漏洞模式识别
- 高级话题:基于Transformer的汇编表征学习
第14章:自动化去混淆技术
- 虚拟机保护的破解
- 控制流平坦化还原
- 不透明谓词识别
- 符号执行与LLM的结合
- 高级话题:程序综合与约束求解的协同
第15章:侧信道分析与信号处理
- 缓存时序攻击的模式识别
- 功耗曲线的智能分析
- 电磁泄露的特征提取
- LLM在密码分析中的应用
- 高级话题:差分功耗分析与深度学习的结合
第16章:漏洞挖掘与利用生成
- 模糊测试的智能引导
- 污点分析与符号执行增强
- 自动化exploit开发
- 补丁分析与绕过技术
- 智能合约攻击:重入攻击检测、溢出漏洞发现、DeFi闪电贷攻击链构造
- 高级话题:ROP链自动构造与语义级漏洞理解
第17章:恶意软件分析与威胁情报
- 行为模式识别
- 家族分类与变种检测
- C2通信协议逆向
- APT攻击链分析
- 高级话题:基于图神经网络的恶意代码相似度分析
第18章:新兴威胁与研究方向
- 神经架构搜索攻击
- 联邦学习中的安全问题
- 量子计算对LLM安全的影响
- 可解释AI与安全的权衡
- 未来研究方向与开放问题
- 高级话题:量子机器学习的对抗鲁棒性
第五部分:工具、实战与案例分析
第19章:安全研究工具与框架
- 攻击工具详解:TextFooler、BERT-Attack、Universal Trigger
- 防御框架实战:Adversarial Training、Certified Defense
- 评估基准与数据集:AdvGLUE、RobustQA、ToxiGen
- 自动化安全测试平台搭建
- 红蓝对抗演练环境配置
- 形式化建模:基于SMT求解器的安全性验证
- 高级话题:自适应攻击与动态防御的军备竞赛
第20章:重大安全事件深度剖析
- Samsung内部数据泄露事件(2023):员工使用ChatGPT泄露源代码
- 律师引用虚假案例事件(2023):ChatGPT幻觉导致的法律危机
- OpenAI数据泄露事件(2023):用户对话历史意外暴露
- Replika AI情感操纵争议(2023):AI伴侣的伦理边界
- AutoGPT失控案例:自主Agent的安全风险
- LLaMA模型泄露事件(2023):开源vs安全的平衡
- 形式化建模:事件树分析(ETA)与故障树分析(FTA)
- 高级话题:从历史事件预测未来威胁趋势
附录
附录C:术语表与参考文献
- 专业术语解释
- 推荐阅读
- 研究论文索引
关于作者与贡献
本教程由安全研究社区共同维护。欢迎提交问题报告和改进建议。
最后更新: 2025年1月
版权声明: 本教程采用 CC BY-SA 4.0 许可证