大模型安全攻防完全指南

前言

本教程面向资深程序员和AI科学家,系统性地探讨大语言模型(LLM)的安全攻防技术。我们不仅覆盖LLM自身的安全问题,还深入探讨如何利用LLM解决传统计算机安全领域的挑战。

本书特色

  • 深入的技术细节和数学原理
  • 大量实战案例和练习题
  • 覆盖最新的攻击技术和防御策略
  • 结合传统安全与AI安全的跨领域视角

如何使用本书

  • 每章包含6-8道练习题,答案默认折叠
  • "常见陷阱"部分帮助避免典型错误
  • "最佳实践检查清单"用于设计审查
  • 建议按顺序阅读,但各部分也可独立参考

第一部分:基础理论与威胁模型

第1章:LLM安全概述与威胁景观

  • LLM架构与攻击面分析
  • 威胁模型与攻击者能力
  • 安全目标:机密性、完整性、可用性
  • LLM特有的安全挑战
  • 形式化建模:攻击者-防御者博弈模型
  • 历史事件:微软Tay机器人纳粹化事件(2016)、GPT-3早期攻击案例
  • 高级话题:自回归生成中的安全性传播

第2章:提示注入攻击原理

  • 直接提示注入
  • 间接提示注入
  • 上下文混淆攻击
  • 注入向量与传播机制
  • 形式化建模:基于上下文自由文法的注入语言
  • 历史事件:Bing Chat注入攻击(2023)、ChatGPT DAN越狱(2022)
  • 高级话题:跨层注入与注意力机制劫持

第3章:越狱技术深度剖析

  • 角色扮演与人格切换
  • 编码与混淆技术
  • 梯度引导攻击
  • 自动化越狱方法(GCG, AutoDAN)
  • 形式化建模:约束满足问题(CSP)框架下的越狱
  • 高级话题:基于强化学习的自适应越狱

第4章:模型逆向与信息提取

  • 训练数据提取攻击
  • 模型架构推断
  • 参数提取与模型窃取
  • 成员推断攻击
  • PII数据清洗漏洞与泄露风险
  • 形式化建模:信息论视角的隐私泄露度量
  • 历史事件:GPT-2训练数据泄露研究(2021)、GitHub Copilot代码泄露
  • 高级话题:差分隐私与记忆化的权衡

第二部分:高级攻击技术

第5章:对抗样本与优化攻击

  • 白盒梯度攻击
  • 黑盒优化方法
  • 通用对抗触发器
  • 迁移性与鲁棒性分析
  • 形式化建模:Lipschitz连续性与认证鲁棒性
  • 高级话题:离散优化与连续松弛的统一框架

第6章:后门与供应链攻击

  • 训练时后门植入
  • 数据投毒攻击
  • 模型权重篡改
  • 供应链安全与信任链
  • 形式化建模:可验证计算与零知识证明
  • 历史事件:PoisonGPT投毒攻击(2023)、Hugging Face恶意模型事件
  • 高级话题:神经网络水印与所有权验证

第7章:多模态模型攻击

  • 视觉提示注入
  • 跨模态对抗样本
  • 图像中的隐藏指令
  • 音频与视频攻击向量
  • 形式化建模:跨模态对齐的信息论分析
  • 高级话题:模态间的对抗迁移性理论

第8章:多智能体与复合攻击

  • 智能体间的攻击传播
  • 工具调用劫持
  • RAG系统攻击
  • 级联失效与放大效应
  • 形式化建模:图传播算法与感染模型
  • 高级话题:拜占庭容错在多智能体系统中的应用

第9章:工具调用型LLM的系统级攻击

  • Function Calling安全模型与权限逃逸
  • 利用代码执行能力进行系统渗透
  • 网络扫描与横向移动
  • 僵尸网络构建与DDoS攻击
  • 容器逃逸与云环境攻击
  • 形式化建模:基于π演算的工具调用安全性
  • 高级话题:沙箱逃逸的自动化证明生成

第10章:搜索增强型LLM的信息战攻击

  • OSINT自动化与人肉搜索
  • 社会工程学攻击链构建
  • 虚假信息传播与舆论操纵
  • 隐私信息聚合与画像生成
  • 钓鱼攻击的智能化生成
  • 形式化建模:信息级联的随机图模型
  • 高级话题:深度伪造检测的对抗鲁棒性

第三部分:防御机制与安全加固

第11章:防御策略与安全对齐

  • RLHF与Constitutional AI
  • 安全微调技术
  • 输入过滤与净化
  • 输出监控与检测
  • 形式化建模:基于马尔可夫决策过程的安全强化
  • 高级话题:可解释性与安全性的协同设计

第12章:形式化验证与鲁棒性保证

  • 认证防御方法
  • 差分隐私在LLM中的应用
  • 可证明的鲁棒性边界
  • 安全性度量与评估
  • 形式化建模:抽象解释与区间分析
  • 高级话题:概率验证与随机平滑

第四部分:LLM赋能传统安全

第13章:二进制分析与逆向工程

  • 反汇编与函数识别
  • 控制流与数据流重建
  • 语义提升与代码理解
  • LLM辅助的漏洞模式识别
  • 高级话题:基于Transformer的汇编表征学习

第14章:自动化去混淆技术

  • 虚拟机保护的破解
  • 控制流平坦化还原
  • 不透明谓词识别
  • 符号执行与LLM的结合
  • 高级话题:程序综合与约束求解的协同

第15章:侧信道分析与信号处理

  • 缓存时序攻击的模式识别
  • 功耗曲线的智能分析
  • 电磁泄露的特征提取
  • LLM在密码分析中的应用
  • 高级话题:差分功耗分析与深度学习的结合

第16章:漏洞挖掘与利用生成

  • 模糊测试的智能引导
  • 污点分析与符号执行增强
  • 自动化exploit开发
  • 补丁分析与绕过技术
  • 智能合约攻击:重入攻击检测、溢出漏洞发现、DeFi闪电贷攻击链构造
  • 高级话题:ROP链自动构造与语义级漏洞理解

第17章:恶意软件分析与威胁情报

  • 行为模式识别
  • 家族分类与变种检测
  • C2通信协议逆向
  • APT攻击链分析
  • 高级话题:基于图神经网络的恶意代码相似度分析

第18章:新兴威胁与研究方向

  • 神经架构搜索攻击
  • 联邦学习中的安全问题
  • 量子计算对LLM安全的影响
  • 可解释AI与安全的权衡
  • 未来研究方向与开放问题
  • 高级话题:量子机器学习的对抗鲁棒性

第五部分:工具、实战与案例分析

第19章:安全研究工具与框架

  • 攻击工具详解:TextFooler、BERT-Attack、Universal Trigger
  • 防御框架实战:Adversarial Training、Certified Defense
  • 评估基准与数据集:AdvGLUE、RobustQA、ToxiGen
  • 自动化安全测试平台搭建
  • 红蓝对抗演练环境配置
  • 形式化建模:基于SMT求解器的安全性验证
  • 高级话题:自适应攻击与动态防御的军备竞赛

第20章:重大安全事件深度剖析

  • Samsung内部数据泄露事件(2023):员工使用ChatGPT泄露源代码
  • 律师引用虚假案例事件(2023):ChatGPT幻觉导致的法律危机
  • OpenAI数据泄露事件(2023):用户对话历史意外暴露
  • Replika AI情感操纵争议(2023):AI伴侣的伦理边界
  • AutoGPT失控案例:自主Agent的安全风险
  • LLaMA模型泄露事件(2023):开源vs安全的平衡
  • 形式化建模:事件树分析(ETA)与故障树分析(FTA)
  • 高级话题:从历史事件预测未来威胁趋势

附录

附录C:术语表与参考文献

  • 专业术语解释
  • 推荐阅读
  • 研究论文索引

关于作者与贡献

本教程由安全研究社区共同维护。欢迎提交问题报告和改进建议。

最后更新: 2025年1月

版权声明: 本教程采用 CC BY-SA 4.0 许可证