生成式检索与推荐系统教程

前言

本教程深入探讨生成式检索(Generative Retrieval)这一新兴范式,以及其在现代推荐系统中的应用。我们将从传统检索方法的简要回顾开始,快速过渡到生成式方法的核心思想,并深入探讨最新的研究进展和实践应用。

本教程面向有经验的程序员和AI科学家,假设读者已具备深度学习基础知识。我们将以直观但深入的方式解释概念,避免过度的数学推导,同时保持技术深度。

目录

第一部分:基础与背景

第1章:从传统检索到生成式检索

  • 传统检索范式的回顾
  • 稀疏检索vs密集检索
  • 为什么需要生成式检索
  • 高级话题:混合检索架构的理论分析
  • 工业案例:百度文心一言的检索演进
  • 本章练习与思考题

第2章:预备知识速览

  • Transformer架构要点
  • 序列到序列模型
  • 注意力机制的本质
  • 高级话题:因果注意力vs双向注意力的检索影响
  • 工业案例:OpenAI的Embeddings API架构
  • 本章练习与思考题

第二部分:生成式检索核心

第3章:差异化搜索索引(DSI)

  • DSI的核心思想
  • 文档标识符设计
  • 索引即参数的理念
  • 高级话题:动态文档集合的增量学习
  • 工业案例:Google的网页索引生成式实验
  • 本章练习与思考题

第4章:文档表示与标识符生成

  • 语义标识符vs随机标识符
  • 层次化标识符设计
  • 标识符的可学习性
  • 高级话题:最优标识符的信息论分析
  • 工业案例:微软Bing的文档ID体系重构
  • 本章练习与思考题

第5章:生成式检索的训练策略

  • 预训练与微调流程
  • 文档记忆化技术
  • 查询生成与数据增强
  • 高级话题:对抗训练与鲁棒性提升
  • 工业案例:阿里巴巴电商搜索的生成式改造
  • 本章练习与思考题

第6章:解码策略与推理优化

  • 约束解码
  • Beam Search变体
  • 前缀树加速
  • 高级话题:非自回归解码在检索中的应用
  • 工业案例:字节跳动抖音搜索的实时推理优化
  • 本章练习与思考题

第三部分:高级生成式检索

第7章:NCI与可扩展性

  • Neural Corpus Indexer架构
  • 分层聚类与路由
  • 大规模语料库处理
  • 高级话题:亿级文档的分布式索引构建
  • 工业案例:Meta的社交内容检索系统
  • 本章练习与思考题

第8章:GENRE与实体检索

  • 实体链接的生成式方法
  • 知识库集成
  • 跨语言实体检索
  • 高级话题:开放域实体发现与动态知识图谱
  • 工业案例:LinkedIn的人才知识图谱检索
  • 本章练习与思考题

第9章:多模态生成式检索

  • 视觉-文本联合检索
  • 统一的多模态标识符
  • CLIP与生成式方法的结合
  • 高级话题:跨模态注意力的理论基础
  • 工业案例:Pinterest的视觉搜索生成式升级
  • 本章练习与思考题

第四部分:推荐系统中的应用

第10章:生成式推荐基础

  • 从检索到推荐的桥梁
  • 用户序列建模
  • 物品ID的生成式预测
  • 高级话题:冷启动问题的生成式解决方案
  • 工业案例:Netflix的内容推荐生成模型
  • 本章练习与思考题

第11章:序列推荐与生成模型

  • GPT4Rec及其变体
  • 用户行为序列的编码
  • 个性化生成策略
  • 高级话题:长序列建模的记忆网络优化
  • 工业案例:Amazon的购物序列预测系统
  • 本章练习与思考题

第12章:对话式推荐系统

  • 生成式对话管理
  • 推荐解释生成
  • 多轮交互优化
  • 高级话题:强化学习与生成模型的结合
  • 工业案例:小红书的AI购物助手
  • 本章练习与思考题

第五部分:前沿与实践

第13章:大语言模型时代的生成式检索

  • LLM作为检索器
  • In-context learning检索
  • 检索增强生成(RAG)的新范式
  • 高级话题:思维链(CoT)在复杂检索中的应用
  • 工业案例:Perplexity AI的实时搜索架构
  • 本章练习与思考题

第14章:效率优化与系统设计

  • 模型压缩与量化
  • 增量索引更新
  • 分布式生成式检索
  • 高级话题:神经架构搜索(NAS)优化检索模型
  • 工业案例:Spotify音乐推荐的边缘部署
  • 本章练习与思考题

第15章:评估指标与基准测试

  • 生成式检索的评估挑战
  • 新型评估指标设计
  • 主流数据集与基准
  • 高级话题:因果推断在离线评估中的应用
  • 工业案例:Airbnb的A/B测试框架演进
  • 本章练习与思考题

第16章:未来方向与开放问题

  • 持续学习与适应
  • 可解释性挑战
  • 与传统方法的混合架构
  • 高级话题:神经符号推理与生成式检索的融合
  • 工业案例:DeepMind的下一代检索研究
  • 本章练习与思考题

如何使用本教程

  1. 循序渐进:建议按章节顺序学习,每章都建立在前面的基础之上
  2. 动手实践:每章的练习题设计用于加深理解,建议全部完成
  3. 深入思考:开放性思考题没有标准答案,鼓励探索和讨论
  4. 查阅原论文:每章都会引用关键论文,建议深入阅读

符号约定

  • $\mathcal{D}$:文档集合
  • $\mathcal{Q}$:查询集合
  • $\theta$:模型参数
  • $\mathbf{h}$:隐藏状态向量
  • $p(d|q)$:给定查询$q$生成文档$d$的概率

致谢

本教程综合了生成式检索领域的最新研究成果,特别感谢DSI、NCI、GENRE等开创性工作的作者们。


开始学习:第1章:从传统检索到生成式检索