生成式检索与推荐系统教程
前言
本教程深入探讨生成式检索(Generative Retrieval)这一新兴范式,以及其在现代推荐系统中的应用。我们将从传统检索方法的简要回顾开始,快速过渡到生成式方法的核心思想,并深入探讨最新的研究进展和实践应用。
本教程面向有经验的程序员和AI科学家,假设读者已具备深度学习基础知识。我们将以直观但深入的方式解释概念,避免过度的数学推导,同时保持技术深度。
目录
第一部分:基础与背景
第1章:从传统检索到生成式检索
- 传统检索范式的回顾
- 稀疏检索vs密集检索
- 为什么需要生成式检索
- 高级话题:混合检索架构的理论分析
- 工业案例:百度文心一言的检索演进
- 本章练习与思考题
第2章:预备知识速览
- Transformer架构要点
- 序列到序列模型
- 注意力机制的本质
- 高级话题:因果注意力vs双向注意力的检索影响
- 工业案例:OpenAI的Embeddings API架构
- 本章练习与思考题
第二部分:生成式检索核心
第3章:差异化搜索索引(DSI)
- DSI的核心思想
- 文档标识符设计
- 索引即参数的理念
- 高级话题:动态文档集合的增量学习
- 工业案例:Google的网页索引生成式实验
- 本章练习与思考题
第4章:文档表示与标识符生成
- 语义标识符vs随机标识符
- 层次化标识符设计
- 标识符的可学习性
- 高级话题:最优标识符的信息论分析
- 工业案例:微软Bing的文档ID体系重构
- 本章练习与思考题
第5章:生成式检索的训练策略
- 预训练与微调流程
- 文档记忆化技术
- 查询生成与数据增强
- 高级话题:对抗训练与鲁棒性提升
- 工业案例:阿里巴巴电商搜索的生成式改造
- 本章练习与思考题
第6章:解码策略与推理优化
- 约束解码
- Beam Search变体
- 前缀树加速
- 高级话题:非自回归解码在检索中的应用
- 工业案例:字节跳动抖音搜索的实时推理优化
- 本章练习与思考题
第三部分:高级生成式检索
第7章:NCI与可扩展性
- Neural Corpus Indexer架构
- 分层聚类与路由
- 大规模语料库处理
- 高级话题:亿级文档的分布式索引构建
- 工业案例:Meta的社交内容检索系统
- 本章练习与思考题
第8章:GENRE与实体检索
- 实体链接的生成式方法
- 知识库集成
- 跨语言实体检索
- 高级话题:开放域实体发现与动态知识图谱
- 工业案例:LinkedIn的人才知识图谱检索
- 本章练习与思考题
第9章:多模态生成式检索
- 视觉-文本联合检索
- 统一的多模态标识符
- CLIP与生成式方法的结合
- 高级话题:跨模态注意力的理论基础
- 工业案例:Pinterest的视觉搜索生成式升级
- 本章练习与思考题
第四部分:推荐系统中的应用
第10章:生成式推荐基础
- 从检索到推荐的桥梁
- 用户序列建模
- 物品ID的生成式预测
- 高级话题:冷启动问题的生成式解决方案
- 工业案例:Netflix的内容推荐生成模型
- 本章练习与思考题
第11章:序列推荐与生成模型
- GPT4Rec及其变体
- 用户行为序列的编码
- 个性化生成策略
- 高级话题:长序列建模的记忆网络优化
- 工业案例:Amazon的购物序列预测系统
- 本章练习与思考题
第12章:对话式推荐系统
- 生成式对话管理
- 推荐解释生成
- 多轮交互优化
- 高级话题:强化学习与生成模型的结合
- 工业案例:小红书的AI购物助手
- 本章练习与思考题
第五部分:前沿与实践
第13章:大语言模型时代的生成式检索
- LLM作为检索器
- In-context learning检索
- 检索增强生成(RAG)的新范式
- 高级话题:思维链(CoT)在复杂检索中的应用
- 工业案例:Perplexity AI的实时搜索架构
- 本章练习与思考题
第14章:效率优化与系统设计
- 模型压缩与量化
- 增量索引更新
- 分布式生成式检索
- 高级话题:神经架构搜索(NAS)优化检索模型
- 工业案例:Spotify音乐推荐的边缘部署
- 本章练习与思考题
第15章:评估指标与基准测试
- 生成式检索的评估挑战
- 新型评估指标设计
- 主流数据集与基准
- 高级话题:因果推断在离线评估中的应用
- 工业案例:Airbnb的A/B测试框架演进
- 本章练习与思考题
第16章:未来方向与开放问题
- 持续学习与适应
- 可解释性挑战
- 与传统方法的混合架构
- 高级话题:神经符号推理与生成式检索的融合
- 工业案例:DeepMind的下一代检索研究
- 本章练习与思考题
如何使用本教程
- 循序渐进:建议按章节顺序学习,每章都建立在前面的基础之上
- 动手实践:每章的练习题设计用于加深理解,建议全部完成
- 深入思考:开放性思考题没有标准答案,鼓励探索和讨论
- 查阅原论文:每章都会引用关键论文,建议深入阅读
符号约定
- $\mathcal{D}$:文档集合
- $\mathcal{Q}$:查询集合
- $\theta$:模型参数
- $\mathbf{h}$:隐藏状态向量
- $p(d|q)$:给定查询$q$生成文档$d$的概率
致谢
本教程综合了生成式检索领域的最新研究成果,特别感谢DSI、NCI、GENRE等开创性工作的作者们。
开始学习:第1章:从传统检索到生成式检索 →