第1章：从传统检索到生成式检索

在信息检索的漫长历史中，我们见证了从简单的关键词匹配到复杂的语义理解的演进。本章将带您回顾传统检索方法的核心思想，理解稀疏检索与密集检索的本质区别，并深入探讨为什么生成式检索会成为下一个重要范式。通过本章学习，您将建立起对检索系统演进脉络的清晰认识，为后续深入学习生成式检索打下坚实基础。

1.1 传统检索范式的回顾

传统信息检索系统的核心架构已经沿用了数十年，其基本流程可以概括为：索引构建 → 查询处理 → 匹配计算 → 结果排序。这种管道式架构虽然简单直观，但每个组件都经过了深度优化。

1.1.1 倒排索引：检索的基石

倒排索引（Inverted Index）是传统检索系统的核心数据结构。不同于正向索引（文档ID → 内容），倒排索引维护的是词项到文档的映射关系：

词项 → [文档ID列表]
"机器学习" → [doc1, doc5, doc12, ...]
"深度学习" → [doc2, doc5, doc8, ...]

这种结构使得查询时可以快速定位包含特定词项的所有文档，时间复杂度从 O(N) 降至 O(1)。

1.1.2 TF-IDF与BM25：经典相关性计算

TF-IDF（词频-逆文档频率）通过平衡词项的局部重要性和全局稀有性来计算相关性：

$$\text{TF-IDF}(t,d,D) = \text{TF}(t,d) \times \text{IDF}(t,D)$$ 其中：

$\text{TF}(t,d) = \frac{f_{t,d}}{\sum_{t' \in d} f_{t',d}}$（词项t在文档d中的归一化频率）
$\text{IDF}(t,D) = \log \frac{|D|}{|\{d \in D: t \in d\}|}$（词项t的逆文档频率）

BM25 是TF-IDF的改进版本，引入了文档长度归一化和饱和函数： $$\text{BM25}(q,d) = \sum_{t \in q} \text{IDF}(t) \cdot \frac{f_{t,d} \cdot (k_1 + 1)}{f_{t,d} + k_1 \cdot (1 - b + b \cdot \frac{|d|}{\text{avgdl}})}$$ 其中 $k_1$ 和 $b$ 是可调参数，通常设置为 $k_1=1.2, b=0.75$。

1.1.3 检索流程的模块化设计

传统检索系统采用高度模块化的设计：

查询 → [查询解析] → [查询扩展] → [候选召回] → [精排] → 结果
         ↓              ↓            ↓           ↓
      分词/纠错      同义词扩展   倒排索引查找  机器学习模型

这种设计的优势在于每个模块可以独立优化，但缺点是误差会逐级传播，且模块间的信息流动受限。

1.2 稀疏检索vs密集检索

检索方法的一个重要分类维度是文档表示的稀疏性。理解这种区别对于认识生成式检索的创新至关重要。

1.2.1 稀疏检索：精确但脆弱

稀疏检索使用高维稀疏向量表示文档，典型代表是基于词袋模型的方法：

文档: "深度学习改变了人工智能"
稀疏表示: {深度学习: 1, 改变: 1, 人工智能: 1, 其他词: 0, ...}
向量维度: |V| (词表大小，通常 10^5 - 10^6)
非零元素: 仅文档中出现的词

优势：

可解释性强：每个维度对应具体词项
精确匹配效果好：适合导航型查询
计算效率高：利用稀疏性加速

劣势：

词汇鸿沟问题：同义词无法匹配
语义理解能力弱：无法捕捉词序和上下文
对长尾查询效果差

1.2.2 密集检索：语义丰富但黑盒

密集检索使用低维连续向量表示文档，通过神经网络学习语义编码：

文档: "深度学习改变了人工智能"
密集表示: [0.23, -0.45, 0.67, ..., 0.12]  # 768维BERT编码
向量维度: 通常 128 - 1024
所有维度: 都有非零值

编码过程： $$\mathbf{h}_d = \text{Encoder}(d; \theta)$$ 相似度计算： $$\text{sim}(q, d) = \cos(\mathbf{h}_q, \mathbf{h}_d) = \frac{\mathbf{h}_q^T \mathbf{h}_d}{||\mathbf{h}_q|| \cdot ||\mathbf{h}_d||}$$ 优势：

语义理解能力强：可以匹配同义词和相关概念
泛化性好：对未见查询有更好的处理能力
端到端学习：可以针对特定任务优化

劣势：

黑盒特性：难以解释为什么两个文档相似
训练成本高：需要大量标注数据
精确匹配可能失效：过度泛化导致精确查询效果下降

1.2.3 混合方法的必要性

实践中，纯粹的稀疏或密集检索都有局限性。混合方法通过结合两者优势来提升效果： $$\text{score}_{\text{hybrid}}(q,d) = \alpha \cdot \text{score}_{\text{sparse}}(q,d) + (1-\alpha) \cdot \text{score}_{\text{dense}}(q,d)$$ 其中 $\alpha$ 是可学习或手动调节的权重参数。

1.3 为什么需要生成式检索

尽管传统检索方法已经相当成熟，但仍存在一些根本性限制。生成式检索提供了一种全新的思路来解决这些问题。

1.3.1 传统方法的根本局限

索引与检索的割裂

传统方法中，索引构建和检索是两个独立的过程：

索引阶段：离线构建，无法感知查询分布
检索阶段：只能在固定索引上操作，无法动态调整

这种割裂导致系统无法进行端到端优化，索引结构无法根据实际查询模式自适应调整。

文档标识的僵化

传统系统中，文档ID通常是任意分配的数字：

doc_1234 → "机器学习入门教程"
doc_5678 → "深度学习实战指南"

这些ID本身不携带任何语义信息，系统必须通过额外的映射表来维护ID与内容的关系。

多跳检索的复杂性

复杂查询往往需要多轮检索：

用户查询: "2023年发表的关于Transformer在推荐系统中应用的论文"
    ↓
步骤1: 检索"Transformer"相关文档
步骤2: 过滤"推荐系统"主题
步骤3: 筛选"2023年"发表
步骤4: 识别"论文"类型

每一步都可能引入误差，且步骤间难以联合优化。

1.3.2 生成式检索的创新视角

生成式检索将检索问题重新定义为序列生成问题： $$p(d|q) = \prod_{i=1}^{n} p(t_i | t_{<i}, q; \theta)$$ 其中 $d = (t_1, t_2, ..., t_n)$ 是文档标识符的token序列。

具体示例：搜索学术论文

假设我们有一个学术论文检索系统，传统方法与生成式方法的对比：

传统检索过程：
用户查询: "Transformer在计算机视觉中的应用"
    ↓

1. 分词: ["Transformer", "计算机视觉", "应用"]
2. 倒排索引查找: 
   - Transformer → [doc_1234, doc_5678, doc_9012, ...]
   - 计算机视觉 → [doc_3456, doc_5678, doc_7890, ...]
3. 交集计算: [doc_5678, ...]
4. BM25评分排序
5. 返回: doc_5678 → "Vision Transformer论文"

生成式检索过程：
用户查询: "Transformer在计算机视觉中的应用"
    ↓
模型直接生成: "CV_Trans_2021_ViT"
    ↓
解码过程:

- 第1步: p("CV" | query) = 0.89  # 识别计算机视觉领域
- 第2步: p("Trans" | "CV", query) = 0.92  # 识别Transformer主题
- 第3步: p("2021" | "CV_Trans", query) = 0.76  # 预测时间范围
- 第4步: p("ViT" | "CV_Trans_2021", query) = 0.95  # 生成具体论文ID

在这个例子中，生成式模型不是通过查找索引，而是直接"记住"了查询模式与文档ID的对应关系，并且文档ID本身（CV_Trans_2021_ViT）就包含了语义信息：CV表示计算机视觉领域，Trans表示Transformer技术，2021表示发表年份，ViT表示具体的Vision Transformer论文。

核心创新：

索引即参数：整个文档集合被编码在模型参数 $\theta$ 中
端到端学习：从查询到文档ID的直接映射
语义化标识：文档ID本身携带语义信息

1.3.3 生成式方法的独特优势

零样本泛化能力

生成式模型可以生成训练中未见过的文档ID组合：

训练集: {q1→doc_A, q2→doc_B}
测试时: q3 → doc_AB (组合了A和B的特征)

这种能力使系统能够处理复杂的组合查询。

动态索引更新

传统倒排索引添加新文档需要重建索引，而生成式方法可以通过继续训练来增量更新：

# 伪代码
for new_doc in stream:
    doc_id = generate_semantic_id(new_doc)
    model.train(queries → doc_id)  # 增量训练

多任务统一建模

同一个生成模型可以同时处理多种检索任务：

输入: [SEARCH] query → 文档检索
输入: [QA] question → 答案片段检索  
输入: [SIMILAR] doc_id → 相似文档检索

1.3.4 端到端学习的价值

生成式检索最大的价值在于实现真正的端到端学习：

传统管道:
Query → [分析] → [召回] → [排序] → [重排] → Results
         ↓         ↓         ↓         ↓
       局部优化   局部优化   局部优化   局部优化

生成式:
Query → [Transformer] → Document IDs
            ↓
        全局优化

优势分析：

误差不累积：没有多级传播，直接优化最终目标
隐式特征学习：模型自动学习最优的中间表示
适应性强：可以根据不同数据分布自动调整策略

数学表达上，传统方法优化的是各模块的局部目标： $$\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{retrieval}} + \mathcal{L}_{\text{ranking}} + \mathcal{L}_{\text{rerank}}$$ 而生成式方法直接优化端到端目标： $$\mathcal{L}_{\text{generative}} = -\log p(d^* | q; \theta)$$ 其中 $d^*$ 是相关文档的标识符。

1.4 高级话题：混合检索架构的理论分析

混合检索架构试图结合传统检索、密集检索和生成式检索的优势。本节从理论角度分析不同架构的设计原则。

1.4.1 信息论视角下的检索

从信息论角度，检索可以看作是减少不确定性的过程：

熵的定义： $$H(D|q) = -\sum_{d \in D} p(d|q) \log p(d|q)$$ 理想的检索系统应该最小化给定查询后的文档不确定性。

不同方法的信息容量：

稀疏检索：信息主要存储在倒排索引中 - 索引大小：$O(|V| \times \bar{n})$，其中 $\bar{n}$ 是平均文档长度 - 信息密度：低（大量零值）
密集检索：信息压缩在向量空间中 - 索引大小：$O(|D| \times d)$，其中 $d$ 是向量维度 - 信息密度：高（所有维度都有信息）
生成式检索：信息编码在模型参数中 - 模型大小：$O(|\theta|)$，参数量 - 信息密度：极高（参数共享）

1.4.2 计算复杂度分析

不同架构的时间复杂度对比：

方法	索引构建	在线检索	内存占用
稀疏检索	$O(\|D\| \times \bar{n})$	$O(\|q\| \times \log\|D\|)$	$O(\|V\| \times \bar{n})$
密集检索	$O(\|D\| \times L \times d^2)$	$O(\|D\| \times d)$	$O(\|D\| \times d)$
生成式	$O(E \times \|D\| \times L^2)$	$O(k \times L)$	$O(\|\theta\|)$

其中：

$L$：序列长度
$E$：训练轮数
$k$：beam size
$d$：向量维度

1.4.3 最优架构设计原则

原则1：查询依赖的方法选择

根据查询类型动态选择检索方法：

def hybrid_retrieval(query):
    query_type = classify_query(query)

    if query_type == "navigational":  # 导航型
        return sparse_retrieval(query)  # 精确匹配优先
    elif query_type == "informational":  # 信息型
        return dense_retrieval(query)  # 语义理解优先
    else:  # 事务型
        return generative_retrieval(query)  # 直接生成结果

原则2：级联架构优化

采用粗到精的级联结构减少计算开销：

Stage 1: 稀疏检索（快速召回）
   ↓ Top-1000
Stage 2: 密集检索（语义排序）
   ↓ Top-100  
Stage 3: 生成式检索（精确定位）
   ↓ Top-10

每个阶段的计算复杂度递增，但候选集大小递减，总体效率最优。

原则3：注意力路由机制

使用学习的路由器决定查询分配： $$\mathbf{w} = \text{softmax}(\text{MLP}(\mathbf{h}_q))$$ $$\text{score}(q,d) = \sum_{i} w_i \cdot \text{score}_i(q,d)$$ 其中 $w_i$ 是第 $i$ 种检索方法的权重。

1.4.4 理论界限与权衡

检索的不可能三角：

        准确性
         /\
        /  \
       /    \
      /      \
     /________\
   效率      可解释性

任何检索系统都难以同时优化这三个维度：

生成式检索：准确性高，但可解释性差
稀疏检索：可解释性好，效率高，但准确性有限
密集检索：准确性和效率平衡，但缺乏可解释性

信息瓶颈理论：

根据信息瓶颈原理，最优的文档表示应该满足： $$\max I(Z;Y) - \beta I(Z;X)$$ 其中：

$X$：原始文档
$Z$：文档表示
$Y$：相关性标签
$\beta$：压缩与保真度的权衡参数

这解释了为什么不同场景需要不同的表示方法。

1.5 工业案例：百度文心一言的检索演进

百度文心一言（ERNIE Bot）的检索系统演进展示了从传统到生成式的实际转型过程。

1.5.1 第一代：传统倒排索引（2019-2020）

早期系统采用经典的倒排索引架构：

架构组成：

- Elasticsearch集群：处理文本检索
- Redis缓存层：加速热门查询
- BM25排序：相关性计算

性能指标：

索引规模：10亿+中文网页
查询延迟：P99 < 100ms
召回率：~75%（人工评测）

主要问题：

同义词处理困难："人工智能"与"AI"无法自动关联
长尾查询效果差：复杂语义查询召回率低于50%
跨语言检索支持弱：中英混合查询处理困难

1.5.2 第二代：密集向量检索（2020-2022）

引入ERNIE预训练模型进行语义编码：

# 简化的编码流程
def encode_document(doc):
    # 使用ERNIE-3.0进行编码
    tokens = tokenizer(doc, max_length=512)
    embeddings = ernie_model(tokens)
    return embeddings.pooler_output  # 768维向量

# 向量索引构建
faiss_index = faiss.IndexIVFPQ(
    n_dims=768,
    n_clusters=10000,
    n_subquantizers=64
)

改进效果：

语义召回率提升至85%
支持跨语言检索
查询理解能力增强

技术创新：

知识增强编码：融入知识图谱信息 $$\mathbf{h} = \text{ERNIE}(text) + \alpha \cdot \text{KG-Embed}(entities)$$
多粒度索引：同时索引段落、句子和词组级别

1.5.3 第三代：混合生成式架构（2022-至今）

文心一言采用创新的生成式检索方案：

核心设计：

层次化文档ID生成：

文档: "深度学习是机器学习的分支..."
    ↓
语义聚类: [AI类] → [ML子类] → [DL细分]
    ↓
生成ID: "AI_ML_DL_3847"

双塔生成架构：

查询塔: Query → ERNIE → Query表示
   ↓                        ↓
                      交叉注意力
   ↓                        ↓
文档塔: DocID → Decoder → 生成下一个ID token

增量学习机制： - 每日新增文档通过继续训练融入 - 使用知识蒸馏保持旧知识 - 动态调整ID空间

1.5.4 实际效果与挑战

量化提升：

指标	传统方法	密集检索	生成式检索
召回率@10	75%	85%	92%
延迟(P99)	100ms	150ms	120ms
模型大小	50GB索引	30GB索引+3GB模型	10GB模型
增量更新	需重建索引	需重新编码	继续训练

遇到的挑战：

训练数据构造： - 问题：缺乏查询-文档ID对 - 解决：使用伪相关反馈生成训练数据
ID空间爆炸： - 问题：文档增长导致ID空间指数增长 - 解决：动态ID压缩和重分配策略
在线推理优化： - 问题：生成解码速度慢 - 解决：前缀树剪枝 + 投机解码

1.5.5 经验总结

百度的实践经验表明：

渐进式迁移：不要一次性替换整个系统，而是逐步引入生成式组件
混合架构优势：保留传统方法作为fallback，确保系统稳定性
持续优化必要：生成式检索需要持续的训练和调优
领域适应关键：通用模型需要大量领域数据微调才能达到最佳效果

未来展望：

探索更大规模的生成模型（100B+参数）
研究多模态生成式检索
优化实时增量学习能力

1.6 本章小结

本章我们系统回顾了信息检索的演进历程，从传统的倒排索引到现代的生成式检索。关键要点包括：

核心概念：

传统检索基于倒排索引和词项匹配，效率高但语义理解能力有限
稀疏检索使用高维稀疏向量，可解释性强但存在词汇鸿沟
密集检索通过神经网络学习语义表示，提升了语义匹配能力
生成式检索将检索重构为序列生成问题，实现端到端优化

关键公式：

BM25相关性：$\text{BM25}(q,d) = \sum_{t \in q} \text{IDF}(t) \cdot \frac{f_{t,d} \cdot (k_1 + 1)}{f_{t,d} + k_1 \cdot (1 - b + b \cdot \frac{|d|}{\text{avgdl}})}$
生成概率：$p(d|q) = \prod_{i=1}^{n} p(t_i | t_{<i}, q; \theta)$
混合评分：$\text{score}_{\text{hybrid}} = \alpha \cdot \text{score}_{\text{sparse}} + (1-\alpha) \cdot \text{score}_{\text{dense}}$

核心洞察：

生成式检索的本质创新在于索引即参数的理念
不同检索方法在准确性、效率和可解释性之间存在权衡
混合架构能够结合不同方法的优势，是当前工业实践的主流选择

1.7 练习题

基础题（理解概念）

练习1.1 解释为什么BM25相比TF-IDF的改进主要体现在哪些方面？

提示（点击展开）

考虑文档长度归一化和词频饱和两个关键改进。

参考答案（点击展开）

BM25的主要改进：

词频饱和：引入参数k₁控制词频增长的上限，避免高频词过度影响
文档长度归一化：通过参数b调节文档长度的影响，长文档不会因包含更多词而获得不公平优势
更灵活的参数调节：k₁和b可根据具体数据集优化，而TF-IDF缺乏这种灵活性

练习1.2 给定一个包含1000万文档的语料库，词表大小为100万，比较稀疏检索和密集检索（768维）的索引存储需求。

提示（点击展开）

稀疏索引只存储非零元素，密集索引需要存储所有维度。

参考答案（点击展开）

假设平均每个文档包含200个独特词项：

稀疏检索：10M × 200 × (4+4) bytes = 16GB（词ID+权重）
密集检索：10M × 768 × 4 bytes = 30.7GB（float32）
稀疏检索在存储上更高效，但需要额外的倒排列表结构

练习1.3 为什么生成式检索能够处理"零样本"查询？请举例说明。

提示（点击展开）

考虑生成模型的组合泛化能力。

参考答案（点击展开）

生成式检索通过学习语义模式可以组合生成新的文档ID：

训练见过："机器学习教程"→ML_001，"深度学习论文"→DL_002
测试时可以生成："机器学习论文"→ML_002（组合ML领域+论文类型）
这种组合泛化能力来自于Transformer的注意力机制和位置编码

挑战题（深入思考）

练习1.4 设计一个实验来验证混合检索中最优的α值（稀疏vs密集权重）是否与查询类型相关。

提示（点击展开）

考虑不同类型的查询（导航型、信息型、事务型）可能需要不同的权重。

参考答案（点击展开）

实验设计：

数据准备：收集并标注三类查询各1000条
网格搜索：对每类查询，测试α∈[0,1]（步长0.1）
评估指标：NDCG@10, MRR
预期结果： - 导航型查询：α→1（偏好精确匹配） - 信息型查询：α→0.3-0.5（平衡语义和精确） - 事务型查询：α→0（偏好语义理解）
验证：训练查询分类器自动调节α

练习1.5 分析生成式检索在什么场景下会优于传统检索，什么场景下可能表现较差？

提示（点击展开）

考虑文档集合大小、更新频率、查询复杂度等因素。

参考答案（点击展开）

生成式检索优势场景：

中等规模语料库（10K-10M文档）
复杂语义查询多
文档集合相对稳定
需要个性化检索

生成式检索劣势场景：

超大规模语料库（>100M文档）
需要精确关键词匹配
文档频繁更新
需要可解释的检索结果
计算资源受限的边缘设备

练习1.6 【开放思考】如果要设计一个新的检索系统，如何决定采用哪种架构？列出你的决策树。

提示（点击展开）

考虑业务需求、技术约束、团队能力等多个维度。

参考答案（点击展开）

决策树框架：

1. 语料库规模？
   ├─ <100K：考虑生成式
   ├─ 100K-10M：混合架构
   └─ >10M：传统+密集

2. 查询类型？
   ├─ 精确查找为主：稀疏检索
   ├─ 语义理解为主：密集/生成式
   └─ 混合：混合架构

3. 更新频率？
   ├─ 实时更新：传统检索
   ├─ 日更新：密集检索
   └─ 周/月更新：生成式可考虑

4. 延迟要求？
   ├─ <10ms：缓存+稀疏
   ├─ <100ms：密集检索
   └─ <1s：生成式可接受

5. 团队ML能力？
   ├─ 强：生成式/密集
   └─ 弱：传统方法

练习1.7 推导信息瓶颈原理下，为什么768维的BERT编码比100K维的稀疏向量更高效。

提示（点击展开）

从信息压缩和相关信息保留两个角度分析。

参考答案（点击展开）

根据信息瓶颈原理 $\max I(Z;Y) - \beta I(Z;X)$：

信息压缩 $I(Z;X)$： - 稀疏：100K维但只有200个非零→实际信息量低 - BERT：768维密集→每维都携带信息
相关信息保留 $I(Z;Y)$： - 稀疏：只保留词汇级别信息，丢失语序和上下文 - BERT：通过注意力机制保留了语义关系
信息密度分析： - 稀疏向量熵：$H \approx 200 \log(100K) \approx 3300$ bits - BERT向量熵：$H \approx 768 \log(256) \approx 6144$ bits（假设8bit量化） - BERT用更少维度编码了更多相关信息
结论：BERT通过学习压缩掉了与任务无关的信息，保留了语义相关信息，实现了更优的信息瓶颈权衡。

练习1.8 【系统设计】设计一个生成式检索系统的增量更新方案，要求每天可以添加10万新文档。

提示（点击展开）

考虑ID分配、模型更新、性能保持等问题。

参考答案（点击展开）

增量更新方案设计：

ID空间预分配：

# 预留ID空间给新文档
existing_ids: [A001-A999]
reserved_daily: [B001-B100]  # 每天10万容量

双模型架构：

主模型：服务在线查询
影子模型：增量训练新文档
每日切换：影子→主

训练策略： - 新文档：全量训练 - 旧文档：采样10%混合训练（防止遗忘） - 知识蒸馏：从主模型蒸馏旧知识
更新流程：

def daily_update():
    # 1. 为新文档生成语义ID
    new_ids = semantic_clustering(new_docs)

    # 2. 构建训练数据
    train_data = new_pairs + sample(old_pairs, 0.1)

    # 3. 增量训练（4小时）
    shadow_model.train(train_data)

    # 4. 验证性能
    if validate(shadow_model) > threshold:
        swap_models()

    # 5. 压缩ID空间（月度）
    if day == 30:
        reorganize_id_space()

性能监控： - 新文档召回率 - 旧文档性能退化 - ID冲突率 - 训练时间

1.8 常见陷阱与错误

在实践检索系统时，以下是容易犯的错误和相应的调试技巧：

常见错误

过度依赖单一指标 - 错误：只优化召回率，忽视精确率 - 正确：使用F1、NDCG等综合指标
忽视查询分布的长尾 - 错误：只在高频查询上测试 - 正确：确保测试集包含长尾查询
密集向量的维度诅咒 - 错误：盲目增加向量维度 - 正确：通过实验确定最优维度（通常384-768）
生成式检索的ID设计不当 - 错误：使用完全随机的ID - 正确：设计携带语义信息的层次化ID
训练数据的负样本选择 - 错误：随机选择负样本 - 正确：使用难负样本挖掘（hard negative mining）

调试技巧

检索结果可视化

# 可视化查询和文档的向量分布
from sklearn.manifold import TSNE
embeddings_2d = TSNE(n_components=2).fit_transform(embeddings)

错误案例分析 - 收集badcase - 分析失败模式（词汇不匹配、语义偏差等） - 针对性改进
A/B测试框架 - 小流量实验新方法 - 监控关键业务指标 - 逐步扩大流量
性能瓶颈定位 - 使用profiler定位计算热点 - 监控内存使用 - 优化批处理大小

1.9 最佳实践检查清单

在设计和实现检索系统时，请确保考虑以下要点：

系统设计审查

[ ] 需求分析
[ ] 明确查询类型分布
[ ] 确定性能要求（延迟、吞吐量）
[ ] 评估数据规模和增长速度
[ ] 架构选择
[ ] 评估不同检索方法的适用性
[ ] 考虑混合架构的必要性
[ ] 设计fallback机制
[ ] 数据准备
[ ] 构建高质量的训练数据
[ ] 设计合理的评测集
[ ] 准备难例和边界案例

实现审查

[ ] 索引构建
[ ] 选择合适的索引结构
[ ] 优化索引更新策略
[ ] 实现索引压缩（如需要）
[ ] 模型训练
[ ] 使用合适的损失函数
[ ] 实施负样本策略
[ ] 监控训练过程中的指标
[ ] 推理优化
[ ] 实现批处理
[ ] 使用缓存机制
[ ] 考虑模型量化

评估审查

[ ] 离线评估
[ ] 使用多个评估指标
[ ] 分析不同查询类型的表现
[ ] 进行错误分析
[ ] 在线评估
[ ] 设计A/B测试
[ ] 监控实时指标
[ ] 收集用户反馈

运维审查

[ ] 监控告警
[ ] 设置性能监控
[ ] 配置异常告警
[ ] 记录查询日志
[ ] 容灾备份
[ ] 实现服务降级
[ ] 准备备用方案
[ ] 定期备份索引
[ ] 持续优化
[ ] 定期重训练模型
[ ] 分析用户行为变化
[ ] 跟踪最新研究进展

恭喜你完成第1章的学习！你已经掌握了从传统检索到生成式检索的核心概念。下一章我们将深入学习支撑生成式检索的技术基础——Transformer架构和序列到序列模型。