第一章：排序评价指标基础

从信息检索到现代排序系统

在信息爆炸的时代，如何从海量数据中找到最相关的信息成为了一个核心挑战。无论是Google每天处理的数十亿次搜索请求，还是淘宝面对的数亿商品排序，或是Netflix为用户推荐的个性化内容，排序技术都扮演着至关重要的角色。一个优秀的排序系统不仅需要准确理解用户意图，更需要有科学的评价体系来衡量其效果。

本章将从排序问题的数学本质出发，系统介绍各种经典的排序评价指标，追溯它们的演进历史，并深入探讨为什么NDCG（归一化折损累积增益）会成为现代排序系统的核心指标。通过学习本章，您将建立起对排序评价体系的全面认识，为后续深入学习NDCG优化打下坚实基础。

1.1 排序问题的数学建模

1.1.1 排序作为函数映射

从数学角度看，排序问题可以形式化为一个函数映射问题。给定查询$q$和文档集合$D = \{d_1, d_2, ..., d_n\}$，排序函数$f$的目标是学习一个评分函数：

$$f: (q, d) \rightarrow \mathbb{R}$$ 这个函数为每个查询-文档对$(q, d)$生成一个实数分数，表示文档$d$对查询$q$的相关程度。最终的排序列表通过对所有文档的分数进行降序排列得到。

1.1.2 查询-文档对的特征表示

在实际应用中，查询-文档对通常被表示为一个特征向量$\mathbf{x} \in \mathbb{R}^m$，包含三类特征：

查询特征：查询长度、查询频率、查询类别等
文档特征：PageRank、文档长度、更新时间等
交互特征：BM25分数、TF-IDF、查询词覆盖率等

排序模型的任务就是学习从特征空间到相关性分数的映射：$f: \mathbb{R}^m \rightarrow \mathbb{R}$

1.1.3 三种建模范式

根据损失函数的设计方式，排序学习方法可以分为三大类：

查询: "机器学习教程"
文档集合: [d1, d2, d3, d4, d5]

┌─────────────────────────────────────────────────┐
│  Pointwise（点对点）                              │
│  独立预测每个文档的相关性分数                        │
│  d1→3.2  d2→4.5  d3→2.1  d4→4.8  d5→1.9        │
└─────────────────────────────────────────────────┘
                      ↓
┌─────────────────────────────────────────────────┐
│  Pairwise（成对）                                │
│  学习文档对的相对顺序                              │
│  (d4>d2)✓  (d2>d1)✓  (d1>d3)✓  (d3>d5)✓        │
└─────────────────────────────────────────────────┘
                      ↓
┌─────────────────────────────────────────────────┐
│  Listwise（列表级）                              │
│  直接优化整个排序列表                              │
│  最优列表: [d4, d2, d1, d3, d5]                  │
└─────────────────────────────────────────────────┘

Pointwise方法将排序问题转化为回归或分类问题，每个查询-文档对独立处理。虽然简单直观，但忽略了文档间的相对关系。

Pairwise方法关注文档对的相对顺序，将排序问题转化为二分类问题。代表算法如RankSVM、RankBoost等。这类方法考虑了文档间关系，但仍未直接优化排序指标。

Listwise方法直接在整个排序列表上定义损失函数，能够更好地建模位置信息和文档间的依赖关系。LambdaRank和ListNet是这类方法的代表。

1.1.4 相关性标注体系

现代排序系统通常采用多级相关性标注，而非简单的二元相关/不相关。常见的标注体系包括：

二级标注：{不相关=0, 相关=1}
三级标注：{不相关=0, 一般相关=1, 非常相关=2}
五级标注：{完全不相关=0, 边缘相关=1, 一般相关=2, 相关=3, 非常相关=4}

多级标注能够更细致地刻画文档的相关程度，这也是NDCG相比早期二元指标的重要优势之一。

1.2 经典指标：Precision, Recall, MAP

1.2.1 Precision@k 和 Recall@k

Precision@k（精确率）衡量前k个结果中相关文档的比例： $$\text{Precision@k} = \frac{|\text{前k个结果中的相关文档}|}{k}$$ Recall@k（召回率）衡量前k个结果覆盖了多少相关文档： $$\text{Recall@k} = \frac{|\text{前k个结果中的相关文档}|}{|\text{所有相关文档}|}$$ 计算示例：假设查询"深度学习"有5个相关文档，搜索结果前10个中有3个相关：

Precision@10 = 3/10 = 0.3
Recall@10 = 3/5 = 0.6

这两个指标简单直观，但存在明显局限：

将所有相关文档同等对待，不区分相关程度
不考虑位置信息，第1位和第k位的相关文档贡献相同
二者存在天然的权衡关系（trade-off）

1.2.2 Average Precision (AP) 和 Mean Average Precision (MAP)

Average Precision考虑了排序位置的影响，定义为： $$\text{AP} = \frac{1}{|\text{相关文档}|} \sum_{k=1}^{n} \text{Precision@k} \times \text{rel}(k)$$ 其中$\text{rel}(k)$是指示函数，当第k个文档相关时为1，否则为0。

计算示例：排序结果：[相关, 不相关, 相关, 相关, 不相关]

位置1：Precision@1 = 1/1 = 1.0
位置3：Precision@3 = 2/3 ≈ 0.67
位置4：Precision@4 = 3/4 = 0.75
AP = (1.0 + 0.67 + 0.75) / 3 ≈ 0.81

MAP是AP在多个查询上的平均值： $$\text{MAP} = \frac{1}{|Q|} \sum_{q \in Q} \text{AP}(q)$$ AP/MAP的优势在于综合考虑了精确率和排序位置，但仍局限于二元相关性判断。

1.2.3 Reciprocal Rank (RR) 和 Mean Reciprocal Rank (MRR)

Reciprocal Rank关注第一个相关文档的位置： $$\text{RR} = \frac{1}{\text{第一个相关文档的位置}}$$ MRR是多个查询的平均： $$\text{MRR} = \frac{1}{|Q|} \sum_{q \in Q} \text{RR}(q)$$ 这个指标特别适用于导航型查询（navigational query），用户只需要找到一个正确答案。例如，搜索"Facebook登录"时，用户通常只需要Facebook的官方登录页面。

1.2.4 指标对比与适用场景

| 指标 | 优势 | 局限 | 适用场景 |

指标	优势	局限	适用场景
Precision@k	简单直观	忽略位置和相关度差异	快速评估
Recall@k	衡量覆盖度	不考虑排序质量	召回导向场景
MAP	综合性强	仅支持二元相关	学术评测
MRR	关注首个结果	忽略其他相关文档	导航型查询

1.3 排序指标的演进历史

1.3.1 布尔检索时代（1950s-1970s）

信息检索的早期阶段，系统基于布尔逻辑进行精确匹配。用户通过AND、OR、NOT等逻辑运算符构建查询，系统返回满足条件的所有文档，没有相关性排序的概念。

这个时期的"评价"非常简单：

查询要么返回结果，要么返回空集
所有返回的文档被认为同等相关
主要关注查全率，而非排序质量

代表系统：早期的图书馆检索系统、法律文献数据库

1.3.2 向量空间模型与TF-IDF（1970s-1990s）

Gerard Salton在1975年提出的向量空间模型（Vector Space Model）带来了革命性变化。文档和查询被表示为高维向量，相关性通过余弦相似度计算： $$\text{sim}(q, d) = \frac{\mathbf{q} \cdot \mathbf{d}}{|\mathbf{q}| \times |\mathbf{d}|}$$ TF-IDF（词频-逆文档频率）成为标准的特征权重方案： $$\text{TF-IDF}(t, d) = \text{TF}(t, d) \times \log\frac{N}{\text{DF}(t)}$$ 这个时期开始出现Precision和Recall等评价指标，但主要还是基于二元相关性判断。

1.3.3 概率检索模型时代（1990s-2000s）

BM25（Best Matching 25）的出现标志着概率检索模型的成熟。基于概率排序原理（Probability Ranking Principle），BM25综合考虑了词频饱和、文档长度归一化等因素： $$\text{BM25}(q, d) = \sum_{t \in q} \text{IDF}(t) \times \frac{\text{TF}(t, d) \times (k_1 + 1)}{\text{TF}(t, d) + k_1 \times (1 - b + b \times \frac{|d|}{\text{avgdl}})}$$ 这个时期，TREC（Text REtrieval Conference）评测推动了评价指标的标准化，MAP成为主流指标。但随着Web规模的爆炸式增长，二元相关性的局限越来越明显。

1.3.4 机器学习引入（2000s-2010s）

2000年代初，机器学习方法开始应用于排序问题。与传统方法依赖人工设计的公式不同，机器学习方法能够：

自动组合数百维特征
从大规模点击日志中学习
适应不同的应用场景

这个时期的关键突破包括：

RankSVM（2002）：将排序转化为SVM分类问题
RankBoost（2003）：基于Boosting的排序算法
RankNet（2005）：首个基于神经网络的排序方法

评价指标也发生了重要变革：

NDCG（2002）：支持多级相关性，考虑位置折损
ERR（2009）：基于级联模型的期望倒数排名

1.3.5 深度学习革命（2010s-至今）

深度学习为排序带来了新的可能：

表示学习的突破：

DSSM（2013）：深度语义匹配模型
Doc2Vec（2014）：文档的分布式表示
BERT（2019）：预训练语言模型用于排序

端到端学习：不再需要人工特征工程，模型可以直接从原始文本学习：

查询文本 → [BERT编码器] → 查询向量
文档文本 → [BERT编码器] → 文档向量
相关性分数 = 相似度(查询向量, 文档向量)

新的挑战与指标：

多样性：α-NDCG、ERR-IA
公平性：Fairness-aware ranking metrics
用户满意度：基于点击模型的指标

1.3.6 大模型时代的新范式（2020s-）

GPT、Claude等大语言模型带来了Zero-shot排序能力：

无需训练，直接通过提示词进行排序
能够理解复杂的语义和上下文
可解释性更强的排序决策

评价体系也在演进：

需要考虑计算成本（延迟、吞吐量）
生成式检索的评价（不仅排序，还要生成）
多模态排序的评价（文本+图像+视频）

1.4 为什么需要NDCG：解决什么问题

1.4.1 现有指标的根本局限

传统指标在现代搜索场景中暴露出严重不足：

问题1：二元相关性太粗糙

用户查询："Python教程"
搜索结果：

1. Python官方入门教程（极其相关：5分）
2. Python简单示例（一般相关：2分）
3. Java教程（不相关：0分）

Precision@2 = 2/2 = 1.0  // 无法区分结果1和2的质量差异！

问题2：位置重要性被忽略

排序A: [相关, 相关, 不相关, 不相关, 不相关]
排序B: [不相关, 不相关, 不相关, 相关, 相关]

Precision@5 = 2/5 = 0.4  // 两个排序得分相同，但A明显更好！

问题3：无法处理不完整判断 实际场景中，不可能对所有文档进行标注：

Google索引的网页数量超过千亿
人工标注成本极高
需要能处理部分标注的指标

1.4.2 NDCG的创新设计

NDCG通过三个关键创新解决了上述问题：

多级相关性支持 NDCG原生支持任意级别的相关性标注： $$\text{DCG@k} = \sum_{i=1}^{k} \frac{2^{rel_i} - 1}{\log_2(i + 1)}$$ 其中$rel_i$可以是0到4的任意整数，甚至可以是连续值。
位置折损函数 折损因子$\frac{1}{\log_2(i + 1)}$体现了用户行为模式：

位置1的文档最重要（无折损）
位置越靠后，重要性指数衰减
符合眼动追踪实验的发现

归一化设计 通过理想排序的DCG进行归一化： $$\text{NDCG@k} = \frac{\text{DCG@k}}{\text{IDCG@k}}$$ 这使得：

不同查询的分数可比（都在0-1之间）
可以在不完整标注上计算
便于聚合和统计分析

1.4.3 NDCG vs 其他指标的实证对比

案例研究：电商搜索优化

算法	MAP	Precision@10	NDCG@10	转化率提升
基线（BM25）	0.42	0.38	0.45	-
优化MAP	0.51	0.41	0.48	+2.3%
优化Precision	0.45	0.46	0.47	+1.8%
优化NDCG	0.48	0.43	0.56	+5.7%

结果表明，直接优化NDCG带来的业务提升最显著，因为它更准确地建模了用户满意度。

1.4.4 NDCG的理论优势

信息论视角 NDCG与信息增益（Information Gain）有深刻联系。使用$2^{rel} - 1$作为增益函数，可以解释为：

相关度每提高一级，信息价值翻倍
符合用户感知的边际效用递增

统计学视角 NDCG具有良好的统计性质：

渐近正态性：便于计算置信区间
一致性：样本增大时收敛到真实值
鲁棒性：对异常值不敏感

决策论视角 从期望效用理论看，NDCG最大化等价于最大化用户的期望满意度： $$\mathbb{E}[\text{用户满意度}] \approx \text{NDCG}$$ 这为NDCG提供了坚实的理论基础。

1.5 工业界的指标选择：Google、Microsoft、阿里巴巴的实践

1.5.1 Google搜索的演进之路

早期（1998-2005）：PageRank时代 Google最初依赖PageRank进行网页排序，评价体系相对简单：

主要关注查准率（用户能否快速找到答案）
内部使用修改版的Precision@1和@3
"I'm Feeling Lucky"按钮体现了对第一结果的极度自信

中期（2005-2015）：机器学习时代 引入RankBrain后，Google的评价体系变得更加复杂：

核心指标体系：
├── 相关性指标
│   ├── NDCG@5, NDCG@10（主指标）
│   └── Precision@1（导航查询）
├── 用户体验指标
│   ├── 点击率（CTR）
│   ├── 停留时间（Dwell Time）
│   └── 跳出率（Bounce Rate）
└── 多样性指标
    └── α-NDCG（结果多样性）

现代（2015-至今）：BERT与MUM时代

主指标：加权NDCG，不同查询类型权重不同
细分指标：
事实性查询：MRR（找到正确答案即可）
探索性查询：NDCG@20（需要多个高质量结果）
本地查询：位置相关的NDCG变体

Google的独特实践：

Side-by-side评测：评估员同时看两个排序结果
Query类型细分：不同类型查询使用不同指标权重
实时指标监控：每个算法变更都经过严格的在线A/B测试

1.5.2 Microsoft Bing的技术积累

Microsoft Research在排序学习领域的贡献举世瞩目，Bing搜索直接受益于这些研究：

核心指标架构：

Bing指标体系
├── 离线评测
│   ├── NDCG@1,3,5,10（不同位置的重要性）
│   ├── MAP（学术传承）
│   └── ERR（期望倒数排名）
├── 在线指标
│   ├── 会话成功率（Session Success Rate）
│   ├── 任务完成时间
│   └── 用户满意度评分
└── 业务指标
    ├── 市场份额
    └── 广告收入（需要平衡）

Bing的创新贡献：

LambdaMART：直接优化NDCG的梯度提升树
点击模型：从噪声点击数据推断真实相关性
个性化NDCG：考虑用户历史的指标变体

实际案例：Bing图片搜索优化 2019年，Bing团队通过优化图片搜索的NDCG@5，实现了：

用户满意度提升12%
图片点击率提升8%
搜索会话时长减少15%（找到结果更快）

1.5.3 阿里巴巴的电商搜索实践

电商搜索与网页搜索有本质区别，阿里巴巴发展出了独特的评价体系：

多目标优化框架：

综合得分 = α × NDCG@k + β × GMV + γ × CTR + δ × 多样性
其中：

- NDCG@k：搜索相关性
- GMV：成交总额（Gross Merchandise Value）
- CTR：点击率
- 多样性：类目、价格、品牌的分布

阿里的指标创新：

购买导向NDCG（Purchase-NDCG） - 相关性标注基于购买概率而非文本相关 - 考虑价格、销量、评价等商业因素 - 公式：$\text{P-NDCG} = \text{NDCG} \times \text{购买率权重}$
个性化NDCG（Personalized-NDCG） - 不同用户的"理想排序"不同 - 基于用户画像调整相关性判断 - 新老用户使用不同的折损函数
实时性加权 - 促销商品的相关性动态调整 - 库存状态影响排序分数 - 季节性商品的时效性考虑

淘宝搜索的实际效果：

2023年双11期间的指标表现：

- NDCG@10: 0.72（相比去年+5%）
- 人均点击商品数: 15.3（+12%）
- 搜索转化率: 4.2%（+0.8%）
- 用户停留时长: 8.5分钟（+1.2分钟）

1.5.4 不同场景的指标选择策略

场景1：学术搜索（Google Scholar、Microsoft Academic）

主指标：NDCG@20（需要综合多篇论文）
辅助：引用数加权的NDCG
特殊考虑：时间衰减（新论文的重要性）

场景2：视频推荐（YouTube、B站）

主指标：观看时长加权的NDCG
辅助：完播率、互动率
挑战：隐式反馈（没有明确的相关性标注）

场景3：新闻排序（Google News、今日头条）

主指标：时效性调整的NDCG
辅助：点击率、分享率
特殊：多样性约束（避免信息茧房）

1.5.5 工业界的最佳实践总结

从顶级科技公司的实践中，我们可以总结出以下经验：

多指标综合评价 没有单一指标能够完美衡量排序质量，需要构建指标体系：

主指标（通常是NDCG）把控大方向
辅助指标确保没有退化
业务指标保证商业价值

在线离线结合 - 离线指标快速迭代（NDCG等） - 在线A/B测试最终验证 - 长期效果跟踪（用户留存等）
场景化定制 - 不同查询类型使用不同指标 - 根据用户群体调整权重 - 考虑地域、时间等因素
持续优化闭环

用户行为 → 数据收集 → 指标计算 → 模型优化 → 部署上线 → 用户行为
         ↑                                            ↓
         └──────────────── 反馈循环 ←─────────────────┘

警惕指标游戏（Metric Gaming） - 避免过度优化单一指标 - 设置护栏指标（guardrail metrics） - 定期审查指标有效性

本章小结

本章系统介绍了排序评价指标的基础知识，为深入学习NDCG优化奠定了理论基础。让我们回顾本章的关键要点：

核心概念回顾

排序问题的本质：排序是一个从查询-文档对到相关性分数的函数映射问题，可以采用Pointwise、Pairwise或Listwise三种建模范式。
经典指标的演进： - Precision/Recall：简单但忽略位置信息 - MAP：考虑位置但仅支持二元相关 - MRR：适合导航查询但忽略多个相关文档
NDCG的独特价值： - 支持多级相关性（0-4分或连续值） - 位置折损函数$\frac{1}{\log_2(i+1)}$符合用户行为 - 归一化设计使不同查询可比
工业界最佳实践： - Google、Microsoft、阿里巴巴都以NDCG为核心指标 - 多指标综合评价避免过拟合 - 场景化定制满足不同需求

关键公式总结

| 指标 | 公式 | 特点 |

指标	公式	特点
Precision@k	$\frac{\text{相关文档数}}{k}$	不考虑位置
AP	$\frac{1}{\|R\|}\sum_{k=1}^{n}\text{P@k} \times \text{rel}(k)$	位置敏感
DCG@k	$\sum_{i=1}^{k}\frac{2^{rel_i}-1}{\log_2(i+1)}$	多级相关+位置折损
NDCG@k	$\frac{\text{DCG@k}}{\text{IDCG@k}}$	归一化到[0,1]

为下一章做准备

理解了NDCG的设计理念和优势后，下一章我们将深入探讨：

DCG和NDCG的严格数学定义
不同折损函数的设计哲学
NDCG的统计性质和置信区间计算
与其他指标的理论比较

这些深入的理论分析将为第三章的优化算法学习打下坚实基础。

练习题

基础题（理解概念）

题目1.1 给定查询"机器学习"的搜索结果及相关性标注：

位置1: 文档A (相关性=3)
位置2: 文档B (相关性=2)
位置3: 文档C (相关性=0)
位置4: 文档D (相关性=1)
位置5: 文档E (相关性=2)

计算：(a) Precision@3 (b) DCG@5 (c) 如果理想排序是[A,B,E,D,C]，计算NDCG@5

Hint: 记住DCG的公式，注意位置从1开始

答案

(a) Precision@3 = 2/3 ≈ 0.67（位置1和2相关，位置3不相关）

(b) DCG@5计算：

位置1: $(2^3-1)/\log_2(2) = 7/1 = 7$
位置2: $(2^2-1)/\log_2(3) = 3/1.585 ≈ 1.89$
位置3: $(2^0-1)/\log_2(4) = 0/2 = 0$
位置4: $(2^1-1)/\log_2(5) = 1/2.322 ≈ 0.43$
位置5: $(2^2-1)/\log_2(6) = 3/2.585 ≈ 1.16$
DCG@5 = 7 + 1.89 + 0 + 0.43 + 1.16 = 10.48

位置1: $7/1 = 7$
位置2: $3/1.585 ≈ 1.89$
位置3: $3/2 = 1.5$
位置4: $1/2.322 ≈ 0.43$
位置5: $0/2.585 = 0$
IDCG@5 = 10.82
NDCG@5 = 10.48/10.82 ≈ 0.97

题目1.2 解释为什么MAP不适合电商搜索场景，而NDCG更合适？请给出至少三个理由。

Hint: 考虑电商的特点：商品有不同程度的匹配、用户只看前几个结果、需要考虑转化率

答案

多级相关性需求：电商商品与查询的匹配程度是连续的（完全匹配、部分匹配、相关类目等），MAP只支持二元判断无法精确建模。
位置极其重要：用户通常只看前3-5个商品，NDCG的对数折损函数更符合这种行为，而MAP对所有位置的相关商品同等对待。
商业价值差异：不同商品的商业价值（利润、库存、促销）不同，NDCG可以通过调整相关性分数体现这种差异，MAP做不到。
个性化需求：同一查询对不同用户的理想排序不同，NDCG可以基于用户画像调整，MAP的绝对相关性判断不够灵活。

题目1.3 某搜索系统使用5级相关性标注(0-4)。如果将所有标注简化为二元(0-1)，对NDCG的计算会有什么影响？

Hint: 考虑信息损失和区分度

答案

简化为二元标注会导致：

信息损失：无法区分"非常相关"(4)和"一般相关"(2)，它们都变成1，导致NDCG无法反映细微的排序质量差异。
NDCG值趋同：不同质量的排序可能得到相同的NDCG分数，降低了指标的区分度。例如[4,2,0]和[2,4,0]在二元化后都是[1,1,0]，NDCG相同。
优化方向偏差：模型可能学会将"边缘相关"的文档排到最前面（因为它们也是1），而不是真正最相关的文档。
上界降低：原本NDCG的值域丰富，二元化后很多排序都能达到NDCG=1，失去了改进空间的指示作用。

挑战题（深入思考）

题目1.4 设计一个新的排序指标，要求：(a)支持多样性 (b)考虑位置偏差 (c)计算复杂度O(n)。给出公式并解释设计理由。

Hint: 可以在NDCG基础上加入多样性惩罚项

答案

多样性感知NDCG (Diversity-aware NDCG, D-NDCG)： $$\text{D-NDCG@k} = \text{NDCG@k} \times (1 - \lambda \cdot \text{Redundancy@k})$$ 其中冗余度定义为： $$\text{Redundancy@k} = \frac{1}{k(k-1)} \sum_{i=1}^{k}\sum_{j=i+1}^{k} \text{sim}(d_i, d_j) \times \frac{1}{\log_2(j+1)}$$

设计理由：

多样性：通过冗余度惩罚相似文档，sim()可以是类目相似度、文本相似度等
位置偏差：保留NDCG的位置折损，冗余度计算也考虑位置权重
复杂度O(n)：预计算相似度矩阵后，遍历一次即可计算
可解释性：λ参数控制多样性权重，=0时退化为NDCG

实现优化：可以用类目、价格区间等离散特征快速计算相似度，避免文本相似度的高开销。

题目1.5 Yahoo! Learning to Rank Challenge使用NDCG作为评价指标。如果你是参赛者，如何处理以下挑战：

训练集只有部分文档有标注
测试集的查询与训练集不同
需要在准确率和效率间平衡

Hint: 考虑迁移学习、特征工程、模型选择

答案

处理策略：

部分标注问题： - 使用Listwise方法（如LambdaMART），它能自然处理未标注文档 - 半监督学习：用已标注数据训练初始模型，预测未标注文档的伪标签 - 只在有标注的文档对上计算损失，忽略未标注对
查询分布偏移： - 特征工程：使用查询无关特征（PageRank、文档质量）作为基础 - 领域适应：训练时对相似查询加权，减少分布差异 - 集成学习：结合多个模型降低过拟合风险
效率优化： - 级联排序：先用简单模型（BM25）召回Top-1000，再用复杂模型精排Top-100 - 特征选择：用互信息或SHAP值选择最重要的50-100个特征 - 模型选择：LambdaMART在准确率和速度间平衡最好，避免深度模型
具体实现：

# 伪代码
pipeline = [
    BM25Retriever(top_k=1000),  # 快速召回
    LambdaMART(                   # 精排
        features=selected_features,
        trees=500,
        leaves=31,
        learning_rate=0.1
    )
]

题目1.6 某短视频平台发现优化NDCG@10后，用户观看时长反而下降了。分析可能的原因并提出改进方案。

Hint: 考虑指标与业务目标的对齐、用户行为模式、标注质量

答案

可能原因分析：

标注偏差： - 相关性标注可能基于标题匹配，但标题党视频内容质量差 - 标注团队不能代表真实用户偏好
用户行为差异： - 短视频用户追求娱乐，不是信息检索 - "相关"不等于"想看"，用户需要意外惊喜
位置模型不适用： - 短视频是滑动浏览，不是列表选择 - 对数折损不符合连续观看行为

改进方案：

重新定义"相关性"：

相关性 = α×文本匹配 + β×预测观看时长 + γ×预测完播率 + δ×预测互动率

改进标注策略： - 基于实际用户行为（观看时长、完播、点赞）自动生成标注 - A/B测试验证标注质量
指标改进：

# 时长加权NDCG
TD-NDCG@k = Σ(watch_time[i] × gain[i] / log(i+1)) / ideal_sum

# gain基于完播率而非人工标注
gain[i] = completion_rate[i] × user_satisfaction[i]

多目标优化： - 主目标：用户观看时长 - 约束：NDCG@10 > 阈值（保证基础相关性） - 辅助：多样性、新鲜度
实验设计： - 分用户群体测试（新用户vs老用户） - 分时段测试（高峰期vs低峰期） - 长期效果跟踪（7天、30天留存）

题目1.7 如果NDCG中的折损函数改为$\frac{1}{i}$（线性折损）或$\frac{1}{i^2}$（平方折损），会对排序学习产生什么影响？

Hint: 考虑梯度变化、对前后位置的重视程度、收敛速度

答案

影响分析：

线性折损 $\frac{1}{i}$： - 位置重要性下降更快（原版是$\frac{1}{\log i}$） - 模型会极度关注Top-3，忽略后续位置 - 优点：收敛快，适合用户只看前几个结果的场景 - 缺点：Top-k(k>5)的优化效果差
平方折损 $\frac{1}{i^2}$： - 位置重要性急剧下降 - 几乎只优化第1位，类似于优化Precision@1 - 优点：适合导航型查询 - 缺点：多样性差，容易过拟合到位置1
梯度影响（以LambdaRank为例）：

# 原版对数折损
λ_ij ∝ |ΔNDCG| ∝ 1/log(i) - 1/log(j)  # 平滑下降

# 线性折损  
λ_ij ∝ |ΔNDCG| ∝ 1/i - 1/j  # 前期梯度大，后期梯度小

# 平方折损
λ_ij ∝ |ΔNDCG| ∝ 1/i² - 1/j²  # 位置1的梯度极大，其他位置几乎无梯度

实验建议： - 搜索场景：保持对数折损（用户会看5-10个结果） - 推荐场景：考虑线性折损（用户只看3-5个） - 导航场景：考虑平方折损（用户只要第1个）
自适应方案：

def adaptive_discount(position, query_type):
    if query_type == "navigational":
        return 1 / (position ** 2)
    elif query_type == "transactional":
        return 1 / position
    else:  # informational
        return 1 / np.log2(position + 1)

题目1.8 设计一个实验来验证"NDCG与用户满意度正相关"这个假设。包括实验设计、数据收集、统计分析方法。

Hint: 考虑如何测量用户满意度、如何控制变量、样本量计算

答案

实验设计方案：

假设定义： - H0：NDCG与用户满意度无关（相关系数ρ=0） - H1：NDCG与用户满意度正相关（ρ>0） - 显著性水平：α=0.05
实验设置：

实验设计：2×2 因子设计

- 因子1：NDCG水平（高 >0.7 vs 低 <0.5）
- 因子2：查询类型（导航型 vs 信息型）
- 随机分配用户到4个实验组
- 实验周期：2周（避免新奇效应）

用户满意度测量： - 显式指标：
- 会话结束后1-5分满意度评分
- 是否找到所需信息（是/否）
- 隐式指标：
- 搜索会话成功率（有点击且停留>30秒）
- 重复搜索率（同一意图再次搜索）
- 平均会话时长（越短越好）
数据收集：

# 每个会话记录
{
    "session_id": "xxx",
    "user_id": "xxx", 
    "query": "xxx",
    "ndcg@10": 0.75,
    "clicks": [1, 3, 4],  # 点击位置
    "dwell_times": [45, 12, 89],  # 停留时间
    "satisfaction_score": 4,  # 1-5分
    "found_answer": true,
    "session_duration": 120  # 秒
}

样本量计算：

# 检测中等效应量（ρ=0.3），power=0.8
import statsmodels.stats.power as smp
n = smp.tt_ind_solve_power(effect_size=0.3, alpha=0.05, power=0.8)
# 需要约90个独立会话per组，总计360个会话

统计分析：

# 1. 相关性分析
pearson_r = scipy.stats.pearsonr(ndcg_scores, satisfaction_scores)
spearman_r = scipy.stats.spearmanr(ndcg_scores, satisfaction_scores)

# 2. 回归分析（控制混杂因素）
model = sm.OLS(satisfaction ~ ndcg + query_type + user_experience + 
                query_length + result_diversity)

# 3. 因果推断（工具变量法）
# 用算法随机化作为工具变量，排除反向因果
iv_model = IV2SLS(satisfaction ~ [ndcg | algorithm_assignment])

结果解释注意事项： - 区分相关性vs因果性 - 考虑非线性关系（NDCG>0.8后满意度可能不再提升） - 分析异质性效应（新老用户可能不同） - 长期vs短期效应（蜜月期效应）
预期结果： - NDCG与满意度相关系数：0.4-0.6（中等正相关） - NDCG每提升0.1，满意度提升0.2-0.3分 - 效应在信息型查询更强（vs导航型）

常见陷阱与错误（Gotchas）

陷阱1：忽视位置偏差的影响

错误示例：

# 错误：直接用点击率作为相关性
relevance = click_count / impression_count

问题：位置1的点击率天然高于位置10，即使它们同等相关。

正确做法：

# 使用位置归一化的点击率
normalized_ctr = actual_ctr / expected_ctr_at_position
# 或使用点击模型消除位置偏差

陷阱2：过度依赖单一指标

错误示例： "我们的NDCG@10达到0.85，系统已经很完美了！"

问题：

NDCG高不代表用户满意（可能标注有偏）
忽略了其他重要维度（多样性、新鲜度、公平性）

正确做法：建立多维度指标体系，设置护栏指标防止退化。

陷阱3：训练测试数据泄露

错误示例：

# 用同一查询的文档计算IDCG
idcg = calculate_idcg(all_documents_for_query)

问题：测试时无法获得所有文档的真实标注，IDCG计算不准确。

正确做法：

# 只用已标注文档池计算IDCG
idcg = calculate_idcg(labeled_documents_only)

陷阱4：忽略在线离线差异

错误示例： "离线NDCG提升5%，上线效果一定很好！"

问题：

离线测试集可能过时
用户行为动态变化
在线有展示偏差

正确做法：始终进行在线A/B测试验证，建立离线-在线指标映射关系。

陷阱5：不当的相关性标注

错误示例：让工程师标注搜索相关性，或完全依赖点击数据。

问题：

工程师不代表真实用户
点击数据有噪声和偏差

正确做法：

建立专业标注团队
制定详细标注指南
多人标注取平均
定期审查标注质量

最佳实践检查清单

在实施排序系统时，请确保：

✅ 指标选择

[ ] 根据业务场景选择主指标（NDCG适合多数场景）
[ ] 设置护栏指标防止关键指标退化
[ ] 区分短期指标和长期指标
[ ] 为不同查询类型设置不同权重

✅ 数据质量

[ ] 建立规范的标注流程和指南
[ ] 实施标注质量控制（一致性检查、黄金标准）
[ ] 定期更新标注以反映用户偏好变化
[ ] 处理位置偏差和选择偏差

✅ 实验设计

[ ] 离线评测使用留出法或交叉验证
[ ] 在线实验采用A/B测试
[ ] 确保实验组可比性（随机分配）
[ ] 计算统计显著性和置信区间

✅ 系统监控

[ ] 实时监控核心指标
[ ] 设置异常告警阈值
[ ] 记录所有实验结果
[ ] 定期回顾指标有效性

✅ 优化策略

[ ] 从简单模型开始，逐步增加复杂度
[ ] 关注头部查询但不忽视长尾
[ ] 平衡相关性与多样性
[ ] 考虑计算成本和延迟要求

通过遵循这些最佳实践，您将能够构建一个既准确又稳定的排序系统。下一章，我们将深入探讨NDCG的数学细节和统计性质。