第14章：大规模协同过滤的矩阵技术

推荐系统是现代互联网服务的核心组件，而矩阵分解技术则是其数学基石。本章深入探讨在处理数十亿用户和数百万物品时，如何设计和优化矩阵计算方法。我们将重点关注隐式反馈场景——这是实际系统中最常见但也最具挑战性的设置。通过学习本章，读者将掌握工业级推荐系统背后的核心矩阵技术，理解从理论到实践的关键权衡，并能够设计适合特定场景的高效算法。

14.1 隐式反馈矩阵分解的加权策略

14.1.1 隐式反馈与显式评分的本质差异

在显式评分系统中，用户主动为物品打分（如1-5星），我们可以直接将评分矩阵 $\mathbf{R} \in \mathbb{R}^{m \times n}$ 分解为： $$\mathbf{R} \approx \mathbf{P}\mathbf{Q}^T$$ 其中 $\mathbf{P} \in \mathbb{R}^{m \times k}$ 是用户因子矩阵，$\mathbf{Q} \in \mathbb{R}^{n \times k}$ 是物品因子矩阵。

然而，隐式反馈（点击、浏览、购买等）带来了根本性的挑战：

正样本偏差：观察到的交互不等同于偏好强度 - 高频点击可能源于UI位置而非真实兴趣 - 购买行为受价格、库存等外部因素影响 - 浏览时长受内容长度和用户空闲时间影响 - 批量操作（如清空购物车）引入噪声 - 季节性和促销活动造成的行为异常
负样本缺失：未交互不等于不感兴趣 - 用户未发现的优质内容（曝光偏差） - 时间限制导致的未消费（机会成本） - 平台推荐算法造成的过滤气泡 - 新物品的冷启动问题 - 地理限制或内容授权导致的不可达
置信度差异：不同类型交互的可靠性不同 - 购买 > 收藏 > 点赞 > 点击 > 曝光 - 重复行为比单次行为更可靠 - 主动搜索比被动浏览更能反映真实意图 - 深度交互（评论、分享）比浅层交互更有价值 - 付费行为比免费行为更能反映真实偏好

数学建模的范式转变：

从概率角度，显式评分可以建模为： $$P(r_{ui} | \mathbf{p}_u, \mathbf{q}_i) = \mathcal{N}(r_{ui}; \mathbf{p}_u^T\mathbf{q}_i, \sigma^2)$$ 而隐式反馈需要考虑两阶段过程：

偏好生成：$\text{preference}_{ui} \sim \text{Bernoulli}(\sigma(\mathbf{p}_u^T\mathbf{q}_i))$
观察过程：$\text{observed}_{ui} | \text{preference}_{ui} \sim \text{Bernoulli}(p_{\text{obs}})$

这导致我们需要重新设计目标函数： $$\min_{\mathbf{P},\mathbf{Q}} \sum_{(u,i) \in \mathcal{D}} c_{ui}(p_{ui} - \mathbf{p}_u^T\mathbf{q}_i)^2 + \lambda(|\mathbf{P}|_F^2 + |\mathbf{Q}|_F^2)$$ 其中 $c_{ui}$ 是置信度权重，$p_{ui}$ 是偏好指示器（通常二值化）。

数学本质：从期望最大化(EM)角度理解

E步：基于当前模型推断缺失的负反馈
M步：在加权的完整数据上更新参数
权重 $c_{ui}$ 反映了我们对观察值的信任程度

理论联系：隐式反馈矩阵分解与其他机器学习方法的深层联系：

与排序学习的关系：隐式反馈MF可以视为全局排序模型： $$P(i \succ j | u) = \sigma(\mathbf{p}_u^T(\mathbf{q}_i - \mathbf{q}_j))$$
与点过程的联系：用户行为序列可建模为标记时空点过程： $$\lambda(t,i|u) = \mu_i \cdot \exp(\mathbf{p}_u^T\mathbf{q}_i) \cdot g(t-t_{\text{last}})$$
与图神经网络的对应：矩阵分解等价于在二部图上的浅层图嵌入： $$\mathbf{h}_u = \text{Aggregate}({\mathbf{q}_i : i \in \mathcal{N}(u)})$$ 实践考虑：工业系统中的额外复杂性
多设备行为聚合： $$c_{ui} = f_{\text{device}}({c_{ui}^{(d)} : d \in \text{devices}(u)})$$ 需要识别和合并跨设备的用户身份
会话内行为建模：短期兴趣与长期偏好的分离： $$\mathbf{p}_u(t) = \alpha \mathbf{p}_u^{\text{long}} + (1-\alpha) \mathbf{p}_u^{\text{session}}(t)$$
位置偏差校正： $$c_{ui} = c_{ui}^{\text{raw}} \cdot \frac{1}{b_{\text{position}}(k)}$$ 其中 $k$ 是物品在列表中的位置

14.1.2 置信度矩阵的构建原理

置信度矩阵 $\mathbf{C}$ 的设计直接影响模型质量。经典的Hu等人提出的线性置信度函数： $$c_{ui} = 1 + \alpha \cdot r_{ui}$$ 其中 $r_{ui}$ 是原始交互强度（如播放次数）。

理论基础：将置信度视为观测噪声的倒数 $$\text{Var}[\epsilon_{ui}] = \frac{\sigma^2}{c_{ui}}$$ 这意味着交互次数越多，观测越可靠，方差越小。

从信息论角度理解置信度：置信度可以解释为每次观察提供的信息量： $$I(r_{ui}; r_{ui}^*) = \frac{1}{2}\log\left(1 + \frac{c_{ui}\sigma_r^2}{\sigma_\epsilon^2}\right)$$ 其中 $r_{ui}^*$ 是真实偏好，$\sigma_r^2$ 是偏好方差，$\sigma_\epsilon^2$ 是观测噪声方差。

高级置信度设计考虑因素：

时间衰减： $$c_{ui}(t) = c_{ui} \cdot \exp(-\beta(t - t_{ui}))$$

半衰期选择：$t_{1/2} = \frac{\ln 2}{\beta}$
典型值：新闻类 $t_{1/2} = 1\text{天}$，电影类 $t_{1/2} = 30\text{天}$
自适应衰减率：$\beta_i = \beta_0 \cdot (1 + \text{entropy}({t_{ui}}_{u}))$

用户活跃度归一化： $$\tilde{c}_{ui} = \frac{c_{ui}}{\sqrt{\sum_j c_{uj}}}$$

防止超级活跃用户主导模型更新
保证梯度贡献的公平性
理论依据：保持用户对损失函数的贡献期望相等

物品流行度惩罚： $$\hat{c}_{ui} = c_{ui} \cdot \left(\frac{N}{\text{count}(i)}\right)^\gamma$$

降低热门物品的权重，促进长尾发现
$\gamma \in [0, 0.5]$ 控制惩罚强度
动态调整：$\gamma(t) = \gamma_0 \cdot (1 - \text{coverage}(t))$

实用性扩展：

上下文感知置信度： $$c_{ui}(\mathbf{x}) = c_{ui} \cdot f_{\theta}(\mathbf{x}_{ui})$$ 其中 $\mathbf{x}_{ui}$ 包含：

设备类型（移动端行为通常噪声更大）
时段（深夜浏览vs工作时间）
地理位置（本地内容vs全球内容）
网络状态（加载速度影响完成率）

多行为融合： $$c_{ui} = \sum_{a \in \mathcal{A}} w_a \cdot c_{ui}^{(a)}$$ 行为权重的学习方法：

基于AUC的权重优化：$w_a \propto \text{AUC}_a$
互信息最大化：$w_a \propto I(a; \text{purchase})$
注意力机制：$w_a = \text{softmax}(\mathbf{W}^T[\mathbf{u}_a, \mathbf{i}_a])$

自适应置信度学习：使用元学习优化置信度函数参数： $$\alpha^* = \arg\min_\alpha \mathbb{E}_{\mathcal{T} \sim p(\mathcal{T})}[\mathcal{L}_{\text{val}}(\mathcal{T}, \alpha)]$$ MAML风格的置信度元学习： ``` 对于每个任务 T（如不同类目）：
初始化置信度参数 α
在T的训练集上进行k步梯度下降得到 α'_T
在T的验证集上评估 L(α'_T)
更新元参数：α ← α - η∇_α Σ_T L(α'_T) ```

高级置信度建模技术：

概率置信度：使用贝塔分布建模不确定性： $$c_{ui} \sim \text{Beta}(\alpha_{ui}, \beta_{ui})$$ 其中 $\alpha_{ui} = 1 + n_{ui}^+$（正交互次数），$\beta_{ui} = 1 + n_{ui}^-$（负交互次数）
神经置信度网络： $$c_{ui} = \text{NN}_\phi([\mathbf{u}_{\text{feat}}, \mathbf{i}_{\text{feat}}, \mathbf{x}_{ui}])$$ 端到端学习复杂的置信度模式
因果置信度：考虑混淆因子的影响： $$c_{ui} = \frac{P(r_{ui}|do(expose_i))}{P(r_{ui}|expose_i)}$$ 通过因果推断估计真实的兴趣强度

置信度的数值稳定性考虑：

截断处理： $$c_{ui} = \min(\max(c_{ui}, c_{\min}), c_{\max})$$ 典型值：$c_{\min} = 1$, $c_{\max} = 1000$
平滑处理： $$c_{ui} = \frac{c_{ui} + \epsilon}{1 + \epsilon}$$ 避免极端值导致的数值问题
对数变换：对于重尾分布的交互次数： $$c_{ui} = 1 + \alpha \log(1 + r_{ui})$$

14.1.3 加权正则化的数学推导

标准L2正则化假设所有参数同等重要，但在隐式反馈中，我们需要考虑：

用户侧加权正则化： $$R_u(\mathbf{p}_u) = \lambda_u |\mathbf{p}_u|^2, \quad \lambda_u = \lambda \cdot n_u^{-\beta}$$ 其中 $n_u$ 是用户交互数，$\beta \in [0,1]$ 控制正则化强度的衰减。

推导：从最大后验(MAP)估计出发 $$\mathbf{p}_u^* = \arg\max_{\mathbf{p}_u} p(\mathbf{p}_u|\mathcal{D}_u) = \arg\max_{\mathbf{p}_u} p(\mathcal{D}_u|\mathbf{p}_u)p(\mathbf{p}_u)$$ 用户活跃度越高，先验的影响应该越小： $$p(\mathbf{p}_u) = \mathcal{N}(0, \frac{\sigma^2}{n_u^\beta}\mathbf{I})$$ 信息论解释：用户交互数可视为有效样本大小，根据最小描述长度(MDL)原理： $$\text{MDL} = -\log p(\mathcal{D}_u|\mathbf{p}_u) + \frac{k}{2}\log n_u$$ 第二项自然导出与 $n_u$ 相关的正则化。

物品侧自适应正则化： $$R_i(\mathbf{q}_i) = \lambda_i |\mathbf{q}_i - \mathbf{q}_i^{(0)}|^2$$ 其中 $\mathbf{q}_i^{(0)}$ 是基于内容的先验嵌入。

分层贝叶斯解释： $$\mathbf{q}_i \sim \mathcal{N}(\mathbf{q}_i^{(0)}, \sigma_i^2\mathbf{I})$$ $$\mathbf{q}_i^{(0)} = f_{\text{content}}(\mathbf{x}_i)$$ 先验学习：使用变分自编码器学习物品先验分布： $$q(\mathbf{q}_i^{(0)}|\mathbf{x}_i) = \mathcal{N}(\mu_\phi(\mathbf{x}_i), \text{diag}(\sigma^2_\phi(\mathbf{x}_i)))$$ 理论依据：从贝叶斯角度，这相当于对参数施加不同方差的高斯先验： $$p(\mathbf{p}_u) \propto \exp\left(-\frac{\lambda_u}{2}|\mathbf{p}_u|^2\right)$$ 高级正则化技术：

结构化稀疏正则化： $$R(\mathbf{p}_u) = \lambda_1 |\mathbf{p}_u|_1 + \lambda_2 |\mathbf{p}_u|_2^2 + \lambda_3 \sum_{g} |\mathbf{p}_{u,g}|_2$$

L1项：全局稀疏性
L2项：数值稳定性
群组范数：结构化稀疏（如主题相关的因子组）

近端梯度算法求解： $$\mathbf{p}_u^{(t+1)} = \text{prox}_{\lambda R}(\mathbf{p}_u^{(t)} - \eta \nabla \mathcal{L})$$ 其中近端算子有闭式解。

图正则化：构建用户-用户相似图 $\mathcal{G}_u = (\mathcal{V}_u, \mathcal{E}_u, \mathbf{W}_u)$： $$R_{\text{graph}}(\mathbf{P}) = \frac{\lambda_g}{2} \sum_{(u,v) \in \mathcal{E}_u} w_{uv}|\mathbf{p}_u - \mathbf{p}_v|^2$$ 谱分析： $$R_{\text{graph}}(\mathbf{P}) = \lambda_g \cdot \text{tr}(\mathbf{P}^T\mathbf{L}_u\mathbf{P})$$ 其中 $\mathbf{L}_u = \mathbf{D}_u - \mathbf{W}_u$ 是图拉普拉斯矩阵。
时变正则化：考虑用户兴趣漂移： $$R_t(\mathbf{p}_u) = \lambda_t |\mathbf{p}_u^{(t)} - \mathbf{p}_u^{(t-1)}|^2$$ 卡尔曼滤波视角： 状态方程：p_u(t) = p_u(t-1) + w_u(t), w_u ~ N(0, Q) 观测方程：r_ui(t) = p_u(t)^T q_i + v_ui(t), v_ui ~ N(0, R)
对抗正则化：提高模型鲁棒性： $$R_{\text{adv}}(\mathbf{P}, \mathbf{Q}) = \lambda_{\text{adv}} \max_{|\delta|_2 \leq \epsilon} \mathcal{L}(\mathbf{P} + \delta_P, \mathbf{Q} + \delta_Q)$$ 使用FGSM近似： $$\delta_P = \epsilon \cdot \text{sign}(\nabla_P \mathcal{L})$$ 正则化的自适应选择：
经验贝叶斯方法：通过最大化边际似然自动确定正则化强度： $$\lambda^* = \arg\max_\lambda \int p(\mathcal{D}|\mathbf{P}, \mathbf{Q}) p(\mathbf{P}, \mathbf{Q}|\lambda) d\mathbf{P}d\mathbf{Q}$$ 使用拉普拉斯近似： $$\log p(\mathcal{D}|\lambda) \approx \log p(\mathcal{D}|\hat{\mathbf{P}}, \hat{\mathbf{Q}}) - \frac{1}{2}\log\det(\mathbf{H} + \lambda\mathbf{I})$$
多任务学习正则化：当有多个相关推荐任务时： $$R_{\text{MTL}} = \sum_{t=1}^T \lambda_t |\mathbf{P}^{(t)}|_F^2 + \lambda_{\text{share}}\sum_{t \neq s}|\mathbf{P}^{(t)} - \mathbf{P}^{(s)}|_F^2$$ 促进任务间的知识共享。

正则化与优化的交互：

隐式正则化： SGD本身具有隐式正则化效果： $$\mathbf{p}_u^{(t+1)} = \mathbf{p}_u^{(t)} - \eta \nabla_{\mathcal{B}} \mathcal{L}$$ 其中批量大小 $|\mathcal{B}|$ 和学习率 $\eta$ 的比值 $\eta/|\mathcal{B}|$ 控制隐式正则化强度。
正则化路径算法：高效计算不同 $\lambda$ 下的解： $${\mathbf{P}(\lambda), \mathbf{Q}(\lambda)}_{\lambda \in [\lambda_{\min}, \lambda_{\max}]}$$ 利用解的分段线性性质，通过跟踪关键点高效求解。

14.1.4 研究前沿：因果推断视角

最新研究将隐式反馈建模为带有选择偏差的因果推断问题：

倾向分数加权： $$\mathcal{L} = \sum_{(u,i) \in \mathcal{D}} \frac{1}{p(o_{ui}=1|u,i)} \ell(r_{ui}, \hat{r}_{ui})$$ 关键挑战：

倾向分数 $p(o_{ui}=1|u,i)$ 通常未知
极小的倾向分数导致方差爆炸
需要平衡偏差-方差权衡

反事实风险最小化： $$\mathcal{L}_{IPS} = \frac{1}{|\mathcal{D}|}\sum_{(u,i) \in \mathcal{D}} \frac{\ell(r_{ui}, \hat{r}_{ui})}{p(o_{ui}=1)} + \lambda R(\theta)$$ 稳定化技术：

截断倾向分数：$\tilde{p} = \max(p, \epsilon)$
自归一化估计器：$\hat{\mathcal{L}}_{SNIPS} = \frac{\sum_{(u,i)} w_{ui}\ell_{ui}}{\sum_{(u,i)} w_{ui}}$

双鲁棒估计：结合直接方法和倾向分数方法： $$\hat{r}_{DR} = \hat{r}_{DM} + \frac{o_{ui}}{p(o_{ui}=1)}(r_{ui} - \hat{r}_{DM})$$ 即使倾向分数或直接模型之一有误差，仍能保持一致性
因果嵌入：学习满足因果约束的表示： $$\mathbf{p}_u \perp!!!\perp \mathbf{e}_u | \mathbf{z}_u$$ 其中 $\mathbf{e}_u$ 是混淆因子，$\mathbf{z}_u$ 是因果表示

前沿研究方向：

去混淆表示学习： $$\min_{\theta} \mathcal{L}_{rec} + \alpha \cdot I(\mathbf{Z}; \mathbf{E})$$ 最小化因果表示与混淆因子的互信息
因果效应估计： $$\text{ATE} = \mathbb{E}[Y(1) - Y(0)]$$ 估计推荐某物品的平均处理效应
敏感性分析：量化未观测混淆的影响： $$\Gamma = \max_{u,i,j} \frac{p(o_{ui}=1|u,j)p(o_{uj}=1|u,i)}{p(o_{ui}=1|u,i)p(o_{uj}=1|u,j)}$$ 这为处理推荐系统中的偏差问题开辟了新方向，特别是在公平性和可解释性日益重要的背景下。

14.2 ALS-WR算法的并行化与数值优化

14.2.1 交替最小二乘的计算复杂度分析

ALS-WR (Alternating Least Squares with Weighted Regularization) 的核心是交替固定一组参数，优化另一组。对于用户 $u$，更新方程为： $$\mathbf{p}_u = (\mathbf{Q}^T\mathbf{C}^u\mathbf{Q} + \lambda\mathbf{I})^{-1}\mathbf{Q}^T\mathbf{C}^u\mathbf{p}(u)$$ 其中 $\mathbf{C}^u$ 是用户 $u$ 的对角置信度矩阵。

计算复杂度分解：

朴素实现：$O(n^2k + nk^2 + k^3)$ per user
利用稀疏性：$O(n_u k^2 + k^3)$，其中 $n_u \ll n$

关键优化：预计算 $\mathbf{Q}^T\mathbf{Q}$，复杂度降至 $O(n_u k^2)$。

详细算法分析：

矩阵分解技巧： $$\mathbf{Q}^T\mathbf{C}^u\mathbf{Q} = \mathbf{Q}^T\mathbf{Q} + \mathbf{Q}^T(\mathbf{C}^u - \mathbf{I})\mathbf{Q}$$ 由于 $\mathbf{C}^u - \mathbf{I}$ 只在用户交互的物品上非零： $$\mathbf{Q}^T(\mathbf{C}^u - \mathbf{I})\mathbf{Q} = \sum_{i \in \mathcal{I}_u} (c_{ui} - 1)\mathbf{q}_i\mathbf{q}_i^T$$
计算步骤优化： ``` 预计算阶段 (一次性)：

计算 G = Q^T Q: O(nk^2)
存储需求: O(k^2)

用户更新阶段 (每个用户)：

构建 A_u = G + λI: O(k^2)
累加秩-1更新: O(n_u k^2)
Cholesky分解: O(k^3)
回代求解: O(k^2)

总复杂度: O(n_u k^2 + k^3) ```

内存访问模式优化： - 缓存友好的矩阵存储：物品因子按列主序存储 - 分块计算：将 $\mathbf{Q}$ 分块以适应L3缓存 - 预取策略：利用用户访问模式预取下一批物品因子
数值精度考虑： - 使用Cholesky分解代替直接求逆 - 条件数监控：$\kappa(\mathbf{A}_u) < 10^{10}$ - 必要时增加正则化：$\lambda' = \lambda + \epsilon \cdot \text{trace}(\mathbf{A}_u)/k$

14.2.2 分布式ALS的通信模式

大规模部署需要精心设计的分布式策略：

数据并行模式： - 用户分片：每个节点负责一部分用户 - 物品因子广播：$O(nk)$ 通信量 - 适合用户数 $\gg$ 物品数的场景

详细实现： ``` 节点 p 负责用户集 U_p：

广播接收全局 Q 矩阵
并行更新 P[U_p]
计算局部物品梯度 ΔQ_p
All-reduce 聚合 ΔQ = Σ_p ΔQ_p
本地更新 Q 矩阵 ```

通信优化：

使用环形all-reduce减少带宽需求
梯度压缩：只传输top-k梯度分量
异步通信与计算重叠

模型并行模式： - 因子矩阵分块：$\mathbf{P} = [\mathbf{P}_1, \mathbf{P}_2, ..., \mathbf{P}_p]$ - 通信量：$O(mk/p)$ per iteration - 适合超大规模因子维度

2D分块策略： $$\begin{bmatrix} \mathbf{P}_{11} & \mathbf{P}_{12} & \cdots \ \mathbf{P}_{21} & \mathbf{P}_{22} & \cdots \ \vdots & \vdots & \ddots \end{bmatrix}$$ 每个节点 $(i,j)$ 负责 $\mathbf{P}_{ij}$ 和 $\mathbf{Q}_{ij}$

混合并行策略： ``` 将用户分成 G 组，每组内执行：
本地更新用户因子
收集局部物品梯度
All-reduce 聚合梯度
更新物品因子 ```

参数服务器架构：

服务器节点：存储和更新物品因子
工作节点：计算用户更新和梯度
通信模式：Pull-Compute-Push

通信量分析：

Pull阶段：每个worker拉取 $O(n_u k)$ 数据
Push阶段：每个worker推送 $O(n_u k)$ 梯度
总带宽：$O(Nnk/p)$，其中 $N$ 是总交互数

容错机制： - 检查点：周期性保存因子矩阵快照 - 复制：关键参数多副本存储 - 异步备份：使用陈旧梯度继续训练

一致性保证：

最终一致性：允许短期不一致
有界陈旧性：$\tau$-iteration staleness
收敛性证明：在有界延迟下仍收敛

14.2.3 数值稳定性与收敛加速技巧

数值稳定性保障：

条件数控制： $$\kappa(\mathbf{A}) = \frac{\lambda_{\max}(\mathbf{A})}{\lambda_{\min}(\mathbf{A})} < \tau$$ 通过自适应正则化保证：$\lambda = \max(\lambda_0, \epsilon \cdot |\mathbf{Q}^T\mathbf{C}^u\mathbf{Q}|_F)$
Cholesky分解的增量更新：对于稀疏更新，使用 Sherman-Morrison 公式： $$(\mathbf{A} + \mathbf{u}\mathbf{v}^T)^{-1} = \mathbf{A}^{-1} - \frac{\mathbf{A}^{-1}\mathbf{u}\mathbf{v}^T\mathbf{A}^{-1}}{1 + \mathbf{v}^T\mathbf{A}^{-1}\mathbf{u}}$$ 收敛加速技术：
动量方法： $$\mathbf{p}_u^{(t+1)} = \mathbf{p}_u^{(t)} + \alpha \Delta\mathbf{p}_u^{(t)} + \beta(\mathbf{p}_u^{(t)} - \mathbf{p}_u^{(t-1)})$$
自适应学习率：基于局部Lipschitz常数估计： $$\alpha_u = \min\left(1, \frac{c}{|\nabla_{\mathbf{p}_u} \mathcal{L}|}\right)$$
异步更新协议： - Hogwild!风格的无锁更新 - 延迟补偿：$\mathbf{p}_u^{(t)} = \mathbf{p}_u^{(t-\tau)} + \sum_{s=t-\tau}^{t-1} \Delta\mathbf{p}_u^{(s)}$

14.2.4 硬件感知优化

现代硬件架构需要算法层面的适配：

缓存优化： - 分块矩阵乘法：块大小 $b = \sqrt{\text{L3 cache} / (3 \times \text{sizeof}(float))}$ - 列主序存储用于物品因子
SIMD向量化： - 内积计算使用 AVX-512：一次处理16个float - 对齐内存分配：posix_memalign 确保64字节对齐
GPU加速考虑： - Warp级别的负载均衡 - 使用 cuBLAS 的 cublasXgemmBatched 批量小矩阵运算

14.3 负采样的数学原理与偏差校正

14.3.1 采样分布的理论选择

负采样是隐式反馈系统的核心技术。给定正样本集 $\mathcal{D}^+$，我们需要从未观察到的 $(u,i)$ 对中采样负例。

流行的采样分布：

均匀采样： $$P_{\text{unif}}(i|u) = \frac{1}{|\mathcal{I} \setminus \mathcal{I}_u|}$$ 简单但可能低估流行物品的负面信号。
流行度比例采样： $$P_{\text{pop}}(i|u) = \frac{f_i^\alpha}{\sum_{j \notin \mathcal{I}_u} f_j^\alpha}$$ 其中 $f_i$ 是物品频率，$\alpha \in [0,1]$ 控制偏斜程度。
自适应采样：基于当前模型预测： $$P_{\text{adapt}}(i|u) \propto \sigma(\mathbf{p}_u^T\mathbf{q}_i)$$ 类似于重要性采样，聚焦于"困难"负例。

14.3.2 重要性采样与无偏估计

使用非均匀采样时，需要校正引入的偏差：

基础重要性采样： $$\mathbb{E}_{i \sim P}[\frac{Q(i)}{P(i)} \cdot \ell(u,i)] = \mathbb{E}_{i \sim Q}[\ell(u,i)]$$ 在负采样中的应用： $$\mathcal{L}_{\text{unbiased}} = \sum_{(u,i) \in \mathcal{D}^+} \ell^+(u,i) + \sum_{j=1}^{K} \frac{1}{P(i_j^-|u)} \ell^-(u,i_j^-)$$ 其中 $i_j^- \sim P(\cdot|u)$ 是采样的负例。

方差减少技术：

控制变量法： $$\tilde{\ell}(u,i) = \ell(u,i) - c(\ell(u,i) - \mu)$$ 其中 $\mu = \mathbb{E}[\ell]$ 可以在线估计。
分层采样：将物品按流行度分桶，每桶独立采样： $$\mathcal{I} = \bigcup_{b=1}^{B} \mathcal{I}_b, \quad K_b = K \cdot \frac{|\mathcal{I}_b|}{|\mathcal{I}|}$$

14.3.3 自适应采样策略

动态困难度感知采样：

基于梯度的重要性： $$P(i|u) \propto |\nabla_{\mathbf{q}_i} \ell(u,i)|^2$$
不确定性采样：使用参数的后验分布： $$P(i|u) \propto \text{Var}[\mathbf{p}_u^T\mathbf{q}_i]$$ 多目标采样：同时优化多个目标（如覆盖度、多样性）： $$P(i|u) = \sum_{k=1}^{K} w_k P_k(i|u)$$ 其中权重 $w_k$ 可以动态调整。

14.3.4 理论分析：收敛性与样本复杂度

收敛速率分析：在适当的假设下，使用 $K$ 个负样本的SGD收敛速率为： $$\mathbb{E}[|\mathbf{w}^{(t)} - \mathbf{w}^*|^2] \leq \frac{C}{t} + \frac{D}{K}$$ 其中第二项反映了负采样引入的偏差。

样本复杂度界：达到 $\epsilon$-最优解所需的负样本数： $$K = O\left(\frac{n \log n}{\epsilon^2}\right)$$ 这解释了为什么实践中 $K=5-10$ 通常足够。

14.4 置信度加权的理论基础

14.4.1 贝叶斯视角下的置信度建模

从贝叶斯角度，置信度反映了我们对观察到的隐式信号的不确定性。

生成模型：

真实偏好：$r_{ui}^* \sim \mathcal{N}(\mathbf{p}_u^T\mathbf{q}_i, \sigma^2)$
观察过程：$r_{ui} = r_{ui}^* + \epsilon_{ui}$
置信度：$c_{ui} = \frac{1}{\text{Var}[\epsilon_{ui}]}$

后验推断： $$p(r_{ui}^*|r_{ui}) \propto \exp\left(-\frac{c_{ui}}{2}(r_{ui}^* - r_{ui})^2 - \frac{1}{2\sigma^2}(r_{ui}^* - \mathbf{p}_u^T\mathbf{q}_i)^2\right)$$ 这导出了加权最小二乘的目标函数。

14.4.2 时间衰减与频率加权

时间动态建模：

指数衰减模型： $$c_{ui}(t) = c_{ui}^{(0)} \exp(-\lambda_t(t - t_{ui}))$$
幂律衰减： $$c_{ui}(t) = c_{ui}^{(0)} (1 + t - t_{ui})^{-\alpha}$$ 频率置信度：基于观察次数的置信度估计： $$c_{ui} = \frac{n_{ui}}{n_{ui} + \beta}$$ 这是贝塔-二项式模型的后验均值。

联合建模： $$c_{ui}(t, n) = f_{\text{time}}(t) \cdot f_{\text{freq}}(n) \cdot f_{\text{context}}(\mathbf{x})$$

14.4.3 在线更新的一致性保证

增量置信度更新：新观察到达时： $$c_{ui}^{(t+1)} = \frac{c_{ui}^{(t)} \cdot n_{ui}^{(t)} + \Delta c_{ui}}{n_{ui}^{(t)} + 1}$$ 一致性条件：

单调性：$c_{ui}^{(t+1)} \geq c_{ui}^{(t)}$ 当有新正交互
有界性：$c_{ui}^{(t)} \leq c_{\max}$ 防止过拟合
收敛性：$\lim_{t \to \infty} c_{ui}^{(t)} = c_{ui}^*$ 存在

理论保证：在适当的正则化下，在线更新算法满足： $$\text{Regret}(T) = O(\sqrt{T \log n})$$

14.4.4 多源置信度融合

现代系统需要整合多种信号：

层次贝叶斯模型： $$c_{ui} \sim \text{Gamma}(\alpha_s, \beta_s), \quad s \in {\text{click}, \text{purchase}, ...}$$
注意力机制融合： $$c_{ui} = \sum_{s} a_s(\mathbf{u}, \mathbf{i}) \cdot c_{ui}^{(s)}$$ 其中 $a_s$ 是学习的注意力权重。
元学习置信度：使用MAML框架学习置信度函数： $$c_{ui} = f_\phi(\mathbf{x}_{ui}), \quad \phi^* = \arg\min_\phi \mathbb{E}_{\mathcal{T}}[\mathcal{L}_{\mathcal{T}}(f_\phi)]$$

本章小结

本章深入探讨了大规模协同过滤中的核心矩阵技术。主要贡献包括：

隐式反馈的数学建模： - 置信度加权框架：$\min \sum_{(u,i)} c_{ui}(p_{ui} - \mathbf{p}_u^T\mathbf{q}_i)^2$ - 从显式评分到隐式反馈的范式转变 - 多源信号的统一处理框架
ALS-WR的工程化实现： - 计算复杂度从 $O(mnk)$ 降至 $O((m+n)n_z k^2)$ - 分布式并行的三种模式及其权衡 - 数值稳定性保障与收敛加速
负采样的理论基础： - 重要性采样实现无偏估计 - 样本复杂度界：$K = O(\frac{n \log n}{\epsilon^2})$ - 自适应采样策略的设计原则
置信度的贝叶斯解释： - 不确定性量化的原则性方法 - 时间动态与多源融合 - 在线学习的一致性保证

关键洞察：

隐式反馈的核心挑战是缺失并非随机（MNAR）
置信度加权提供了处理不确定性的统一框架
负采样效率决定了算法的可扩展性
硬件感知的优化对性能至关重要

未来研究方向：

因果推断方法处理选择偏差
神经网络与矩阵分解的深度融合
联邦学习场景下的隐私保护矩阵分解
量子算法加速超大规模矩阵运算

练习题

练习 14.1：置信度函数设计

考虑一个视频推荐系统，用户行为包括：点击（click）、观看时长（watch_time）、点赞（like）、分享（share）。设计一个综合置信度函数 $c_{ui}$，满足以下要求：

不同行为类型有不同权重
考虑时间衰减
防止极端值

提示：考虑使用对数变换处理长尾分布的观看时长。

答案

一个可能的设计： $$c_{ui} = 1 + \alpha_1 \cdot \mathbb{1}[\text{click}] + \alpha_2 \cdot \log(1 + \text{watch_time}) + \alpha_3 \cdot \mathbb{1}[\text{like}] + \alpha_4 \cdot \mathbb{1}[\text{share}]$$ 加入时间衰减： $$c_{ui}(t) = c_{ui} \cdot \exp(-\lambda(t - t_{ui}))$$ 防止极端值： $$\tilde{c}_{ui} = \min(c_{ui}, c_{\max}) \cdot \frac{c_{ui}}{c_{ui} + \beta}$$ 其中参数可以通过交叉验证确定，典型值：$\alpha_1 = 1, \alpha_2 = 0.5, \alpha_3 = 3, \alpha_4 = 5, \lambda = 0.01, \beta = 10, c_{\max} = 100$。

练习 14.2：ALS更新的向量化实现

给定用户 $u$ 的交互物品集合 $\mathcal{I}_u = {i_1, i_2, ..., i_{n_u}}$ 和对应置信度 ${c_{ui_1}, c_{ui_2}, ..., c_{ui_{n_u}}}$，推导向量化的用户因子更新公式，避免显式构造对角矩阵 $\mathbf{C}^u$。

提示：利用 $\mathbf{Q}^T\mathbf{C}^u\mathbf{Q} = \sum_{i \in \mathcal{I}_u} c_{ui}\mathbf{q}_i\mathbf{q}_i^T + \mathbf{Q}^T\mathbf{Q}$。

答案

向量化更新公式： $$\mathbf{A}_u = \mathbf{Q}^T\mathbf{Q} + \sum_{i \in \mathcal{I}_u} (c_{ui} - 1)\mathbf{q}_i\mathbf{q}_i^T + \lambda\mathbf{I}$$

$$\mathbf{b}_u = \sum_{i \in \mathcal{I}_u} c_{ui} p_{ui} \mathbf{q}_i$$

$$\mathbf{p}_u = \mathbf{A}_u^{-1}\mathbf{b}_u$$ 计算技巧：

预计算 $\mathbf{Q}^T\mathbf{Q}$ 一次，所有用户共享
使用 BLAS 的 syr 操作高效计算秩-1更新
对于稀疏 $\mathcal{I}_u$，复杂度为 $O(|\mathcal{I}_u|k^2 + k^3)$

练习 14.3：负采样的方差分析

证明：使用流行度比例采样 $P(i) \propto f_i^{0.75}$ 相比均匀采样，在估计全局损失时具有更低的方差。假设损失函数为 $\ell(u,i) = (\mathbf{p}_u^T\mathbf{q}_i)^2$。

提示：计算两种采样策略下估计量的方差，并比较。

答案

设真实损失为 $L = \sum_{i \notin \mathcal{I}_u} \ell(u,i)$。

均匀采样估计量： $$\hat{L}_{\text{unif}} = \frac{|\mathcal{I} \setminus \mathcal{I}_u|}{K} \sum_{j=1}^K \ell(u,i_j)$$ 其方差： $$\text{Var}[\hat{L}_{\text{unif}}] = \frac{|\mathcal{I} \setminus \mathcal{I}_u|^2}{K} \text{Var}_{i \sim \text{Unif}}[\ell(u,i)]$$ 流行度采样估计量： $$\hat{L}_{\text{pop}} = \sum_{j=1}^K \frac{\ell(u,i_j)}{P(i_j)}$$ 其方差： $$\text{Var}[\hat{L}_{\text{pop}}] = \frac{1}{K} \sum_{i \notin \mathcal{I}_u} \frac{\ell(u,i)^2}{P(i)} - \frac{L^2}{K}$$ 当 $\ell(u,i)$ 与 $f_i$ 正相关时（流行物品得分更高），选择 $P(i) \propto f_i^{0.75}$ 使得 $\ell(u,i)/P(i)$ 更均匀，从而降低方差。

练习 14.4：分布式ALS的通信优化

在分布式ALS中，假设有 $p$ 个计算节点，$m$ 个用户，$n$ 个物品，因子维度 $k$。分析以下三种数据分片策略的通信复杂度：

随机分片
基于图分割的分片
块循环分片

提示：考虑每轮迭代需要传输的因子矩阵大小。

答案

随机分片： - 每个节点需要几乎所有物品因子 - 通信量：$O(pnk)$ per iteration
基于图分割： - 最小化跨分区边 - 设边割比例为 $\rho$ - 通信量：$O(\rho nk)$，其中 $\rho < 1$
块循环分片： - 用户和物品都分块 - 每个节点负责 $\frac{m}{p} \times \frac{n}{p}$ 的块 - 通信量：$O(\frac{(m+n)k}{\sqrt{p}})$

结论：对于大规模系统，块循环分片在 $p$ 较大时最优。

练习 14.5：增量更新的误差累积（挑战题）

在流式场景中，使用增量Sherman-Morrison更新代替完全重算。分析经过 $T$ 次更新后的数值误差累积，并提出误差控制策略。

提示：考虑浮点运算的舍入误差和条件数的影响。

答案

Sherman-Morrison更新： $$\mathbf{A}^{-1}_{t+1} = \mathbf{A}^{-1}_t - \frac{\mathbf{A}^{-1}_t \mathbf{u}\mathbf{v}^T \mathbf{A}^{-1}_t}{1 + \mathbf{v}^T \mathbf{A}^{-1}_t \mathbf{u}}$$ 误差分析：

每步相对误差：$\epsilon_{\text{rel}} \approx \kappa(\mathbf{A}) \cdot \epsilon_{\text{machine}}$
$T$ 步后：$\epsilon_T \approx T \cdot \kappa(\mathbf{A}) \cdot \epsilon_{\text{machine}}$

误差控制策略：

周期性重算：每 $T_0 = \frac{1}{\kappa(\mathbf{A}) \cdot \epsilon_{\text{machine}}}$ 步完全重算
条件数监控：当 $\kappa(\mathbf{A}_t) > \tau$ 时触发重算
残差检验：检查 $|\mathbf{A}_t \mathbf{A}_t^{-1} - \mathbf{I}|_F < \delta$

练习 14.6：多目标优化的帕累托前沿（挑战题）

推荐系统需要同时优化准确性（RMSE）、覆盖度（Coverage）和多样性（Diversity）。设计一个多目标矩阵分解框架，并分析帕累托最优解的性质。

提示：考虑加权和方法和约束优化方法。

答案

多目标优化框架： $$\min_{\mathbf{P},\mathbf{Q}} \alpha_1 \cdot \text{RMSE} + \alpha_2 \cdot (1-\text{Coverage}) + \alpha_3 \cdot (1-\text{Diversity})$$ 其中：

$\text{RMSE} = \sqrt{\frac{1}{|\mathcal{D}|}\sum_{(u,i) \in \mathcal{D}} (r_{ui} - \mathbf{p}_u^T\mathbf{q}_i)^2}$
$\text{Coverage} = \frac{|{i: \exists u, \mathbf{p}_u^T\mathbf{q}_i > \theta}|}{n}$
$\text{Diversity} = 1 - \frac{1}{|\mathcal{U}|}\sum_u \frac{\sum_{i,j \in \text{Top-K}(u)} \text{sim}(i,j)}{K(K-1)}$

帕累托前沿特性：

凸性：在温和假设下，帕累托前沿局部凸
权衡关系：$\frac{\partial \text{Coverage}}{\partial \text{RMSE}} < 0$
锚点解：纯准确性优化 vs 纯多样性优化

实践建议：使用进化算法（如NSGA-II）探索帕累托前沿。

练习 14.7：联邦学习中的隐私保护矩阵分解（开放题）

设计一个满足差分隐私的分布式矩阵分解算法，其中用户数据不能离开本地设备。分析隐私-效用权衡。

提示：考虑梯度扰动和安全聚合。

答案

算法框架：

本地更新：用户 $u$ 在设备上计算： $$\mathbf{p}_u^{(t+1)} = \mathbf{p}_u^{(t)} - \eta \nabla_{\mathbf{p}_u} \mathcal{L}_u$$
梯度扰动：添加高斯噪声实现 $(\epsilon, \delta)$-差分隐私： $$\tilde{\nabla} = \nabla + \mathcal{N}(0, \sigma^2 \mathbf{I})$$ 其中 $\sigma = \frac{2\Delta_f \sqrt{2\log(1.25/\delta)}}{\epsilon}$
安全聚合：使用秘密分享或同态加密聚合物品梯度： $$\nabla_{\mathbf{q}_i} = \sum_{u \in \mathcal{U}_i} \tilde{\nabla}_{u,i}$$ 隐私-效用分析：

隐私损失：$\epsilon_{\text{total}} = \sqrt{2T\log(1/\delta)} \cdot \epsilon$
效用损失：$\text{RMSE}_{\text{private}} - \text{RMSE}_{\text{non-private}} \approx O(\frac{k\sqrt{T}}{\epsilon n})$

研究方向：

自适应隐私预算分配
个性化隐私级别
与同态加密结合减少噪声

练习 14.8：因果推断视角的去偏（研究题）

将推荐系统的选择偏差建模为因果图，使用do-calculus推导无偏的损失函数。考虑观察概率 $P(O=1|U,I,R)$ 依赖于真实评分 $R$ 的情况。

提示：构建因果图 $U \rightarrow R \leftarrow I, R \rightarrow O$。

答案

因果模型：

$U$：用户特征
$I$：物品特征
$R$：真实评分
$O$：是否观察到

目标：估计 $\mathbb{E}[R|U,I]$

观察到的数据分布： $$P(R|U,I,O=1) = \frac{P(O=1|U,I,R)P(R|U,I)}{P(O=1|U,I)}$$ 使用逆倾向分数加权： $$\mathbb{E}[R|U,I] = \frac{\mathbb{E}[R \cdot \mathbb{1}[O=1] / P(O=1|U,I,R)|U,I]}{\mathbb{E}[\mathbb{1}[O=1] / P(O=1|U,I,R)|U,I]}$$

实践中的挑战：

估计 $P(O=1|U,I,R)$ 需要反事实推理
倾向分数的极值导致高方差
模型误设的敏感性

研究方向：

双鲁棒估计
敏感性分析
与强化学习的结合

常见陷阱与错误 (Gotchas)

1. 数值稳定性陷阱

问题：直接计算 $\mathbf{Q}^T\mathbf{C}^u\mathbf{Q}$ 导致数值不稳定

# 错误做法
A = Q.T @ diag(C_u) @ Q  # 当C_u包含极大值时条件数爆炸

正确做法：

使用增量更新：$\mathbf{A} = \mathbf{Q}^T\mathbf{Q} + \sum_i (c_{ui}-1)\mathbf{q}_i\mathbf{q}_i^T$
添加自适应正则化：$\lambda = \max(\lambda_0, \epsilon \cdot \text{trace}(\mathbf{A}))$

2. 负采样偏差

问题：均匀负采样导致流行物品的负信号不足

热门物品被大量用户忽略，但采样概率与冷门物品相同
导致模型过度推荐流行物品

解决方案：

使用流行度加权采样：$P(i) \propto f_i^{0.75}$
实施重要性权重校正

3. 冷启动过拟合

问题：新用户/物品的因子向量快速过拟合到少量交互

置信度函数对初始交互赋予过高权重
正则化不足导致因子向量norm过大

缓解策略：

动态正则化：$\lambda_u = \lambda_0 \cdot \max(1, n_0/n_u)$
使用先验信息初始化因子

4. 分布式训练的数据倾斜

问题：用户活跃度的幂律分布导致计算负载不均

某些节点处理超级活跃用户，成为瓶颈
简单的哈希分片加剧问题

解决方案：

基于计算量的动态负载均衡
将超级用户的计算分散到多个节点

5. 时间动态的过度拟合

问题：过于激进的时间衰减导致历史信息丢失

指数衰减参数设置过大
短期行为主导，长期偏好被忽略

平衡方法：

使用多尺度时间建模
保留用户的"核心偏好"不衰减

6. 隐式到显式的误导转换

问题：将隐式反馈二值化时丢失重要信息

# 危险的简化
p_ui = 1 if r_ui > 0 else 0  # 忽略了交互强度

更好的做法：

保留连续值：$p_{ui} = \log(1 + r_{ui})$
使用置信度区分不同强度的信号

7. 并行更新的竞态条件

问题：Hogwild!式并行更新在高竞争区域失效

热门物品的因子被频繁更新
梯度延迟导致收敛不稳定

缓解措施：

使用延迟补偿SGD
对高竞争参数使用锁或原子操作

8. 评估指标的误导性

问题：离线指标（如RMSE）与在线业务指标脱节

RMSE优化可能降低推荐多样性
忽略了位置偏差和展示偏差

全面评估：

同时监控准确性、覆盖度、多样性
进行在线A/B测试验证

最佳实践检查清单

数据预处理

[ ] 识别并处理异常用户行为（如机器人）
[ ] 对长尾分布的交互强度进行对数变换
[ ] 实施合理的时间窗口截断
[ ] 验证用户-物品交互矩阵的稀疏度

算法设计

[ ] 置信度函数考虑多种信号类型
[ ] 正则化参数根据用户/物品活跃度自适应
[ ] 负采样策略平衡效率与无偏性
[ ] 实现增量更新以支持在线学习

数值计算

[ ] 使用数值稳定的矩阵运算（避免显式求逆）
[ ] 监控条件数，必要时增加正则化
[ ] 利用稀疏性减少计算复杂度
[ ] 实施周期性的完全重算以控制误差累积

分布式实现

[ ] 选择适合数据特征的分片策略
[ ] 实现高效的因子广播/聚合机制
[ ] 处理节点故障和网络延迟
[ ] 监控和均衡计算负载

性能优化

[ ] 利用SIMD指令加速向量运算
[ ] 优化内存访问模式（缓存友好）
[ ] 使用异步I/O减少等待时间
[ ] Profile识别性能瓶颈

模型评估

[ ] 设计考虑时间因素的训练/测试集划分
[ ] 评估多个维度：准确性、覆盖度、多样性、新颖性
[ ] 进行消融实验验证各组件贡献
[ ] 监控模型在不同用户群体上的公平性

生产部署

[ ] 实现模型版本管理和回滚机制
[ ] 设置异常检测和报警
[ ] 支持热更新without服务中断
[ ] 记录详细日志用于问题诊断

持续改进

[ ] 收集在线反馈用于模型迭代
[ ] 定期重新评估超参数
[ ] 探索新的特征和信号源
[ ] 跟踪学术界最新进展并评估适用性