在现实世界中,我们经常面临无法进行随机实验的情况。伦理限制、成本考虑或实际可行性都可能使得随机对照试验无法实施。这时,我们需要从观察性数据中推断因果关系。本章将介绍观察性研究中的核心方法,包括如何处理混杂因素、如何使用倾向得分、以及各种匹配和加权技术。通过LinkedIn的职业发展路径分析案例,我们将看到这些方法如何在实际中发挥作用。
观察性研究(Observational Study)是指研究者不控制处理分配,而是观察自然发生的处理和结果。与随机对照试验(RCT)不同,观察性研究中的处理分配往往与潜在结果相关,这给因果推断带来了根本性挑战。
为什么观察性研究如此重要?
伦理约束:许多研究问题涉及伦理限制。例如,我们不能随机让人吸烟来研究吸烟对健康的影响。
成本和可行性:大规模RCT成本高昂,有时在技术上不可行。例如,研究教育政策对长期收入的影响需要数十年的跟踪。
外部有效性:RCT通常在受控环境中进行,其结果未必能推广到现实世界。观察性研究直接使用现实数据,外部有效性更强。
数据可用性:随着大数据时代的到来,海量的观察性数据变得容易获取,如电子健康记录、社交媒体数据、交易记录等。
观察性研究面临的核心挑战是混杂(Confounding)。当存在同时影响处理分配和结果的变量时,简单比较处理组和对照组的结果差异不能反映真实的因果效应。
考虑一个简单例子:评估硕士学位对收入的影响。直接比较有硕士学位和没有硕士学位人群的平均收入会高估教育的因果效应,因为选择读硕士的人往往本身能力更强、家庭背景更好,这些因素同时影响教育选择和收入水平。
能力/背景
/ \
/ \
↓ ↓
硕士学位 → 收入
为了从观察性数据中识别因果效应,统计学家和经济学家发展了多种方法:
本章将重点介绍倾向得分、匹配和加权方法,这些是观察性研究中最常用的技术。
在因果推断中,混杂因素(Confounder)是同时满足以下三个条件的变量:
用数学语言表述,变量$C$是处理$T$对结果$Y$的混杂因素,当且仅当:
| $C \not\perp!!!\perp Y | T$(给定T后,C与Y仍不独立) |
使用因果图可以直观地识别混杂。常见的混杂结构包括:
1. 经典混杂(共同原因):
C
/ \
↓ ↓
T → Y
2. 混杂链:
C → T → Y
└─────→──┘
3. M型偏差(选择偏差):
T Y
\ /
↓
S(选择变量)
为了从观察性数据中识别因果效应,我们需要可忽略性假设(Ignorability Assumption),也称为无混杂假设:
\[Y(1), Y(0) \perp\!\!\!\perp T | X\]其中$X$是观测到的协变量集合。这个假设说明:给定观测到的协变量$X$,处理分配与潜在结果独立。
可忽略性假设可以分解为两个部分:
| 条件独立性:$(Y(1), Y(0)) \perp!!!\perp T | X$ |
| 正值性(Positivity):$0 < P(T=1 | X) < 1$对所有$X$成立 |
选择偏差(Selection Bias)是观察性研究中的另一个重要问题。主要类型包括:
最大的挑战是未观测混杂(Unmeasured Confounding)。即使我们调整了所有观测到的变量,仍可能存在未观测的混杂因素。应对策略包括:
倾向得分(Propensity Score)是给定观测协变量时,单位接受处理的条件概率:
\[e(X) = P(T=1|X)\]这个概念由Rosenbaum和Rubin(1983)提出,是观察性研究中最重要的工具之一。倾向得分将高维协变量降维到一维,大大简化了因果推断。
| 定理(倾向得分的平衡性质):如果处理分配满足可忽略性假设$(Y(1), Y(0)) \perp!!!\perp T | X$,那么: |
这意味着,在倾向得分相同的单位中,处理分配是随机的。换句话说,倾向得分创造了一个”准实验”环境。
推论:
| 平衡性:$X \perp!!!\perp T | e(X)$(给定倾向得分,协变量在处理组和对照组中分布相同) |
| 无混杂性:$E[Y(1) - Y(0) | e(X)] = E[Y | T=1, e(X)] - E[Y | T=0, e(X)]$ |
实践中,真实的倾向得分未知,需要从数据中估计。常用方法包括:
逻辑回归(最常用): \(\log\frac{e(X)}{1-e(X)} = \beta_0 + \beta^T X\)
模型选择考虑:
估计倾向得分后,必须检查是否达到协变量平衡:
标准化均值差异(SMD): \(SMD = \frac{\bar{X}_{treated} - \bar{X}_{control}}{\sqrt{(S^2_{treated} + S^2_{control})/2}}\)
| 通常要求$ | SMD | < 0.1$表示良好平衡 |
方差比: \(VR = \frac{S^2_{treated}}{S^2_{control}}\)
理想情况下接近1
图形诊断:
为每个处理单位找到倾向得分相近的对照单位:
平均处理效应估计: \(\hat{\tau}_{ATT} = \frac{1}{n_1}\sum_{i:T_i=1}[Y_i - Y_{j(i)}]\)
其中$j(i)$是单位$i$的匹配对照。
将样本按倾向得分分成若干层(通常5-10层),在每层内估计处理效应:
\[\hat{\tau} = \sum_{s=1}^{S} \frac{N_s}{N} \hat{\tau}_s\]其中$\hat{\tau}_s$是第$s$层的处理效应估计。
使用倾向得分构造权重,创建平衡的伪总体。
将倾向得分作为协变量纳入回归模型:
\[Y = \beta_0 + \beta_1 T + \beta_2 e(X) + \epsilon\]或使用更灵活的形式: \(Y = \beta_0 + \beta_1 T + f(e(X)) + g(T, e(X)) + \epsilon\)
优势:
局限:
匹配(Matching)是观察性研究中最直观的方法之一。基本思想是为每个处理单位找到一个或多个”相似”的对照单位,通过比较匹配对来估计因果效应。这种方法模拟了配对实验设计。
精确匹配(Exact Matching)要求处理单位和对照单位在所有协变量上完全相同。
实施步骤:
优点:
缺点:
近邻匹配(Nearest Neighbor Matching)基于距离度量选择最相似的单位。
距离度量:
欧氏距离: \(d(i,j) = \sqrt{(X_i - X_j)^T(X_i - X_j)}\)
马氏距离(考虑协变量相关性): \(d(i,j) = \sqrt{(X_i - X_j)^T\Sigma^{-1}(X_i - X_j)}\)
倾向得分距离: \(d(i,j) = |e(X_i) - e(X_j)|\)
匹配策略:
偏差-方差权衡:
卡尺匹配(Caliper Matching)设置最大可接受距离:
\[\text{匹配} \iff d(i,j) \leq c\]其中$c$是卡尺宽度。
卡尺选择:
组合策略: 卡尺 + 近邻:在卡尺内选择最近邻
最优匹配(Optimal Matching)通过求解优化问题找到全局最优匹配:
\[\min \sum_{(i,j) \in M} d(i,j)\]其中$M$是匹配集合。
这可以转化为二分图匹配问题,使用匈牙利算法求解。
遗传匹配(Genetic Matching): 使用遗传算法自动选择距离度量的权重,优化协变量平衡。
粗化精确匹配结合精确匹配和近似匹配的优点:
优势:
标准化偏差: \(SB = 100 \times \frac{\bar{X}_{treated} - \bar{X}_{control,matched}}{\sqrt{(S^2_{treated} + S^2_{control,matched})/2}}\)
| 经验法则:$ | SB | < 10$表示良好平衡 |
匹配后的平均处理效应:
简单差分(1:1匹配): \(\hat{\tau} = \frac{1}{n_m}\sum_{i \in matched} (Y_{i,treated} - Y_{i,control})\)
加权估计(1:k匹配): \(\hat{\tau} = \frac{1}{n_1}\sum_{i:T_i=1} \left(Y_i - \frac{1}{k}\sum_{j \in M(i)} Y_j\right)\)
回归调整: 在匹配样本上进行回归,提高精度
匹配破坏了独立性,需要特殊方法:
优势:
局限:
逆概率加权(Inverse Probability Weighting, IPW)通过对观测单位赋予不同权重,创建一个”伪总体”,在这个伪总体中处理分配独立于协变量。
核心思想:给予”罕见”单位更大的权重,使加权后的样本代表目标总体。
对于二元处理,IPW权重定义为:
\[w_i = \frac{T_i}{e(X_i)} + \frac{1-T_i}{1-e(X_i)}\]| 其中$e(X_i) = P(T_i=1 | X_i)$是倾向得分。 |
直观理解:
根据目标参数不同,权重有不同形式:
ATE(平均处理效应): \(w_i^{ATE} = \frac{T_i}{e(X_i)} + \frac{1-T_i}{1-e(X_i)}\)
ATT(处理组平均处理效应): \(w_i^{ATT} = T_i + (1-T_i)\frac{e(X_i)}{1-e(X_i)}\)
ATC(对照组平均处理效应): \(w_i^{ATC} = T_i\frac{1-e(X_i)}{e(X_i)} + (1-T_i)\)
平均处理效应的IPW估计:
\[\hat{\tau}_{IPW} = \frac{1}{n}\sum_{i=1}^n w_i \cdot T_i \cdot Y_i - \frac{1}{n}\sum_{i=1}^n w_i \cdot (1-T_i) \cdot Y_i\]或归一化版本:
\[\hat{\tau}_{IPW} = \frac{\sum_{i:T_i=1} w_i Y_i}{\sum_{i:T_i=1} w_i} - \frac{\sum_{i:T_i=0} w_i Y_i}{\sum_{i:T_i=0} w_i}\]标准IPW权重可能非常大,导致估计不稳定。稳定权重通过乘以边际处理概率来缓解这个问题:
\[sw_i = \frac{P(T_i=1) \cdot T_i}{e(X_i)} + \frac{P(T_i=0) \cdot (1-T_i)}{1-e(X_i)}\]稳定权重的优势:
极端倾向得分(接近0或1)导致极端权重,几种处理方法:
权重截断(Weight Trimming): \(w_i^{trim} = \min(w_i, w_{max})\)
设置权重上限,如第99百分位数
权重收缩(Weight Winsorization): 将超过阈值的权重替换为阈值
倾向得分截断: \(e^{trim}(X) = \max(0.01, \min(0.99, e(X)))\)
重叠权重(Overlap Weights): \(w_i^{overlap} = T_i(1-e(X_i)) + (1-T_i)e(X_i)\)
强调倾向得分接近0.5的单位
增广逆概率加权(Augmented IPW, AIPW)结合了IPW和结果回归模型:
\(\hat{\tau}_{AIPW} = \frac{1}{n}\sum_{i=1}^n \left[\frac{T_i Y_i}{e(X_i)} - \frac{(T_i - e(X_i))}{e(X_i)}\hat{m}_1(X_i)\right]\) \(- \frac{1}{n}\sum_{i=1}^n \left[\frac{(1-T_i) Y_i}{1-e(X_i)} + \frac{(T_i - e(X_i))}{1-e(X_i)}\hat{m}_0(X_i)\right]\)
其中$\hat{m}_1(X)$和$\hat{m}_0(X)$是结果模型。
双重稳健性质:只要倾向得分模型或结果模型之一正确,AIPW就是一致的。
评估IPW方法的关键是检查权重分布和平衡:
加权协变量平衡: \(SMD_{weighted} = \frac{\bar{X}_{T=1,w} - \bar{X}_{T=0,w}}{\sqrt{(S^2_{T=1,w} + S^2_{T=0,w})/2}}\)
边际结构模型(MSM): 在加权伪总体上拟合参数模型: \(E[Y^*(t)] = \beta_0 + \beta_1 t\)
时变处理: \(w_i = \prod_{t=1}^T \frac{1}{P(A_{it}|A_{i,t-1}, L_{it})}\)
连续处理: 使用广义倾向得分: \(w_i = \frac{f(T_i)}{f(T_i|X_i)}\)
| 方法 | IPW | 匹配 | 回归调整 |
|---|---|---|---|
| 使用所有数据 | 是 | 否 | 是 |
| 非参数 | 半参数 | 是 | 否 |
| 处理高维 | 困难 | 困难 | 较好 |
| 双重稳健 | 可扩展 | 否 | 否 |
| 极值敏感 | 高 | 低 | 低 |
LinkedIn作为全球最大的职业社交平台,拥有超过8亿用户的职业履历数据。一个核心问题是:获得特定技能认证对职业发展的因果影响是什么?
具体场景:评估”数据科学认证”对以下结果的影响:
挑战:
能力/进取心(U)
/ \
/ \
↓ ↓
技能认证 → 职业结果
↑ ↑
| |
教育背景 |
↑ |
└────────┘
工作经验 → 技能认证
\ ↓
\ |
↘ ↓
职业结果
社交网络 → 职业结果
识别的关键混杂因素:
从LinkedIn数据中提取的变量:
用户特征:
- 教育:学位、专业、学校排名
- 经验:工作年限、职位历史、行业经验
- 技能:技能标签数量、技能认可度
- 网络:连接数、行业内连接比例
- 活跃度:发文频率、互动率
处理变量:
- 是否获得数据科学认证(二元)
- 获得认证的时间
结果变量:
- 12个月后的薪资变化(%)
- 是否获得晋升(二元)
- 是否跳槽到Fortune 500公司(二元)
使用梯度提升树(GBM)估计获得认证的概率:
特征工程:
- 交互项:教育×经验、行业×职位
- 非线性变换:工作年限的样条
- 时间特征:季节性、经济周期
模型训练:
- 5折交叉验证选择超参数
- 早停防止过拟合
- 特征重要性分析
倾向得分分布诊断:
采用多种匹配策略:
策略A:倾向得分匹配
策略B:粗化精确匹配(CEM)
策略C:遗传匹配
权重构造与诊断:
权重统计:
- 原始权重范围:[1.05, 42.3]
- 稳定权重范围:[0.21, 8.7]
- 有效样本量:原始82%,稳定91%
极端权重处理:
- 截断at 99th percentile
- 敏感性分析:95th、97th、99th percentile
结合倾向得分和结果模型:
| 方法 | 薪资增长(%) | 晋升概率提升 | 跳槽F500概率提升 |
|---|---|---|---|
| 简单比较 | 15.2*** | 0.18*** | 0.12*** |
| PS匹配 | 8.1*** | 0.09*** | 0.07*** |
| CEM | 7.8*** | 0.08** | 0.06** |
| IPW | 8.5*** | 0.10*** | 0.08*** |
| AIPW | 8.3*** | 0.09*** | 0.07*** |
***p<0.001, **p<0.01, *p<0.05
探索处理效应的异质性:
按经验水平分层:
- 初级(<3年):薪资增长11.2%
- 中级(3-7年):薪资增长8.5%
- 高级(>7年):薪资增长4.1%
按教育背景分层:
- STEM专业:薪资增长9.8%
- 非STEM专业:薪资增长6.2%
按公司规模分层:
- 初创公司:薪资增长12.3%
- 大公司:薪资增长5.7%
本章深入探讨了观察性研究中的因果推断方法。核心要点包括:
| 可忽略性假设:$(Y(1), Y(0)) \perp!!!\perp T | X$ |
| 正值性假设:$0 < P(T=1 | X) < 1$ |
| 定义:$e(X) = P(T=1 | X)$ |
| 场景 | 推荐方法 | 理由 |
|---|---|---|
| 小样本 | 精确匹配 | 保证完美平衡 |
| 高维协变量 | 倾向得分方法 | 有效降维 |
| 极端倾向得分 | 匹配+卡尺 | 避免极端权重 |
| 需要全样本推断 | IPW | 使用所有数据 |
| 模型不确定 | AIPW | 双重稳健性 |
题目1:判断下列哪些变量是吸烟对肺癌影响的混杂因素? a) 年龄 b) 黄牙(吸烟的结果) c) 基因易感性 d) 咳嗽(可能是吸烟和肺癌的共同结果)
题目2:给定倾向得分$e(X) = 0.8$,计算该单位作为处理单位和对照单位时的IPW权重(用于估计ATE)。
题目3:为什么在高维协变量情况下,精确匹配变得不可行?
题目4:某研究使用倾向得分匹配评估培训项目效果,发现匹配后某个重要协变量(如教育水平)的SMD为0.15。研究者认为”已经比0.2小了,可以接受”。请评论这种做法并提出改进建议。
题目5:一位分析师使用IPW估计因果效应,发现一些单位的权重超过100。她决定将所有权重截断在10。这种做法的优缺点是什么?有什么替代方案?
题目6:设计一个模拟研究,比较倾向得分匹配、IPW和AIPW在不同场景下的表现。应该考虑哪些场景?如何评估方法表现?
题目7:某公司想评估远程办公对员工生产力的影响。由于员工自主选择是否远程办公,存在明显的选择偏差。请设计一个完整的观察性研究方案。
陷阱:过度关注倾向得分的预测准确性(如AUC),忽视协变量平衡。
正确做法:
陷阱:即使存在极端倾向得分(接近0或1),仍强行估计ATE。
正确做法:
陷阱:调整可能受处理影响的变量(如中介变量)。
正确做法:
陷阱:使用标准的统计推断,忽视匹配或加权导致的相关性。
正确做法:
陷阱:声称”控制了所有混杂因素”或”得到了因果效应”。
正确做法:
陷阱:盲目使用流行方法,不考虑数据特点。
正确做法: