causal_inference_tutorial

第二章：潜在结果框架

章节大纲

开篇介绍
Rubin因果模型
- 潜在结果的概念
- 因果推断的基本问题
- 观察数据与潜在结果
因果效应的定义
- 个体处理效应 (ITE)
- 平均处理效应 (ATE)
- 条件平均处理效应 (CATE)
- 处理组平均处理效应 (ATT)
基本问题与识别假设
- 因果推断的根本问题
- 可忽略性假设
- 重叠假设
- 一致性假设
SUTVA假设
- 无干扰假设
- 处理变量定义的唯一性
- SUTVA违背的情形
行业案例：Uber动态定价的因果效应评估
本章小结
练习题
常见陷阱与错误
最佳实践检查清单

开篇介绍

潜在结果框架（Potential Outcomes Framework），也称为Rubin因果模型，是现代因果推断的基石之一。这个框架为我们提供了一种精确定义和估计因果效应的数学语言。本章将深入探讨这一框架的核心概念，帮助你理解如何从数据中识别和估计因果效应。

在本章中，你将学习到：

如何使用潜在结果来定义因果效应
为什么因果推断存在根本性困难
哪些假设使得因果推断成为可能
如何在实际应用中验证这些假设

1. Rubin因果模型

1.1 潜在结果的概念

潜在结果框架的核心思想是：每个个体对于每种可能的处理都有一个潜在的结果，但我们只能观察到实际接受的处理所对应的结果。

设想一个简单的二元处理场景：

$i$ 表示个体
$T_i \in {0, 1}$ 表示个体 $i$ 是否接受处理
$Y_i(1)$ 表示个体 $i$ 接受处理时的潜在结果
$Y_i(0)$ 表示个体 $i$ 不接受处理时的潜在结果

关键洞察：对于每个个体，我们只能观察到： $Y_i^{obs} = T_i \cdot Y_i(1) + (1-T_i) \cdot Y_i(0)$

这意味着 $Y_i(1)$ 和 $Y_i(0)$ 中总有一个是反事实的（counterfactual），无法直接观察。

个体i的两种潜在状态：
     
     现实世界              反事实世界
    ┌─────────┐          ┌─────────┐
    │ T_i = 1 │          │ T_i = 0 │
    │ Y_i(1)  │          │ Y_i(0)  │
    │ (观察到)│          │ (未观察)│
    └─────────┘          └─────────┘
         ↓                      ↓
    实际结果 Y_i^obs       潜在结果（反事实）

1.2 因果推断的基本问题

因果推断的根本问题（Fundamental Problem of Causal Inference）在于：

我们永远无法同时观察到同一个体在接受处理和不接受处理时的结果
这导致个体因果效应 $\tau_i = Y_i(1) - Y_i(0)$ 无法直接计算

这个问题有时被称为”缺失数据问题”，但它比一般的缺失数据更为根本——这些数据在原则上就是不可观察的。

1.3 观察数据与潜在结果

观察数据与潜在结果之间的关系可以用以下表格说明：

个体	$T_i$	$Y_i^{obs}$	$Y_i(0)$	$Y_i(1)$	$\tau_i$
1	0	$Y_1(0)$	$Y_1(0)$	?	?
2	1	$Y_2(1)$	?	$Y_2(1)$	?
3	0	$Y_3(0)$	$Y_3(0)$	?	?
4	1	$Y_4(1)$	?	$Y_4(1)$	?

问号表示无法观察到的潜在结果。

2. 因果效应的定义

基于潜在结果框架，我们可以定义不同层次的因果效应。

2.1 个体处理效应 (Individual Treatment Effect, ITE)

个体 $i$ 的因果效应定义为： $\tau_i = Y_i(1) - Y_i(0)$

这是最细粒度的因果效应，表示处理对特定个体的影响。由于因果推断的根本问题，ITE通常无法识别。

2.2 平均处理效应 (Average Treatment Effect, ATE)

ATE是整个总体的平均因果效应： $\tau_{ATE} = E[Y_i(1) - Y_i(0)] = E[Y_i(1)] - E[Y_i(0)]$

ATE回答的问题是：”如果我们对总体中随机选择的个体施加处理，平均效果是什么？”

2.3 条件平均处理效应 (Conditional Average Treatment Effect, CATE)

CATE是给定协变量条件下的平均处理效应： $\tau_{CATE}(x) = E[Y_i(1) - Y_i(0) | X_i = x]$

CATE允许我们研究处理效应的异质性，理解哪些子群体受益更多。

2.4 处理组平均处理效应 (Average Treatment Effect on the Treated, ATT)

ATT关注实际接受处理的群体： $\tau_{ATT} = E[Y_i(1) - Y_i(0) | T_i = 1]$

ATT回答：”对于那些实际接受处理的人，处理的平均效果是什么？”

2.5 不同效应的关系

这些效应之间存在以下关系：

$ATE = P(T=1) \cdot ATT + P(T=0) \cdot ATU$
其中 $ATU = E[Y_i(1) - Y_i(0) T_i = 0]$ 是未处理组的平均处理效应

当处理效应存在异质性时，ATE、ATT和ATU可能差异很大。

效应层次结构：
    
    ITE (个体层面)
    τ₁, τ₂, τ₃, ...
         ↓
    CATE (子群体层面)
    τ(x₁), τ(x₂), ...
         ↓
    ATE/ATT (总体层面)
    τ_ATE, τ_ATT

3. 基本问题与识别假设

要从观察数据中识别因果效应，我们需要一些关键假设。

3.1 可忽略性假设 (Ignorability / Unconfoundedness)

可忽略性假设要求： $(Y_i(0), Y_i(1)) \perp\!\!\!\perp T_i | X_i$

这意味着在给定观察到的协变量 $X_i$ 后，处理分配与潜在结果独立。换句话说，没有未观察到的混杂因素影响处理分配和结果。

这个假设也被称为：

条件独立性假设 (Conditional Independence Assumption, CIA)
无混杂假设 (No Unmeasured Confounding)
选择基于可观察变量 (Selection on Observables)

3.2 重叠假设 (Overlap / Common Support)

重叠假设要求： $0 < P(T_i = 1 | X_i = x) < 1$

对于协变量的每个取值，都存在接受处理和不接受处理的个体。这确保了我们可以在相似的个体之间进行比较。

违反重叠假设的情况：

违反重叠假设的例子：
    
协变量X  | T=0的个体 | T=1的个体
---------|-----------|----------
x < 0    |    有     |    无    ← 违反
0 ≤ x ≤ 1|    有     |    有    ✓ 满足
x > 1    |    无     |    有    ← 违反

3.3 一致性假设 (Consistency)

一致性假设连接潜在结果和观察结果： $\text{如果 } T_i = t, \text{ 则 } Y_i^{obs} = Y_i(t)$

这个假设要求处理是明确定义的，不存在处理的”隐藏版本”。

3.4 识别策略

在这三个假设成立的条件下，我们可以从观察数据中识别因果效应：

$$E[Y_i(1)] = E[E[Y_i	T_i = 1, X_i]]$$
$$E[Y_i(0)] = E[E[Y_i	T_i = 0, X_i]]$$

因此： $\tau_{ATE} = E[E[Y_i | T_i = 1, X_i] - E[Y_i | T_i = 0, X_i]]$

4. SUTVA假设

SUTVA (Stable Unit Treatment Value Assumption) 是潜在结果框架的核心假设，它包含两个组成部分。

4.1 无干扰假设 (No Interference)

个体 $i$ 的潜在结果不受其他个体处理状态的影响： $Y_i(t_i) = Y_i(t_i, t_{-i}) \text{ 对所有 } t_{-i}$

其中 $t_{-i}$ 表示除了个体 $i$ 之外所有其他个体的处理向量。

违反无干扰假设的例子：

疫苗接种：一个人接种疫苗会通过群体免疫影响他人
社交网络实验：朋友圈中的处理会产生溢出效应
市场竞争：一家公司的定价策略影响竞争对手的收益

无干扰 vs 有干扰：

无干扰（SUTVA满足）：
个体1: T₁=1 → Y₁(1)
个体2: T₂=0 → Y₂(0)
两者独立，互不影响

有干扰（SUTVA违反）：
个体1: T₁=1 ↘
              → 影响Y₂
个体2: T₂=0 ↗

4.2 处理变量定义的唯一性 (No Hidden Variations)

处理 $T=t$ 对所有接受该处理的个体意味着相同的事情： $\text{如果 } T_i = t, \text{ 则潜在结果是 } Y_i(t) \text{ 而非 } Y_i(t, v)$

其中 $v$ 表示处理的不同版本或实施方式。

违反唯一性假设的例子：

药物剂量：不同患者接受不同剂量，但都标记为”接受治疗”
培训项目：不同地点的培训质量差异很大
政策实施：同一政策在不同地区执行力度不同

4.3 SUTVA的重要性

SUTVA使得因果推断问题大大简化：

将潜在结果从 $Y_i(t_1, t_2, …, t_n)$ 简化为 $Y_i(t_i)$
允许我们使用其他个体作为反事实的代理
使得处理效应的定义变得明确

4.4 处理SUTVA违背

当SUTVA被违背时，可以考虑：

重新定义处理单元：将相互影响的个体组合成集群
显式建模干扰：使用网络模型或空间模型
修改估计目标：估计直接效应和溢出效应
设计层面的解决：使用集群随机化

5. 行业案例：Uber动态定价的因果效应评估

背景

Uber需要评估动态定价（surge pricing）对司机供给和乘客需求的因果效应。这是一个典型的需要潜在结果框架的场景。

问题定义

处理变量 $T$：是否实施1.5倍动态定价（相对于正常价格）
结果变量 $Y$：
- $Y_d$：区域内的乘客订单数
- $Y_s$：区域内的活跃司机数
- $Y_r$：总收入
潜在结果：
- $Y_d(1), Y_s(1), Y_r(1)$：实施动态定价时的潜在结果
- $Y_d(0), Y_s(0), Y_r(0)$：不实施动态定价时的潜在结果

因果效应定义

Uber关心的因果效应： $\tau_{demand} = E[Y_d(1) - Y_d(0)]$ $\tau_{supply} = E[Y_s(1) - Y_s(0)]$ $\tau_{revenue} = E[Y_r(1) - Y_r(0)]$

识别挑战

混杂因素：
- 时间因素（高峰期vs非高峰期）
- 地理位置（市中心vs郊区）
- 天气状况
- 特殊事件（演唱会、体育赛事）
SUTVA违背风险：
- 空间溢出：相邻区域的定价影响司机流动
- 时间依赖：当前定价影响未来预期

实验设计

Uber采用了地理-时间随机化实验：

实验设计示意：
时间段  | 区域A | 区域B | 区域C | 区域D
--------|-------|-------|-------|-------
18:00   |  1.5x |  1.0x |  1.5x |  1.0x
19:00   |  1.0x |  1.5x |  1.0x |  1.5x
20:00   |  1.5x |  1.0x |  1.5x |  1.0x
21:00   |  1.0x |  1.5x |  1.0x |  1.5x

关键假设验证

可忽略性：通过随机化保证
重叠性：每个区域-时间组合都有机会接受处理
SUTVA：
- 选择足够大且相互隔离的区域
- 避免在边界地区收集数据
- 控制实验时长避免学习效应

结果分析

使用潜在结果框架，Uber发现：

$\tau_{demand} = -0.25$：需求减少25%
$\tau_{supply} = +0.40$：供给增加40%
$\tau_{revenue} = +0.12$：总收入增加12%

经验教训

处理定义的重要性：明确定义”1.5倍”的基准价格
时间窗口选择：效应可能随时间变化
异质性分析：不同类型区域效应差异很大
长期vs短期：短期实验可能低估长期适应效应

本章小结

潜在结果框架为因果推断提供了严格的数学基础。关键要点包括：

潜在结果：每个个体对每种处理都有潜在结果，但只能观察一个
因果效应定义：通过潜在结果的差异定义，包括ITE、ATE、CATE、ATT
根本问题：无法同时观察同一个体的所有潜在结果
识别假设：
- 可忽略性（无混杂）
- 重叠性（共同支撑）
- 一致性（处理定义明确）
SUTVA假设：无干扰和处理唯一性
实践应用：需要仔细设计实验或利用观察数据的特殊结构

记住：因果推断不是关于相关性，而是关于”如果…会怎样”的反事实问题。

练习题

基础题

练习2.1 潜在结果的理解
某公司对100名员工进行培训效果评估，其中50人接受培训（T=1），50人未接受（T=0）。观察到培训组平均绩效提升20分，对照组平均提升5分。

a) 写出每组观察到的平均结果
b) 能否直接得出ATE = 15分？为什么？
c) 需要什么假设才能识别因果效应？

Hint: 考虑选择偏差和潜在结果框架的假设。

参考答案

a) - 培训组：$E[Y^{obs}|T=1] = E[Y(1)|T=1] = 20$ - 对照组：$E[Y^{obs}|T=0] = E[Y(0)|T=0] = 5$ b) 不能。观察到的差异15分是： $$E[Y|T=1] - E[Y|T=0] = E[Y(1)|T=1] - E[Y(0)|T=0]$$ 这不等于ATE除非： - $E[Y(1)|T=1] = E[Y(1)]$（培训组代表性） - $E[Y(0)|T=0] = E[Y(0)]$（对照组代表性）可能存在选择偏差：能力强的员工更可能被选中培训。 c) 需要可忽略性假设：$(Y(0), Y(1)) \perp\!\!\!\perp T | X$ 即在控制协变量X后，培训分配与潜在结果独立。

练习2.2 SUTVA假设
以下哪些场景可能违反SUTVA假设？解释原因。

a) 测试新版App界面对用户活跃度的影响
b) 评估员工加薪对工作满意度的影响
c) 研究疫苗接种对感染率的影响
d) 分析广告投放对产品销量的影响

Hint: 考虑个体之间是否存在相互影响。

参考答案

a) **可能满足SUTVA**：如果用户独立使用App，互不影响。 b) **违反SUTVA**：员工之间会比较薪资，一个人加薪可能影响其他人的满意度（相对剥夺感）。 c) **违反SUTVA**：疫苗产生群体免疫，一个人接种会降低他人感染风险。 d) **违反SUTVA**：广告有溢出效应，看到广告的人可能影响没看到的人（口碑传播）。

练习2.3 因果效应类型
某电商平台测试优惠券对购买行为的影响。总体中30%的用户收到优惠券。已知：

ATT = 50元（收到优惠券的用户平均多消费50元）
ATU = 30元（未收到优惠券的用户如果收到会多消费30元）

计算ATE并解释其含义。

Hint: 使用ATE分解公式。

参考答案

使用分解公式： $$ATE = P(T=1) \cdot ATT + P(T=0) \cdot ATU$$ $$ATE = 0.3 \times 50 + 0.7 \times 30 = 15 + 21 = 36元$$ 含义：如果随机给总体中任一用户发放优惠券，平均会增加36元消费。注意ATT > ATU，说明实际收到优惠券的用户（可能是活跃用户）对优惠券反应更强烈，存在选择效应。

挑战题

练习2.4 识别假设的检验
一家科技公司通过观察数据评估远程办公（T=1）对员工生产力Y的影响。他们收集了以下协变量：

工作年限（X1）
部门（X2）
过往绩效评分（X3）

公司发现远程办公的员工平均生产力提高10%。

a) 列出可能违反可忽略性假设的未观测混杂因素
b) 如何通过敏感性分析评估结论的稳健性？
c) 设计一个更好的识别策略

Hint: 思考什么因素同时影响远程办公选择和生产力。

参考答案

a) 可能的未观测混杂因素： - **家庭状况**：有小孩的员工更倾向远程办公，但可能影响生产力 - **自律性**：自律的员工既更可能选择远程办公，生产力也更高 - **通勤距离**：住得远的员工选择远程办公，但距离本身不影响生产力 - **家庭办公环境**：有独立办公空间的员工更可能选择并受益于远程办公 b) 敏感性分析方法： 1. **Rosenbaum bounds**：假设存在未观测混杂使优势比改变Γ倍，计算不同Γ下的效应边界 2. **E-value**：计算需要多强的未观测混杂才能完全解释观察到的效应 3. **负对照结果**：使用不应受远程办公影响的结果（如过去的生产力）检验 c) 更好的识别策略： 1. **随机实验**：随机分配远程办公资格 2. **准实验**： - 利用公司政策突变（如COVID-19强制远程） - 断点回归（如通勤距离超过阈值才允许远程） - 工具变量（如办公室装修导致的外生远程办公） 3. **面板数据**：利用同一员工远程前后的变化，控制时不变特征

练习2.5 SUTVA与网络效应
某社交平台测试新功能对用户参与度的影响。用户之间存在好友关系网络。

a) 为什么标准SUTVA假设不成立？
b) 定义考虑网络效应的潜在结果
c) 如何设计实验缓解SUTVA违背？

Hint: 考虑直接效应和间接效应的分离。

参考答案

a) SUTVA违背的原因： - **社交影响**：朋友使用新功能会影响自己的使用行为 - **网络外部性**：功能价值依赖于多少朋友在使用 - **信息扩散**：通过社交网络了解功能存在 b) 网络潜在结果定义：设 $G_i$ 为个体i的朋友处理向量，潜在结果变为： $$Y_i(t_i, G_i) = Y_i(t_i, \sum_{j \in N_i} t_j / |N_i|)$$ 分解为： - 直接效应：$DE_i = Y_i(1, 0) - Y_i(0, 0)$ - 间接效应：$IE_i = Y_i(0, 1) - Y_i(0, 0)$ - 总效应：$TE_i = Y_i(1, 1) - Y_i(0, 0)$ c) 实验设计策略： 1. **集群随机化**： - 将网络分割成连通分量 - 随机化整个集群 - 估计总效应 2. **两阶段随机化**： - 第一阶段：随机选择"种子"用户 - 第二阶段：在其朋友中随机选择 - 分离直接和溢出效应 3. **饱和度设计**： - 随机化不同比例的用户接受处理 - 估计不同暴露水平下的效应

练习2.6 反事实推理
某算法推荐系统想评估个性化推荐对用户留存的因果效应。对于用户i：

观察到使用个性化推荐（T=1），30天留存
反事实：如果使用随机推荐会怎样？

a) 为什么这个反事实问题难以回答？
b) 如何利用其他用户的数据近似这个反事实？
c) 什么条件下这种近似是合理的？

Hint: 考虑用户异质性和可交换性。

参考答案

a) 困难原因： - **时间不可逆**：无法让同一用户在同一时期体验两种推荐 - **用户学习**：用户行为会适应推荐系统 - **状态依赖**：当前偏好受历史推荐影响 b) 近似方法： 1. **匹配**：找到相似用户j（基于特征X）且Tj=0，用Yj(0)近似Yi(0) 2. **回归调整**：$\hat{Y}_i(0) = \hat{E}[Y|T=0, X=X_i]$ 3. **逆概率加权**：使用倾向得分重新加权对照组 c) 合理性条件： 1. **可交换性**：$(Y_i(0), Y_i(1)) \perp\!\!\!\perp T_i | X_i$ 2. **重叠**：存在特征相似但接受不同处理的用户 3. **SUTVA**：用户之间的推荐相互独立 4. **稳定性**：用户偏好在研究期间相对稳定关键假设：条件on X后，用户i和j的潜在结果分布相同： $$Y_i(0)|X_i \stackrel{d}{=} Y_j(0)|X_j \text{ when } X_i = X_j$$

练习2.7 开放性思考题
讨论以下问题：潜在结果框架能否用于研究历史事件的因果效应（如”如果某历史事件没有发生会怎样”）？有什么局限性？

Hint: 考虑可重复性、SUTVA、和反事实的定义。

参考答案

潜在结果框架应用于历史事件的挑战： **理论层面的问题**： 1. **唯一性**：历史事件是唯一的，没有可重复的单元 2. **SUTVA极度违背**：历史事件相互关联，蝴蝶效应 3. **处理定义模糊**：什么构成"事件没有发生"？ 4. **多重均衡**：历史可能有多条可能路径 **方法论挑战**： 1. **无法观察反事实**：没有平行历史做对照 2. **混杂因素众多**：历史因素错综复杂 3. **时间依赖**：后续事件依赖前序事件 **可能的方法**： 1. **合成控制**：用其他国家/地区构造反事实 2. **断点回归**：利用历史上的临界事件 3. **结构模型**：建立历史过程的理论模型 **局限性**： - 结论高度依赖模型假设 - 无法验证反事实的合理性 - 更适合做定性而非定量分析 **启示**：潜在结果框架最适合可重复、可操作的干预。对于独特历史事件，它提供思考框架但难以严格应用。这提醒我们因果推断方法都有其适用边界。

常见陷阱与错误

1. 概念混淆

错误：将相关性当作因果性

❌ “处理组结果更好，所以处理有效”
✅ “在满足识别假设下，处理组与对照组的差异可归因于处理”

错误：混淆不同类型的因果效应

❌ 用ATT代替ATE做政策推广决策
✅ 明确区分目标人群和识别的效应类型

2. 假设违背

错误：忽视未观测混杂

症状：仅控制容易观测的变量
后果：估计偏差可能很大
解决：敏感性分析、寻找准实验

错误：忽视重叠假设

症状：处理组和对照组特征差异极大
后果：外推导致估计不可靠
解决：限制分析样本、检查倾向得分分布

3. SUTVA相关错误

错误：忽视溢出效应

例子：社交网络实验、地理相邻单元
后果：低估或高估真实效应
解决：集群随机化、显式建模干扰

错误：处理定义不明确

例子：”培训”包含多种形式和强度
后果：违反一致性假设
解决：精确定义处理的各个方面

4. 实践中的错误

错误：选择性报告

表现：只报告显著的结果
解决：预注册分析计划

错误：忽视效应异质性

表现：只关注平均效应
解决：分析CATE，理解谁受益更多

5. 解释错误

错误：过度推广

❌ “对这个样本有效，所以对所有人有效”
✅ 明确外部有效性的边界

错误：忽视均衡效应

问题：小规模实验扩大后市场反应不同
解决：考虑一般均衡效应

最佳实践检查清单

设计阶段

明确因果问题
- 清晰定义处理变量
- 明确目标因果效应（ATE/ATT/CATE）
- 确定目标人群
评估识别策略
- 列出所有潜在混杂因素
- 检查重叠假设的合理性
- 评估SUTVA的适用性
数据需求分析
- 确定需要的协变量
- 评估样本量是否充足
- 考虑数据收集的可行性

实施阶段

数据质量检查
- 检查缺失数据模式
- 验证处理分配机制
- 检查协变量平衡性
假设验证
- 检验重叠假设（倾向得分分布）
- 评估可忽略性（平衡性检验）
- 检查SUTVA违背的迹象
稳健性分析
- 尝试多种识别方法
- 进行敏感性分析
- 检验不同模型设定

分析阶段

效应估计
- 计算点估计和置信区间
- 分析效应异质性
- 检查极端值影响
验证检查
- 安慰剂检验
- 负对照检验
- 预处理趋势检验（如适用）

报告阶段

透明报告
- 清楚说明所有假设
- 报告所有预设分析
- 讨论局限性
结果解释
- 区分统计显著和实际重要
- 讨论外部有效性
- 提供政策含义时谨慎
可重复性
- 提供数据和代码（如可能）
- 详细描述方法
- 记录所有分析决策

关键提醒

⚠️ 永远记住：

因果推断需要假设，没有假设就没有识别
好的研究设计比复杂的统计方法更重要
承认局限性是优秀研究的标志
因果效应可能因人、因时、因地而异

通过本章的学习，你已经掌握了潜在结果框架的核心概念。这个框架将贯穿整个教程，是理解后续所有因果推断方法的基础。下一章，我们将学习另一个重要的因果推断框架——图模型与因果图。