causal_inference_tutorial

第九章:中介分析与路径分析

在因果推断中,我们不仅关心处理对结果的总体影响,更想理解这种影响是如何产生的——通过什么机制或路径实现。中介分析(Mediation Analysis)为我们提供了打开因果”黑箱”的钥匙,帮助我们理解因果效应的传导机制。本章将系统介绍中介分析的理论框架、识别策略、敏感性分析方法,以及在复杂场景下的应用。

9.1 直接效应与间接效应

9.1.1 因果路径的分解

考虑一个简单的因果链:处理变量 $T$ 通过中介变量 $M$ 影响结果变量 $Y$。这个过程可以用以下因果图表示:

    T → M → Y
    ↘     ↗
      直接

在这个框架下,$T$ 对 $Y$ 的总效应(Total Effect, TE)可以分解为:

数学上,总效应可以表示为: \(\text{TE} = \text{DE} + \text{IE}\)

9.1.2 Baron-Kenny方法

Baron和Kenny(1986)提出的经典中介分析方法基于线性回归模型:

步骤1:检验 $T$ 对 $Y$ 的总效应 \(Y = c \cdot T + e_1\)

步骤2:检验 $T$ 对 $M$ 的效应 \(M = a \cdot T + e_2\)

步骤3:同时纳入 $T$ 和 $M$ 预测 $Y$ \(Y = c' \cdot T + b \cdot M + e_3\)

其中:

9.1.3 Baron-Kenny方法的局限性

尽管Baron-Kenny方法直观易懂,但存在重要局限:

  1. 线性假设:假设所有关系都是线性的,无法处理非线性关系
  2. 无交互作用:假设处理和中介变量之间没有交互作用
  3. 时序混淆:没有明确考虑变量的时间顺序
  4. 因果识别不足:缺乏对混杂因素的系统考虑

9.2 中介效应的识别

9.2.1 潜在结果框架下的中介分析

使用Rubin因果模型的潜在结果框架,我们可以更严格地定义中介效应。对于每个个体 $i$,定义:

9.2.2 自然直接效应与间接效应

自然直接效应(Natural Direct Effect, NDE)定义为: \(\text{NDE} = E[Y(1, M(0)) - Y(0, M(0))]\)

这表示保持中介变量在控制条件下的”自然”水平时,处理对结果的直接影响。

自然间接效应(Natural Indirect Effect, NIE)定义为: \(\text{NIE} = E[Y(1, M(1)) - Y(1, M(0))]\)

这表示在处理条件下,中介变量变化带来的间接影响。

总效应可以分解为: \(\text{TE} = E[Y(1, M(1)) - Y(0, M(0))] = \text{NDE} + \text{NIE}\)

9.2.3 控制直接效应与间接效应

控制直接效应(Controlled Direct Effect, CDE)定义为: \(\text{CDE}(m) = E[Y(1, m) - Y(0, m)]\)

这表示将中介变量固定在特定水平 $m$ 时的直接效应。

CDE与NDE的区别在于:

9.2.4 识别假设

中介效应的因果识别需要以下关键假设:

  1. 无未测量混杂假设
    • $(Y(t,m), M(t)) \perp!!!\perp T X$
    • $Y(t,m) \perp!!!\perp M T, X$
  2. 时序一致性假设:处理发生在中介变量之前,中介变量发生在结果之前

  3. 交叉世界独立性假设: \(Y(t, m) \perp\!\!\!\perp M(t') | X \quad \text{for all } t, t', m\)

这是一个强假设,要求不同处理水平下的潜在结果和潜在中介变量值相互独立。

9.3 敏感性分析

中介分析的识别假设往往难以完全满足,特别是无未测量混杂假设。敏感性分析帮助我们评估违反这些假设时结论的稳健性。

9.3.1 未测量混杂的影响

考虑存在未测量混杂因素 $U$ 影响中介变量和结果:

    T → M → Y
        ↑   ↑
        U ──┘

这种情况下,传统的中介分析会产生偏差。敏感性分析的核心是量化这种偏差的大小。

9.3.2 敏感性参数

定义敏感性参数 $\rho$ 表示残差相关性: \(\rho = \text{Corr}(\epsilon_M, \epsilon_Y)\)

其中 $\epsilon_M$ 和 $\epsilon_Y$ 分别是中介变量和结果变量回归模型的残差。

在线性模型下,间接效应的偏差可以表示为: \(\text{Bias}(\hat{IE}) = \rho \cdot \sigma_M \cdot \sigma_Y \cdot \frac{1}{\text{Var}(M|T,X)}\)

9.3.3 敏感性分析的实施步骤

  1. 设定敏感性参数范围:例如 $\rho \in [-0.3, 0.3]$
  2. 计算不同参数值下的效应估计:对每个 $\rho$ 值重新计算间接效应
  3. 绘制敏感性图:展示效应估计如何随敏感性参数变化
  4. 确定稳健性区间:找出使结论改变的参数阈值

9.3.4 基于E-value的敏感性分析

E-value是评估未测量混杂强度的另一种方法。对于中介分析,我们可以计算:

E-value越大,说明结果对未测量混杂越稳健。

9.4 多重中介模型

实际应用中,因果效应往往通过多个中介变量传导。多重中介模型帮助我们理解复杂的因果机制。

9.4.1 并行中介模型

在并行中介模型中,多个中介变量独立地传导处理效应:

      ┌→ M1 →┐
    T →  M2  → Y
      └→ M3 →┘

总的间接效应等于各路径间接效应之和: \(\text{IE}_{\text{total}} = \text{IE}_{M1} + \text{IE}_{M2} + \text{IE}_{M3}\)

9.4.2 串行中介模型

在串行中介模型中,中介变量之间存在因果关系:

    T → M1 → M2 → Y
    ↘       ↗
      直接

这种模型需要考虑:

9.4.3 效应分解策略

对于复杂的多重中介模型,可以采用以下策略:

  1. 逐步分解法:逐个添加中介变量,观察效应变化
  2. 路径分析法:计算每条因果路径的贡献
  3. 结构方程模型:使用SEM同时估计所有路径

9.4.4 识别挑战

多重中介模型面临额外的识别挑战:

9.5 行业案例:字节跳动内容质量对用户留存的影响机制

背景

字节跳动的短视频平台需要理解内容质量如何影响用户留存。管理层假设:高质量内容不仅直接提升用户满意度,还通过增加用户互动(点赞、评论、分享)间接影响留存率。

因果问题

因果图

内容质量 → 用户互动 → 7日留存
    ↘                ↗
         直接效应
    
潜在混杂:
- 用户偏好 → 内容质量选择 & 留存
- 时间趋势 → 互动率 & 留存

分析策略

第一步:数据准备

第二步:识别策略 利用推荐算法的随机性作为准实验:

第三步:中介分析

1. 总效应模型:
   留存 = β₀ + β₁·内容质量 + γ·协变量 + ε
   
2. 中介变量模型:
   互动率 = α₀ + α₁·内容质量 + δ·协变量 + ε
   
3. 完整模型:
   留存 = θ₀ + θ₁·内容质量 + θ₂·互动率 + λ·协变量 + ε

分析结果

效应分解

路径分析

异质性分析

敏感性分析

考虑未测量的用户兴趣偏好可能同时影响互动和留存:

  1. 基准估计:间接效应 = 1.5%
  2. 敏感性测试
    • 弱混杂(ρ=0.1):间接效应 = 1.3%
    • 中等混杂(ρ=0.2):间接效应 = 1.1%
    • 强混杂(ρ=0.3):间接效应 = 0.9%

结论:即使存在中等程度的未测量混杂,间接效应仍然显著。

业务启示

  1. 内容策略:提升内容质量是提高留存的有效手段
  2. 互动设计:优化互动功能可以放大内容质量的效果
  3. 用户分层:对新用户应更注重互动引导
  4. 算法优化:推荐算法应同时考虑内容质量和互动潜力

本章小结

中介分析是理解因果机制的重要工具,它帮助我们打开因果效应的”黑箱”,理解处理如何通过中间变量影响最终结果。

核心概念回顾

  1. 效应分解
    • 总效应 = 直接效应 + 间接效应
    • 自然效应 vs 控制效应
  2. 识别条件
    • 无未测量混杂假设
    • 时序一致性
    • 交叉世界独立性
  3. 关键公式
    • 自然直接效应:$\text{NDE} = E[Y(1, M(0)) - Y(0, M(0))]$
    • 自然间接效应:$\text{NIE} = E[Y(1, M(1)) - Y(1, M(0))]$
    • Baron-Kenny分解:$c = c’ + ab$
  4. 敏感性分析
    • 评估未测量混杂的影响
    • 使用敏感性参数和E-value
    • 确定结论的稳健性边界
  5. 多重中介
    • 并行中介:多条独立路径
    • 串行中介:级联效应
    • 复杂网络的路径分析

实践要点

练习题

基础题

习题9.1 Baron-Kenny方法的基本步骤

某研究考察教育年限(T)对收入(Y)的影响,假设工作技能(M)是中介变量。研究者进行了以下三个回归:

请问: a) 根据Baron-Kenny方法,总效应、直接效应和间接效应分别是多少? b) 中介效应占总效应的比例是多少? c) 这是完全中介还是部分中介?

Hint:间接效应等于a×b,其中a是T对M的效应,b是控制T后M对Y的效应。

参考答案 a) 效应分解: - 总效应 = 5000(回归1的系数) - 直接效应 = 2000(回归3中T的系数) - 间接效应 = 2 × 1500 = 3000(a×b) - 验证:5000 = 2000 + 3000 ✓ b) 中介效应比例 = 3000/5000 = 60% c) 这是部分中介,因为控制M后,T对Y仍有显著的直接效应(2000≠0)。如果直接效应为0,才是完全中介。

习题9.2 自然效应的理解

在一个员工培训项目中:

假设我们观察到:

请计算: a) 控制直接效应CDE(8)和CDE(5) b) 如果假设Y(t,m)是线性的,自然直接效应NDE是多少?

Hint:CDE(m) = E[Y(1,m) - Y(0,m)];NDE需要考虑M在控制条件下的自然值。

参考答案 a) 控制直接效应: - CDE(8) = E[Y(1,8) - Y(0,8)] = 85 - 75 = 10 - CDE(5) = E[Y(1,5) - Y(0,5)] = 70 - 60 = 10 注意:在线性模型下,CDE对所有m值都相同。 b) 自然直接效应: NDE = E[Y(1,M(0)) - Y(0,M(0))] 由于M(0)的期望值是5,在线性假设下: NDE = E[Y(1,5) - Y(0,5)] = 70 - 60 = 10 这个例子展示了在线性无交互模型下,CDE和NDE相等。

习题9.3 敏感性参数的计算

某中介分析研究发现:

如果存在未测量混杂使得残差相关性ρ = 0.2,请问: a) 间接效应的偏差是多少? b) 真实的间接效应是多少? c) 如果要使间接效应变为0,需要多大的ρ?

Hint:使用偏差公式 Bias = ρ × σ_M × σ_Y / Var(M T,X)
参考答案 a) 偏差计算: Bias = 0.2 × 2 × 5 / 4 = 0.2 × 10 / 4 = 0.5 b) 真实间接效应: 真实效应 = 观察效应 - 偏差 = 0.3 - 0.5 = -0.2 这表明如果存在这种程度的未测量混杂,真实的间接效应可能是负的! c) 使间接效应为0的ρ: 设置 0.3 - ρ × 2 × 5 / 4 = 0 解得:ρ = 0.3 × 4 / 10 = 0.12 这意味着即使较小的残差相关性(ρ = 0.12)也足以完全解释观察到的间接效应。

挑战题

习题9.4 多重中介的路径分析

某在线教育平台研究课程设计(T)对学习成果(Y)的影响机制,考虑两个中介变量:

假设因果结构为:T → M1 → M2 → Y,同时T对M2和Y都有直接影响。

通过路径分析得到以下标准化路径系数:

请问: a) 画出完整的路径图并标注所有系数 b) 计算T对Y的总效应 c) 分解出每条因果路径的贡献 d) 如果要最大化课程效果,应该重点改进哪个环节?

Hint:总效应等于所有从T到Y的路径效应之和。

参考答案 a) 路径图: ``` 0.4 0.5 T ----→ M1 ----→ M2 | | | 0.2| 0.2| 0.3| ↓ ↓ ↓ M2 ←-----┘ Y | ^ 0.3| 0.3| └-----------------┘ ``` b) 总效应计算: - 直接路径:T → Y = 0.3 - 间接路径1:T → M1 → Y = 0.4 × 0.2 = 0.08 - 间接路径2:T → M2 → Y = 0.2 × 0.3 = 0.06 - 间接路径3:T → M1 → M2 → Y = 0.4 × 0.5 × 0.3 = 0.06 总效应 = 0.3 + 0.08 + 0.06 + 0.06 = 0.50 c) 路径贡献分解: - 直接效应:60%(0.3/0.5) - 通过参与度(M1):16%(0.08/0.5) - 通过知识掌握(M2)直接:12%(0.06/0.5) - 通过参与度影响知识掌握:12%(0.06/0.5) d) 改进建议: 直接效应占60%,说明课程设计本身的质量最重要。在间接路径中,通过提高参与度的总贡献为28%(16%+12%),因此改进参与度激励机制是第二优先级。

习题9.5 交互作用下的中介分析

考虑一个包含处理-中介交互作用的模型: Y = β₀ + β₁T + β₂M + β₃T×M + ε

其中T是二元处理变量,M是连续中介变量。

给定参数估计:β₁ = 2, β₂ = 3, β₃ = 1,且E[M T=1] = 4, E[M T=0] = 2

请问: a) 为什么传统的Baron-Kenny方法不适用? b) 计算控制直接效应CDE(m=3) c) 计算自然直接效应NDE和自然间接效应NIE d) 这个交互作用的实际含义是什么?

Hint:存在交互作用时,效应分解变得复杂,需要考虑不同m值下的效应。

参考答案 a) Baron-Kenny方法不适用的原因: - Baron-Kenny假设效应可加性(无交互作用) - 当存在T×M交互时,直接效应依赖于M的值 - 简单的乘积法(a×b)不再给出正确的间接效应 b) CDE(m=3)计算: CDE(3) = E[Y|T=1,M=3] - E[Y|T=0,M=3] = (β₁ + β₃×3) - 0 = 2 + 1×3 = 5 c) 自然效应计算: NDE = E[Y(1,M(0))] - E[Y(0,M(0))] = β₁ + β₃×E[M(0)] = 2 + 1×2 = 4 NIE = E[Y(1,M(1))] - E[Y(1,M(0))] = (β₂ + β₃)×(E[M(1)] - E[M(0)]) = (3 + 1)×(4 - 2) = 4×2 = 8 总效应 = NDE + NIE = 4 + 8 = 12 d) 交互作用的含义: β₃ > 0表示处理和中介变量之间存在协同作用。具体来说: - 当M值较高时,处理的直接效应更强 - 处理不仅通过改变M的水平影响Y,还改变了M对Y的影响强度 - 这种交互可能反映了处理使个体对中介变量更加敏感

习题9.6 时变中介分析

某公司实施新管理制度(T),通过每月的员工满意度(M_t)影响年终离职率(Y)。数据收集了12个月的满意度。

思考以下问题: a) 如何定义时变中介效应? b) 识别时变中介效应需要什么额外假设? c) 如果早期满意度影响后期满意度,如何处理这种动态依赖? d) 设计一个分析策略来估计不同时期满意度的中介作用

Hint:考虑将时间维度纳入因果图。

参考答案 a) 时变中介效应定义: - 将每个时期的满意度M_t视为独立的中介变量 - 总间接效应 = Σ(t=1到12) IE_t - 其中IE_t是通过时期t满意度传导的间接效应 b) 额外识别假设: - 序列可忽略性:T ⊥ Y(t,m₁,...,m₁₂) | X - 无时变混杂:M_t ⊥ Y | T, M₁,...,M_{t-1}, X - 时间一致性:早期中介不受后期中介影响 c) 处理动态依赖: - 使用边际结构模型(MSM)处理时变混杂 - 构建动态因果图:T → M₁ → M₂ → ... → M₁₂ → Y - 使用G-computation或IPW估计累积效应 - 考虑滞后效应:M_t可能影响M_{t+k} d) 分析策略: 1. 第一阶段:估计处理对各期满意度的影响 M_t = α_t × T + γ_t × X + ε_t 2. 第二阶段:使用结构方程模型 Y = β₀ + β_T × T + Σβ_t × M_t + δ × X + ε 3. 时期特定间接效应: IE_t = α_t × β_t 4. 时间模式分析: - 绘制IE_t随时间的变化曲线 - 识别关键时期(如前3个月最重要) - 检验衰减模式:IE_t = θ × exp(-λt)

习题9.7 因果中介分析的假设检验

某研究声称发现了显著的中介效应,但你怀疑可能存在反向因果(Y影响M)。

设计一套诊断方法来检验中介分析的关键假设: a) 如何检验时序假设? b) 如何检验无未测量混杂假设? c) 如何检验反向因果的可能性? d) 如果发现假设违反,有什么补救措施?

Hint:考虑使用工具变量、负对照等方法。

参考答案 a) 时序假设检验: - 收集纵向数据,确认T在M之前,M在Y之前 - 交叉滞后面板模型:同时估计M_t → Y_{t+1}和Y_t → M_{t+1} - 事件研究:观察处理前后M和Y的动态变化 - Granger因果检验:测试时间优先性 b) 无未测量混杂检验: - 负对照结果:使用不应受影响的结果变量 - 负对照暴露:使用不应有因果效应的处理 - E-value计算:量化需要多强的混杂才能解释效应 - 多重中介对比:不同中介路径应给出一致结果 c) 反向因果检验: - 工具变量法:找到只影响T不直接影响M、Y的IV - 时间反转测试:用未来的Y预测过去的M - 安慰剂测试:在处理前的时期进行分析 - 双向中介分析:同时估计T→M→Y和T→Y→M d) 补救措施: - 时序问题:收集更细粒度的时间数据 - 未测量混杂: * 进行全面的敏感性分析 * 寻找工具变量或自然实验 * 使用匹配或加权减少混杂 - 反向因果: * 使用滞后变量打破同期相关 * 寻找外生冲击作为识别策略 * 考虑联立方程模型 - 模型设定: * 检验线性假设,考虑非参数方法 * 允许交互作用和非线性关系 * 使用机器学习方法估计复杂关系

常见陷阱与错误

1. 概念混淆

错误:混淆统计中介和因果中介

错误:混淆自然效应和控制效应

2. 识别假设违反

错误:忽视时序要求

错误:忽略处理后混杂

3. 模型设定错误

错误:强加线性假设

错误:忽略交互作用

4. 多重中介的陷阱

错误:忽略中介变量间的相关性

错误:错误的因果顺序

5. 解释错误

错误:过度解释间接效应

错误:忽视实质重要性

6. 敏感性分析不足

错误:不进行敏感性分析

7. 样本量和检验力问题

错误:样本量不足检测间接效应

最佳实践检查清单

研究设计阶段

理论基础

变量选择

数据要求

分析实施阶段

初步检查

模型选择

识别策略

稳健性检验

敏感性分析阶段

未测量混杂

模型假设

因果方向

结果报告阶段

效应报告

假设说明

敏感性结果

可重复性

解释与应用阶段

因果解释

实践意义

未来研究

特殊情况检查

多重中介

时变中介

交互作用

记住:中介分析的目标是理解因果机制,而不仅仅是统计分解。每个步骤都应该服务于这个核心目标。