第九章:中介分析与路径分析
在因果推断中,我们不仅关心处理对结果的总体影响,更想理解这种影响是如何产生的——通过什么机制或路径实现。中介分析(Mediation Analysis)为我们提供了打开因果”黑箱”的钥匙,帮助我们理解因果效应的传导机制。本章将系统介绍中介分析的理论框架、识别策略、敏感性分析方法,以及在复杂场景下的应用。
9.1 直接效应与间接效应
9.1.1 因果路径的分解
考虑一个简单的因果链:处理变量 $T$ 通过中介变量 $M$ 影响结果变量 $Y$。这个过程可以用以下因果图表示:
在这个框架下,$T$ 对 $Y$ 的总效应(Total Effect, TE)可以分解为:
- 直接效应(Direct Effect, DE):$T$ 不经过 $M$ 直接对 $Y$ 的影响
- 间接效应(Indirect Effect, IE):$T$ 通过 $M$ 对 $Y$ 的影响
数学上,总效应可以表示为:
\(\text{TE} = \text{DE} + \text{IE}\)
9.1.2 Baron-Kenny方法
Baron和Kenny(1986)提出的经典中介分析方法基于线性回归模型:
步骤1:检验 $T$ 对 $Y$ 的总效应
\(Y = c \cdot T + e_1\)
步骤2:检验 $T$ 对 $M$ 的效应
\(M = a \cdot T + e_2\)
步骤3:同时纳入 $T$ 和 $M$ 预测 $Y$
\(Y = c' \cdot T + b \cdot M + e_3\)
其中:
- 总效应 = $c$
- 直接效应 = $c’$
- 间接效应 = $a \times b$
9.1.3 Baron-Kenny方法的局限性
尽管Baron-Kenny方法直观易懂,但存在重要局限:
- 线性假设:假设所有关系都是线性的,无法处理非线性关系
- 无交互作用:假设处理和中介变量之间没有交互作用
- 时序混淆:没有明确考虑变量的时间顺序
- 因果识别不足:缺乏对混杂因素的系统考虑
9.2 中介效应的识别
9.2.1 潜在结果框架下的中介分析
使用Rubin因果模型的潜在结果框架,我们可以更严格地定义中介效应。对于每个个体 $i$,定义:
- $Y_i(t, m)$:当处理为 $t$,中介变量为 $m$ 时的潜在结果
- $M_i(t)$:当处理为 $t$ 时中介变量的潜在值
9.2.2 自然直接效应与间接效应
自然直接效应(Natural Direct Effect, NDE)定义为:
\(\text{NDE} = E[Y(1, M(0)) - Y(0, M(0))]\)
这表示保持中介变量在控制条件下的”自然”水平时,处理对结果的直接影响。
自然间接效应(Natural Indirect Effect, NIE)定义为:
\(\text{NIE} = E[Y(1, M(1)) - Y(1, M(0))]\)
这表示在处理条件下,中介变量变化带来的间接影响。
总效应可以分解为:
\(\text{TE} = E[Y(1, M(1)) - Y(0, M(0))] = \text{NDE} + \text{NIE}\)
9.2.3 控制直接效应与间接效应
控制直接效应(Controlled Direct Effect, CDE)定义为:
\(\text{CDE}(m) = E[Y(1, m) - Y(0, m)]\)
这表示将中介变量固定在特定水平 $m$ 时的直接效应。
CDE与NDE的区别在于:
- CDE:人为固定中介变量的值
- NDE:允许中介变量取其”自然”值
9.2.4 识别假设
中介效应的因果识别需要以下关键假设:
- 无未测量混杂假设:
-
| $(Y(t,m), M(t)) \perp!!!\perp T |
X$ |
-
| $Y(t,m) \perp!!!\perp M |
T, X$ |
-
时序一致性假设:处理发生在中介变量之前,中介变量发生在结果之前
- 交叉世界独立性假设:
\(Y(t, m) \perp\!\!\!\perp M(t') | X \quad \text{for all } t, t', m\)
这是一个强假设,要求不同处理水平下的潜在结果和潜在中介变量值相互独立。
9.3 敏感性分析
中介分析的识别假设往往难以完全满足,特别是无未测量混杂假设。敏感性分析帮助我们评估违反这些假设时结论的稳健性。
9.3.1 未测量混杂的影响
考虑存在未测量混杂因素 $U$ 影响中介变量和结果:
这种情况下,传统的中介分析会产生偏差。敏感性分析的核心是量化这种偏差的大小。
9.3.2 敏感性参数
定义敏感性参数 $\rho$ 表示残差相关性:
\(\rho = \text{Corr}(\epsilon_M, \epsilon_Y)\)
其中 $\epsilon_M$ 和 $\epsilon_Y$ 分别是中介变量和结果变量回归模型的残差。
在线性模型下,间接效应的偏差可以表示为:
\(\text{Bias}(\hat{IE}) = \rho \cdot \sigma_M \cdot \sigma_Y \cdot \frac{1}{\text{Var}(M|T,X)}\)
9.3.3 敏感性分析的实施步骤
- 设定敏感性参数范围:例如 $\rho \in [-0.3, 0.3]$
- 计算不同参数值下的效应估计:对每个 $\rho$ 值重新计算间接效应
- 绘制敏感性图:展示效应估计如何随敏感性参数变化
- 确定稳健性区间:找出使结论改变的参数阈值
9.3.4 基于E-value的敏感性分析
E-value是评估未测量混杂强度的另一种方法。对于中介分析,我们可以计算:
- 使间接效应变为零所需的最小混杂强度
- 使直接效应变为零所需的最小混杂强度
E-value越大,说明结果对未测量混杂越稳健。
9.4 多重中介模型
实际应用中,因果效应往往通过多个中介变量传导。多重中介模型帮助我们理解复杂的因果机制。
9.4.1 并行中介模型
在并行中介模型中,多个中介变量独立地传导处理效应:
┌→ M1 →┐
T → M2 → Y
└→ M3 →┘
总的间接效应等于各路径间接效应之和:
\(\text{IE}_{\text{total}} = \text{IE}_{M1} + \text{IE}_{M2} + \text{IE}_{M3}\)
9.4.2 串行中介模型
在串行中介模型中,中介变量之间存在因果关系:
这种模型需要考虑:
- $T \to M1 \to Y$ 的间接效应
- $T \to M1 \to M2 \to Y$ 的间接效应
- $T \to M2 \to Y$ 的间接效应(如果存在)
9.4.3 效应分解策略
对于复杂的多重中介模型,可以采用以下策略:
- 逐步分解法:逐个添加中介变量,观察效应变化
- 路径分析法:计算每条因果路径的贡献
- 结构方程模型:使用SEM同时估计所有路径
9.4.4 识别挑战
多重中介模型面临额外的识别挑战:
- 中介变量间的混杂:需要控制影响多个中介变量的共同因素
- 时序关系:确保中介变量的时间顺序正确
- 交互效应:处理与不同中介变量的交互作用
9.5 行业案例:字节跳动内容质量对用户留存的影响机制
背景
字节跳动的短视频平台需要理解内容质量如何影响用户留存。管理层假设:高质量内容不仅直接提升用户满意度,还通过增加用户互动(点赞、评论、分享)间接影响留存率。
因果问题
- 处理变量(T):内容质量得分(基于算法评估的0-100分)
- 中介变量(M):用户互动率(点赞+评论+分享的综合指标)
- 结果变量(Y):7日留存率
- 协变量(X):用户画像、历史行为、时间特征等
因果图
内容质量 → 用户互动 → 7日留存
↘ ↗
直接效应
潜在混杂:
- 用户偏好 → 内容质量选择 & 留存
- 时间趋势 → 互动率 & 留存
分析策略
第一步:数据准备
- 收集100万用户的观看记录
- 计算每个用户接触内容的平均质量分
- 统计用户互动行为
- 追踪7日留存情况
第二步:识别策略
利用推荐算法的随机性作为准实验:
- 算法会随机展示不同质量的内容给用户
- 控制用户特征后,内容质量分配近似随机
第三步:中介分析
1. 总效应模型:
留存 = β₀ + β₁·内容质量 + γ·协变量 + ε
2. 中介变量模型:
互动率 = α₀ + α₁·内容质量 + δ·协变量 + ε
3. 完整模型:
留存 = θ₀ + θ₁·内容质量 + θ₂·互动率 + λ·协变量 + ε
分析结果
效应分解:
- 总效应:内容质量每提升10分,留存率提升2.5%
- 直接效应:1.0%(40%)
- 间接效应(通过互动):1.5%(60%)
路径分析:
- 内容质量 → 互动率:质量每提升10分,互动率提升15%
- 互动率 → 留存:互动率每提升10%,留存率提升1%
异质性分析:
- 新用户:间接效应占比更高(70%)
- 老用户:直接效应占比更高(55%)
敏感性分析
考虑未测量的用户兴趣偏好可能同时影响互动和留存:
- 基准估计:间接效应 = 1.5%
- 敏感性测试:
- 弱混杂(ρ=0.1):间接效应 = 1.3%
- 中等混杂(ρ=0.2):间接效应 = 1.1%
- 强混杂(ρ=0.3):间接效应 = 0.9%
结论:即使存在中等程度的未测量混杂,间接效应仍然显著。
业务启示
- 内容策略:提升内容质量是提高留存的有效手段
- 互动设计:优化互动功能可以放大内容质量的效果
- 用户分层:对新用户应更注重互动引导
- 算法优化:推荐算法应同时考虑内容质量和互动潜力
本章小结
中介分析是理解因果机制的重要工具,它帮助我们打开因果效应的”黑箱”,理解处理如何通过中间变量影响最终结果。
核心概念回顾
- 效应分解:
- 总效应 = 直接效应 + 间接效应
- 自然效应 vs 控制效应
- 识别条件:
- 关键公式:
- 自然直接效应:$\text{NDE} = E[Y(1, M(0)) - Y(0, M(0))]$
- 自然间接效应:$\text{NIE} = E[Y(1, M(1)) - Y(1, M(0))]$
- Baron-Kenny分解:$c = c’ + ab$
- 敏感性分析:
- 评估未测量混杂的影响
- 使用敏感性参数和E-value
- 确定结论的稳健性边界
- 多重中介:
- 并行中介:多条独立路径
- 串行中介:级联效应
- 复杂网络的路径分析
实践要点
- 中介分析需要强假设,实践中应谨慎解释
- 敏感性分析是必不可少的稳健性检验
- 时间顺序和理论支撑对因果解释至关重要
- 多重中介模型能更真实地反映复杂机制
练习题
基础题
习题9.1 Baron-Kenny方法的基本步骤
某研究考察教育年限(T)对收入(Y)的影响,假设工作技能(M)是中介变量。研究者进行了以下三个回归:
- 回归1:Y = 5000T + ε,系数显著
- 回归2:M = 2T + ε,系数显著
- 回归3:Y = 2000T + 1500M + ε,两个系数都显著
请问:
a) 根据Baron-Kenny方法,总效应、直接效应和间接效应分别是多少?
b) 中介效应占总效应的比例是多少?
c) 这是完全中介还是部分中介?
Hint:间接效应等于a×b,其中a是T对M的效应,b是控制T后M对Y的效应。
参考答案
a) 效应分解:
- 总效应 = 5000(回归1的系数)
- 直接效应 = 2000(回归3中T的系数)
- 间接效应 = 2 × 1500 = 3000(a×b)
- 验证:5000 = 2000 + 3000 ✓
b) 中介效应比例 = 3000/5000 = 60%
c) 这是部分中介,因为控制M后,T对Y仍有显著的直接效应(2000≠0)。如果直接效应为0,才是完全中介。
习题9.2 自然效应的理解
在一个员工培训项目中:
- T = 1表示接受培训,T = 0表示未接受培训
- M表示工作积极性(0-10分)
- Y表示绩效评分(0-100分)
假设我们观察到:
- E[M(1)] = 8,E[M(0)] = 5
- E[Y(1,8)] = 85,E[Y(0,8)] = 75
- E[Y(1,5)] = 70,E[Y(0,5)] = 60
请计算:
a) 控制直接效应CDE(8)和CDE(5)
b) 如果假设Y(t,m)是线性的,自然直接效应NDE是多少?
Hint:CDE(m) = E[Y(1,m) - Y(0,m)];NDE需要考虑M在控制条件下的自然值。
参考答案
a) 控制直接效应:
- CDE(8) = E[Y(1,8) - Y(0,8)] = 85 - 75 = 10
- CDE(5) = E[Y(1,5) - Y(0,5)] = 70 - 60 = 10
注意:在线性模型下,CDE对所有m值都相同。
b) 自然直接效应:
NDE = E[Y(1,M(0)) - Y(0,M(0))]
由于M(0)的期望值是5,在线性假设下:
NDE = E[Y(1,5) - Y(0,5)] = 70 - 60 = 10
这个例子展示了在线性无交互模型下,CDE和NDE相等。
习题9.3 敏感性参数的计算
某中介分析研究发现:
- 间接效应估计值 = 0.3
- 中介变量残差标准差 σ_M = 2
- 结果变量残差标准差 σ_Y = 5
-
如果存在未测量混杂使得残差相关性ρ = 0.2,请问:
a) 间接效应的偏差是多少?
b) 真实的间接效应是多少?
c) 如果要使间接效应变为0,需要多大的ρ?
| Hint:使用偏差公式 Bias = ρ × σ_M × σ_Y / Var(M |
T,X) |
参考答案
a) 偏差计算:
Bias = 0.2 × 2 × 5 / 4 = 0.2 × 10 / 4 = 0.5
b) 真实间接效应:
真实效应 = 观察效应 - 偏差 = 0.3 - 0.5 = -0.2
这表明如果存在这种程度的未测量混杂,真实的间接效应可能是负的!
c) 使间接效应为0的ρ:
设置 0.3 - ρ × 2 × 5 / 4 = 0
解得:ρ = 0.3 × 4 / 10 = 0.12
这意味着即使较小的残差相关性(ρ = 0.12)也足以完全解释观察到的间接效应。
挑战题
习题9.4 多重中介的路径分析
某在线教育平台研究课程设计(T)对学习成果(Y)的影响机制,考虑两个中介变量:
假设因果结构为:T → M1 → M2 → Y,同时T对M2和Y都有直接影响。
通过路径分析得到以下标准化路径系数:
- T → M1: 0.4
- T → M2: 0.2
- T → Y: 0.3
- M1 → M2: 0.5
- M1 → Y: 0.2
- M2 → Y: 0.3
请问:
a) 画出完整的路径图并标注所有系数
b) 计算T对Y的总效应
c) 分解出每条因果路径的贡献
d) 如果要最大化课程效果,应该重点改进哪个环节?
Hint:总效应等于所有从T到Y的路径效应之和。
参考答案
a) 路径图:
```
0.4 0.5
T ----→ M1 ----→ M2
| | |
0.2| 0.2| 0.3|
↓ ↓ ↓
M2 ←-----┘ Y
| ^
0.3| 0.3|
└-----------------┘
```
b) 总效应计算:
- 直接路径:T → Y = 0.3
- 间接路径1:T → M1 → Y = 0.4 × 0.2 = 0.08
- 间接路径2:T → M2 → Y = 0.2 × 0.3 = 0.06
- 间接路径3:T → M1 → M2 → Y = 0.4 × 0.5 × 0.3 = 0.06
总效应 = 0.3 + 0.08 + 0.06 + 0.06 = 0.50
c) 路径贡献分解:
- 直接效应:60%(0.3/0.5)
- 通过参与度(M1):16%(0.08/0.5)
- 通过知识掌握(M2)直接:12%(0.06/0.5)
- 通过参与度影响知识掌握:12%(0.06/0.5)
d) 改进建议:
直接效应占60%,说明课程设计本身的质量最重要。在间接路径中,通过提高参与度的总贡献为28%(16%+12%),因此改进参与度激励机制是第二优先级。
习题9.5 交互作用下的中介分析
考虑一个包含处理-中介交互作用的模型:
Y = β₀ + β₁T + β₂M + β₃T×M + ε
其中T是二元处理变量,M是连续中介变量。
| 给定参数估计:β₁ = 2, β₂ = 3, β₃ = 1,且E[M |
T=1] = 4, E[M |
T=0] = 2 |
请问:
a) 为什么传统的Baron-Kenny方法不适用?
b) 计算控制直接效应CDE(m=3)
c) 计算自然直接效应NDE和自然间接效应NIE
d) 这个交互作用的实际含义是什么?
Hint:存在交互作用时,效应分解变得复杂,需要考虑不同m值下的效应。
参考答案
a) Baron-Kenny方法不适用的原因:
- Baron-Kenny假设效应可加性(无交互作用)
- 当存在T×M交互时,直接效应依赖于M的值
- 简单的乘积法(a×b)不再给出正确的间接效应
b) CDE(m=3)计算:
CDE(3) = E[Y|T=1,M=3] - E[Y|T=0,M=3]
= (β₁ + β₃×3) - 0
= 2 + 1×3 = 5
c) 自然效应计算:
NDE = E[Y(1,M(0))] - E[Y(0,M(0))]
= β₁ + β₃×E[M(0)]
= 2 + 1×2 = 4
NIE = E[Y(1,M(1))] - E[Y(1,M(0))]
= (β₂ + β₃)×(E[M(1)] - E[M(0)])
= (3 + 1)×(4 - 2) = 4×2 = 8
总效应 = NDE + NIE = 4 + 8 = 12
d) 交互作用的含义:
β₃ > 0表示处理和中介变量之间存在协同作用。具体来说:
- 当M值较高时,处理的直接效应更强
- 处理不仅通过改变M的水平影响Y,还改变了M对Y的影响强度
- 这种交互可能反映了处理使个体对中介变量更加敏感
习题9.6 时变中介分析
某公司实施新管理制度(T),通过每月的员工满意度(M_t)影响年终离职率(Y)。数据收集了12个月的满意度。
思考以下问题:
a) 如何定义时变中介效应?
b) 识别时变中介效应需要什么额外假设?
c) 如果早期满意度影响后期满意度,如何处理这种动态依赖?
d) 设计一个分析策略来估计不同时期满意度的中介作用
Hint:考虑将时间维度纳入因果图。
参考答案
a) 时变中介效应定义:
- 将每个时期的满意度M_t视为独立的中介变量
- 总间接效应 = Σ(t=1到12) IE_t
- 其中IE_t是通过时期t满意度传导的间接效应
b) 额外识别假设:
- 序列可忽略性:T ⊥ Y(t,m₁,...,m₁₂) | X
- 无时变混杂:M_t ⊥ Y | T, M₁,...,M_{t-1}, X
- 时间一致性:早期中介不受后期中介影响
c) 处理动态依赖:
- 使用边际结构模型(MSM)处理时变混杂
- 构建动态因果图:T → M₁ → M₂ → ... → M₁₂ → Y
- 使用G-computation或IPW估计累积效应
- 考虑滞后效应:M_t可能影响M_{t+k}
d) 分析策略:
1. 第一阶段:估计处理对各期满意度的影响
M_t = α_t × T + γ_t × X + ε_t
2. 第二阶段:使用结构方程模型
Y = β₀ + β_T × T + Σβ_t × M_t + δ × X + ε
3. 时期特定间接效应:
IE_t = α_t × β_t
4. 时间模式分析:
- 绘制IE_t随时间的变化曲线
- 识别关键时期(如前3个月最重要)
- 检验衰减模式:IE_t = θ × exp(-λt)
习题9.7 因果中介分析的假设检验
某研究声称发现了显著的中介效应,但你怀疑可能存在反向因果(Y影响M)。
设计一套诊断方法来检验中介分析的关键假设:
a) 如何检验时序假设?
b) 如何检验无未测量混杂假设?
c) 如何检验反向因果的可能性?
d) 如果发现假设违反,有什么补救措施?
Hint:考虑使用工具变量、负对照等方法。
参考答案
a) 时序假设检验:
- 收集纵向数据,确认T在M之前,M在Y之前
- 交叉滞后面板模型:同时估计M_t → Y_{t+1}和Y_t → M_{t+1}
- 事件研究:观察处理前后M和Y的动态变化
- Granger因果检验:测试时间优先性
b) 无未测量混杂检验:
- 负对照结果:使用不应受影响的结果变量
- 负对照暴露:使用不应有因果效应的处理
- E-value计算:量化需要多强的混杂才能解释效应
- 多重中介对比:不同中介路径应给出一致结果
c) 反向因果检验:
- 工具变量法:找到只影响T不直接影响M、Y的IV
- 时间反转测试:用未来的Y预测过去的M
- 安慰剂测试:在处理前的时期进行分析
- 双向中介分析:同时估计T→M→Y和T→Y→M
d) 补救措施:
- 时序问题:收集更细粒度的时间数据
- 未测量混杂:
* 进行全面的敏感性分析
* 寻找工具变量或自然实验
* 使用匹配或加权减少混杂
- 反向因果:
* 使用滞后变量打破同期相关
* 寻找外生冲击作为识别策略
* 考虑联立方程模型
- 模型设定:
* 检验线性假设,考虑非参数方法
* 允许交互作用和非线性关系
* 使用机器学习方法估计复杂关系
常见陷阱与错误
1. 概念混淆
错误:混淆统计中介和因果中介
- 症状:仅因为回归系数显著就声称存在中介效应
- 问题:统计关联不等于因果关系
- 正确做法:明确因果假设,使用因果推断框架
错误:混淆自然效应和控制效应
- 症状:随意使用NDE和CDE,不理解其区别
- 问题:两者回答不同的因果问题
- 正确做法:
- CDE:人为固定中介变量时的效应
- NDE:允许中介变量自然变化时的效应
2. 识别假设违反
错误:忽视时序要求
- 症状:使用横截面数据进行中介分析
- 问题:无法确定因果方向
- 调试技巧:
```
检查清单:
- T是否发生在M之前?
- M是否发生在Y之前?
- 是否存在反向因果?
```
错误:忽略处理后混杂
- 症状:T影响未观测变量U,U同时影响M和Y
- 问题:违反交叉世界独立性假设
- 示例:
- 解决方案:考虑敏感性分析或工具变量方法
3. 模型设定错误
错误:强加线性假设
- 症状:对明显非线性关系使用线性模型
- 问题:效应分解可能完全错误
- 调试方法:
- 绘制散点图检查线性关系
- 添加多项式项或使用样条
- 考虑非参数中介分析
错误:忽略交互作用
- 症状:当T×M交互显著时仍使用Baron-Kenny方法
- 问题:间接效应估计有偏
- 正确做法:使用考虑交互的中介分析方法
4. 多重中介的陷阱
错误:忽略中介变量间的相关性
- 症状:将相关的中介变量当作独立路径
- 问题:重复计算某些效应
- 解决方案:使用结构方程模型正确建模相关性
错误:错误的因果顺序
- 症状:M₁ → M₂的方向设定错误
- 调试技巧:
- 使用领域知识确定顺序
- 进行时间顺序检验
- 尝试不同顺序进行敏感性检验
5. 解释错误
错误:过度解释间接效应
- 症状:”60%的效应通过M传导”被解释为因果机制
- 问题:比例依赖于模型设定和测量
- 正确解释:强调这是在特定假设下的分解
错误:忽视实质重要性
- 症状:仅关注统计显著性
- 问题:统计显著不等于实际重要
- 评估标准:
- 效应大小是否有实际意义?
- 是否稳健于不同设定?
- 是否符合理论预期?
6. 敏感性分析不足
错误:不进行敏感性分析
- 症状:报告点估计,忽略假设违反的影响
- 问题:结论可能完全被未测量混杂推翻
- 必做检查:
- 计算E-value
- 进行相关性敏感性分析
- 使用多种识别策略
7. 样本量和检验力问题
错误:样本量不足检测间接效应
- 症状:间接效应不显著就认为无中介
- 问题:间接效应的检验力通常较低
- 解决方案:
- 使用bootstrap方法
- 计算所需样本量
- 考虑贝叶斯方法
最佳实践检查清单
研究设计阶段
□ 理论基础
□ 变量选择
□ 数据要求
分析实施阶段
□ 初步检查
□ 模型选择
□ 识别策略
□ 稳健性检验
敏感性分析阶段
□ 未测量混杂
□ 模型假设
□ 因果方向
结果报告阶段
□ 效应报告
□ 假设说明
□ 敏感性结果
□ 可重复性
解释与应用阶段
□ 因果解释
□ 实践意义
□ 未来研究
特殊情况检查
□ 多重中介
□ 时变中介
□ 交互作用
记住:中介分析的目标是理解因果机制,而不仅仅是统计分解。每个步骤都应该服务于这个核心目标。