causal_inference_tutorial

第六章：工具变量方法

在因果推断的实践中，我们经常面临这样的困境：即使控制了所有可观测的混杂因素，仍然可能存在未观测的混杂因素影响我们的因果效应估计。工具变量（Instrumental Variables, IV）方法为我们提供了一种巧妙的解决方案——通过寻找一个与处理变量相关但不直接影响结果的”工具”，来识别真正的因果效应。本章将系统介绍工具变量方法的理论基础、实践应用以及常见陷阱。

6.1 工具变量的定义与假设

工具变量方法的核心思想是利用外生变化来识别因果效应。一个有效的工具变量 $Z$ 必须满足以下三个关键假设：

6.1.1 相关性假设（Relevance）

工具变量 $Z$ 必须与处理变量 $D$ 相关：

\[\text{Cov}(Z, D) \neq 0\]

这个假设保证了工具变量能够引起处理变量的变化。如果工具变量与处理变量无关，我们就无法通过工具变量的变化来推断处理效应。在实践中，我们通常要求这种相关性足够强，否则会遇到弱工具变量问题。

6.1.2 排除性限制（Exclusion Restriction）

工具变量 $Z$ 只能通过影响处理变量 $D$ 来影响结果 $Y$，不能有直接影响：

\[Z \perp\!\!\!\perp Y | D, X\]

这是工具变量方法最关键也是最难验证的假设。它要求工具变量对结果的所有影响都必须通过处理变量这一唯一路径。

6.1.3 独立性假设（Independence）

工具变量 $Z$ 必须与未观测的混杂因素 $U$ 独立：

\[Z \perp\!\!\!\perp U\]

这个假设确保工具变量是外生的，不会被那些同时影响处理和结果的未观测因素所影响。

因果图表示

使用有向无环图（DAG），工具变量的结构可以表示为：

    Z → D → Y
         ↑
         U

其中：

$Z$ 是工具变量
$D$ 是处理变量
$Y$ 是结果变量
$U$ 是未观测的混杂因素
注意 $Z$ 和 $Y$ 之间没有直接的箭头（排除性限制）
$Z$ 和 $U$ 之间没有箭头（独立性假设）

经典例子：教育回报率

估计教育年限对收入的因果效应是工具变量方法的经典应用。直接回归会因为能力偏差而产生内生性问题：

问题：能力既影响教育选择又影响收入
工具变量：出生季度（Angrist & Krueger, 1991）
机制：强制入学法律导致不同出生季度的人有不同的教育年限
有效性：
- 相关性：出生季度影响教育年限（通过入学年龄）
- 排除性：出生季度不直接影响收入
- 独立性：出生季度是随机的

6.2 两阶段最小二乘法（2SLS）

两阶段最小二乘法是实现工具变量估计的标准方法。顾名思义，它包含两个回归阶段。

6.2.1 第一阶段：预测处理变量

第一阶段使用工具变量 $Z$ 和协变量 $X$ 来预测处理变量 $D$：

\[D_i = \pi_0 + \pi_1 Z_i + \pi_2 X_i + v_i\]

得到处理变量的预测值：

\[\hat{D}_i = \hat{\pi}_0 + \hat{\pi}_1 Z_i + \hat{\pi}_2 X_i\]

这一步的关键是提取处理变量中由工具变量引起的外生变化部分。

6.2.2 第二阶段：估计因果效应

第二阶段使用预测的处理变量 $\hat{D}$ 来估计对结果的影响：

\[Y_i = \beta_0 + \beta_1 \hat{D}_i + \beta_2 X_i + \epsilon_i\]

其中 $\beta_1$ 就是我们要估计的因果效应。

6.2.3 数学推导

为了理解2SLS为什么能够识别因果效应，考虑简化的情况（没有协变量）：

结构方程： $Y = \beta D + U$ $D = \pi Z + V$

其中 $\text{Cov}(D, U) \neq 0$（内生性），但 $\text{Cov}(Z, U) = 0$（工具变量假设）。

IV估计量： $\hat{\beta}_{IV} = \frac{\text{Cov}(Y, Z)}{\text{Cov}(D, Z)}$

展开分子： $\text{Cov}(Y, Z) = \text{Cov}(\beta D + U, Z) = \beta \text{Cov}(D, Z) + \text{Cov}(U, Z)$

由于 $\text{Cov}(U, Z) = 0$（独立性假设），我们得到：

\[\hat{\beta}_{IV} = \frac{\beta \text{Cov}(D, Z)}{\text{Cov}(D, Z)} = \beta\]

这表明IV估计量是一致的。

6.2.4 标准误的计算

2SLS的标准误需要特殊处理，因为第二阶段使用了第一阶段的预测值。正确的标准误公式需要考虑两阶段估计的不确定性。大多数统计软件会自动进行这种调整。

手动计算时容易犯的错误是直接使用第二阶段OLS的标准误，这会导致标准误被低估，进而高估统计显著性。

6.3 弱工具变量问题

弱工具变量是指与处理变量相关性较弱的工具变量，这是实践中最常见的问题之一。

6.3.1 弱工具变量的定义

当第一阶段的F统计量小于10时，通常认为存在弱工具变量问题（Stock & Yogo, 2005）：

\[F = \frac{(\hat{\pi}_1)^2}{\text{Var}(\hat{\pi}_1)}\]

更正式的定义基于浓度参数（concentration parameter）：

\[\mu^2 = \frac{N \cdot \pi^2}{\sigma_v^2}\]

当 $\mu^2$ 较小时，工具变量被认为是弱的。

6.3.2 弱工具变量的后果

估计偏差：在有限样本中，2SLS估计量会偏向OLS估计量
推断失效：标准误被低估，置信区间覆盖率不足
估计不稳定：小的数据变化可能导致估计结果大幅变化

偏差的近似公式（单个工具变量情况）：

\[E[\hat{\beta}_{2SLS}] - \beta \approx \frac{\sigma_{uv}}{\sigma_v^2} \cdot \frac{1}{F}\]

其中 $\sigma_{uv}$ 是结构误差项的协方差。

6.3.3 诊断方法

第一阶段F检验
- 经验法则：F > 10（Staiger & Stock, 1997）
- 更严格的临界值取决于工具变量个数和可接受的偏差水平
Stock-Yogo临界值
- 基于最大相对偏差或最大规模扭曲
- 提供不同显著性水平下的临界值表
Kleibergen-Paap统计量
- 适用于异方差和聚类标准误的情况
- 比传统F统计量更稳健

6.3.4 解决策略

寻找更强的工具变量
- 理论指导：基于经济理论寻找更相关的工具
- 组合多个弱工具：可能产生一个强工具
使用稳健的推断方法
- Anderson-Rubin置信区间：对弱工具变量稳健
- 条件似然比检验：在弱工具下仍有正确的规模
有限信息最大似然（LIML）
- 在弱工具变量下比2SLS有更小的偏差
- 但方差可能更大
正则化方法
- LASSO-IV：在高维工具变量情况下选择相关工具
- Ridge-IV：收缩弱工具变量的影响

6.4 局部平均处理效应（LATE）

当处理变量是二元的且存在不完全依从（imperfect compliance）时，工具变量估计的是局部平均处理效应（Local Average Treatment Effect, LATE），而非平均处理效应（ATE）。

6.4.1 四类人群

Angrist, Imbens & Rubin (1996) 将人群分为四类，基于他们对工具变量的反应：

设 $D_i(0)$ 和 $D_i(1)$ 分别表示个体 $i$ 在工具变量 $Z=0$ 和 $Z=1$ 时的处理状态：

顺从者（Compliers）：$D_i(0) = 0, D_i(1) = 1$
- 当被鼓励时接受处理，不被鼓励时不接受
总是接受者（Always-takers）：$D_i(0) = 1, D_i(1) = 1$
- 无论是否被鼓励都接受处理
从不接受者（Never-takers）：$D_i(0) = 0, D_i(1) = 0$
- 无论是否被鼓励都不接受处理
反抗者（Defiers）：$D_i(0) = 1, D_i(1) = 0$
- 被鼓励时反而不接受，不被鼓励时反而接受

6.4.2 单调性假设

为了识别LATE，需要额外的单调性假设（Monotonicity）：

\[D_i(1) \geq D_i(0) \text{ 对所有 } i\]

这个假设排除了反抗者的存在。在许多应用中，这是一个合理的假设。例如，在教育回报的例子中，很难想象有人会因为法律要求上学而故意辍学。

6.4.3 LATE的识别

在满足工具变量假设和单调性假设的条件下，IV估计量识别的是顺从者的平均处理效应：

\[\text{LATE} = E[Y_i(1) - Y_i(0) | \text{Complier}]\]

Wald估计量：

\[\text{LATE} = \frac{E[Y|Z=1] - E[Y|Z=0]}{E[D|Z=1] - E[D|Z=0]}\]

分子是工具变量对结果的简约式效应（reduced form effect），分母是第一阶段效应（first stage effect）。

6.4.4 LATE的解释

外部有效性限制
- LATE只适用于顺从者，不能推广到整个人群
- 顺从者的特征可能与其他群体不同
顺从者比例
- 第一阶段系数 $\pi_1 = P(\text{Complier})$
- 顺从者比例越高，LATE越接近ATE
政策含义
- LATE回答的是”对那些会响应政策干预的人，效果如何？”
- 这正是许多政策制定者关心的问题

6.4.5 LATE与其他处理效应的关系

在特定条件下，LATE可以等于其他处理效应参数：

完全依从：如果所有人都是顺从者，LATE = ATE
同质处理效应：如果处理效应对所有人相同，LATE = ATE = ATT = ATC
随机试验：在完美随机试验中，LATE = ITT / 依从率

6.4.6 识别顺从者特征

虽然我们无法直接识别谁是顺从者，但可以估计他们的特征分布：

\[P(X=x|\text{Complier}) = \frac{P(\text{Complier}|X=x) \cdot P(X=x)}{P(\text{Complier})}\]

其中： $P(\text{Complier}|X=x) = E[D|Z=1, X=x] - E[D|Z=0, X=x]$

这允许我们了解顺从者群体的构成。

6.5 多个工具变量与过度识别检验

6.5.1 使用多个工具变量

当有多个工具变量 $Z_1, …, Z_K$ 可用时（$K > 1$），可以提高估计效率：

第一阶段： $D_i = \pi_0 + \sum_{k=1}^K \pi_k Z_{ki} + \gamma X_i + v_i$

使用多个工具变量的优势：

提高第一阶段的预测能力，缓解弱工具变量问题
可以进行过度识别检验
在某些情况下可以放松假设

6.5.2 过度识别检验

当工具变量个数超过内生变量个数时，可以检验工具变量的有效性：

Sargan-Hansen J检验：

\[J = N \cdot \hat{e}' Z (Z'Z)^{-1} Z' \hat{e} \sim \chi^2_{K-1}\]

其中 $\hat{e}$ 是2SLS残差，$K-1$ 是过度识别的自由度。

零假设：所有工具变量都满足排除性限制。

注意事项：

拒绝零假设表明至少有一个工具变量无效
不能拒绝不意味着所有工具变量都有效
如果所有工具变量都以相同方式违反假设，检验无能为力

6.6 行业案例：滴滴出行补贴政策效果评估

背景介绍

滴滴出行在2015-2016年间实施了大规模的司机端和乘客端补贴政策，旨在扩大市场份额和提高平台活跃度。然而，直接评估补贴对司机接单量或乘客打车频率的因果效应面临严重的内生性问题：

选择偏差：活跃用户更可能获得补贴
反向因果：平台可能根据用户活跃度调整补贴
遗漏变量：用户所在地区的经济状况、天气等因素同时影响补贴和使用行为

工具变量策略

研究团队采用了一个巧妙的工具变量：用户注册时的随机实验组分配。

在用户注册时，滴滴通过A/B测试将新用户随机分配到不同的补贴实验组：

处理组：高补贴组（首单减免20元，后续订单9折）
控制组：标准补贴组（首单减免10元，后续订单95折）

这个初始的随机分组作为工具变量 $Z$，实际获得的补贴金额作为处理变量 $D$，用户的月度打车次数作为结果变量 $Y$。

工具变量的有效性验证

相关性检验
- 第一阶段回归：$\text{补贴金额}_i = \alpha + \beta \cdot \text{实验组}_i + \epsilon_i$
- F统计量 = 156.3 > 10，强工具变量
- 实验组用户平均每月多获得42元补贴
排除性限制
- 随机分组只通过影响补贴金额来影响打车行为
- 平衡性检验：两组在年龄、性别、城市等特征上无显著差异
单调性假设
- 没有用户会因为被分到高补贴组而故意减少使用
- 通过用户访谈和行为分析验证了这一假设

估计结果

2SLS估计：

第一阶段：补贴金额 = 15.2 + 42.1 × 实验组
         (1.3)   (3.4)
         F = 156.3

第二阶段：月打车次数 = 3.8 + 0.082 × 预测补贴金额
           (0.5)  (0.021)

解释：

每增加10元月度补贴，用户月均打车次数增加0.82次
LATE解释：对于那些会因补贴差异改变行为的用户，效果显著

与OLS对比：

OLS估计：0.143（严重高估）
IV估计：0.082
差异原因：活跃用户本身就获得更多补贴（正向选择）

异质性分析

通过交互项分析不同群体的处理效应：

新老用户差异
- 新用户（注册<3个月）：效应系数 0.124
- 老用户（注册>12个月）：效应系数 0.043
- 新用户对补贴更敏感
城市等级差异
- 一线城市：效应系数 0.065
- 二三线城市：效应系数 0.098
- 低线城市用户价格敏感度更高

政策启示

补贴效率递减：随着补贴金额增加，边际效应递减
精准补贴：应针对价格敏感的新用户和低线城市用户
长期效应：需要考虑补贴停止后的用户留存（本研究的局限）

方法论贡献

这个案例展示了如何在商业环境中应用工具变量方法：

利用历史A/B测试作为外生变化来源
将实验思维与观察性数据分析结合
为动态定价和补贴策略提供因果证据

本章小结

工具变量方法是解决观察性研究中内生性问题的强大工具。本章的核心要点包括：

关键概念

工具变量的三个核心假设
- 相关性：工具变量必须影响处理变量
- 排除性限制：工具变量只能通过处理变量影响结果
- 独立性：工具变量必须外生
两阶段最小二乘法（2SLS）
- 第一阶段提取处理变量的外生变化
- 第二阶段使用预测值估计因果效应
- 标准误需要特殊调整
弱工具变量问题
- F统计量 < 10 表明存在问题
- 导致偏差和推断失效
- 需要寻找更强工具或使用稳健方法
局部平均处理效应（LATE）
- IV估计的是顺从者的处理效应
- 需要单调性假设（无反抗者）
- 外部有效性受限但政策相关性强
过度识别检验
- 多个工具变量时可检验有效性
- Sargan-Hansen J检验
- 不能完全证明工具变量有效

关键公式

IV估计量：$\hat{\beta}_{IV} = \frac{\text{Cov}(Y,Z)}{\text{Cov}(D,Z)}$
第一阶段F统计量：$F = \frac{\hat{\pi}_1^2}{\text{Var}(\hat{\pi}_1)}$
LATE：$\text{LATE} = \frac{E[Y Z=1] - E[Y Z=0]}{E[D Z=1] - E[D Z=0]}$
J检验统计量：$J = N \cdot \hat{e}’ Z (Z’Z)^{-1} Z’ \hat{e} \sim \chi^2_{K-1}$

实践要点

工具变量的选择需要深厚的领域知识
始终检验第一阶段的强度
谨慎解释LATE，明确适用人群
利用多个工具变量提高效率和可信度
敏感性分析评估假设的稳健性

练习题

练习6.1：工具变量假设理解（基础题）

考虑估计大学教育对收入的影响。以下哪些变量可能是好的工具变量？解释原因。 a) 父母的教育水平 b) 到最近大学的距离 c) 个人的智商测试分数 d) 出生月份（在某些国家影响入学年龄）

提示：考虑每个变量是否满足相关性、排除性限制和独立性假设。

答案

b) 和 d) 可能是好的工具变量： - **到最近大学的距离**：满足相关性（距离越近越可能上大学）；可能满足排除性限制（距离本身不影响收入能力）；可能满足独立性（地理位置相对外生）。 - **出生月份**：在有强制入学年龄的国家，满足相关性（影响教育年限）；满足排除性限制（出生月份不直接影响收入）；满足独立性（出生月份随机）。 a) 父母教育水平：违反排除性限制（父母教育可能通过社会资本、家庭环境等直接影响子女收入）。 c) 智商测试分数：违反排除性限制（智商直接影响工作能力和收入）。

练习6.2：2SLS计算（基础题）

给定以下数据：

简约式：$Y = 2 + 0.5Z + e_1$，其中 $\text{Cov}(Z, e_1) = 0$
第一阶段：$D = 1 + 2Z + e_2$，其中 $\text{Cov}(Z, e_2) = 0$

计算处理效应 $\beta$（$Y = \alpha + \beta D + u$）。

提示：使用IV估计量公式或2SLS步骤。

答案

使用IV估计量公式： $$\hat{\beta}_{IV} = \frac{\text{reduced form coefficient}}{\text{first stage coefficient}} = \frac{0.5}{2} = 0.25$$ 验证：如果 $Y = \alpha + 0.25D + u$，且 $D = 1 + 2Z + e_2$，则： $$Y = \alpha + 0.25(1 + 2Z + e_2) + u = (\alpha + 0.25) + 0.5Z + (0.25e_2 + u)$$ 这与简约式 $Y = 2 + 0.5Z + e_1$ 一致，其中 $\alpha = 1.75$。

练习6.3：弱工具变量诊断（基础题）

研究者使用降雨量作为农民参加培训项目的工具变量，估计培训对产量的影响。第一阶段回归结果：

系数估计：$\hat{\pi} = 0.03$
标准误：$SE(\hat{\pi}) = 0.02$
样本量：$n = 500$

评估这个工具变量的强度并提出建议。

提示：计算F统计量并与经验临界值比较。

答案

F统计量计算： $$F = \left(\frac{\hat{\pi}}{SE(\hat{\pi})}\right)^2 = \left(\frac{0.03}{0.02}\right)^2 = 2.25$$ 结论：F = 2.25 << 10，这是一个弱工具变量。建议： 1. 寻找其他工具变量（如政府培训站点的随机分配） 2. 使用多个天气相关变量（温度、湿度等）作为工具 3. 使用Anderson-Rubin置信区间进行稳健推断 4. 考虑使用LIML估计 5. 增加样本量（如果可能）

练习6.4：LATE解释（挑战题）

某城市随机选择部分社区建设地铁站（工具变量Z），研究地铁对居民通勤方式（处理D：是否使用公共交通）和空气质量满意度（结果Y）的影响。数据显示：

$P(D=1 Z=1) = 0.6$，$P(D=1 Z=0) = 0.3$
$E[Y Z=1] = 7.2$，$E[Y Z=0] = 6.0$

a) 计算LATE b) 解释这个估计量代表什么人群 c) 如果政府想知道强制所有人使用公共交通的效果，LATE能回答这个问题吗？

提示：考虑顺从者的定义和LATE的局限性。

答案

a) LATE计算： $$\text{LATE} = \frac{E[Y|Z=1] - E[Y|Z=0]}{E[D|Z=1] - E[D|Z=0]} = \frac{7.2 - 6.0}{0.6 - 0.3} = \frac{1.2}{0.3} = 4$$ b) 人群解释： - 顺从者比例：30%（0.6 - 0.3） - LATE = 4 表示：对于那些因为地铁站建设而改用公共交通的居民（顺从者），他们的空气质量满意度平均提高4分 - 这不包括：总是使用公共交通的人（30%）和从不使用的人（40%） c) 政策问题： LATE不能直接回答强制政策的效果，因为： - LATE只适用于顺从者，不是全体人群 - 强制政策会影响"从不接受者"，他们的处理效应可能不同 - 强制政策可能产生负面反应，改变处理效应本身 - 需要额外假设（如处理效应同质性）才能从LATE推断ATE

练习6.5：过度识别检验（挑战题）

研究者有两个工具变量估计某政策效果：

使用 $Z_1$：$\hat{\beta}_1 = 0.8$，$SE = 0.2$
使用 $Z_2$：$\hat{\beta}_2 = 0.3$，$SE = 0.15$
联合使用：$\hat{\beta}_{2SLS} = 0.6$，J统计量 = 8.5（p值 = 0.004）

解释这些结果并讨论可能的原因。

提示：J检验的含义和两个估计值差异很大的意义。

答案

结果解释： 1. **J检验拒绝**（p = 0.004 < 0.05）： - 至少有一个工具变量不满足排除性限制 - 两个工具变量隐含的因果效应不一致 2. **估计值差异大**（0.8 vs 0.3）： - 如果两个工具都有效，估计值应该相近 - 巨大差异进一步证实至少一个工具变量有问题可能原因： - $Z_1$ 可能直接影响结果（违反排除性限制）导致高估 - $Z_2$ 可能是弱工具变量，导致估计不精确 - 两个工具变量识别不同的局部处理效应（异质性LATE） - 存在未控制的混杂因素影响某个工具变量建议： 1. 重新审视工具变量的理论基础 2. 进行敏感性分析 3. 寻找第三个工具变量进行验证 4. 考虑使用更稳健的估计方法

练习6.6：实际应用设计（挑战题）

你在一家在线教育平台工作，想评估”个性化学习路径”功能对学习效果的因果影响。直接比较使用和不使用该功能的用户存在严重的选择偏差。设计一个工具变量策略来识别因果效应。

提示：考虑平台的技术特点和用户行为。

答案

工具变量策略设计： **方案1：随机技术推送** - 工具变量：系统随机向部分用户推送功能介绍弹窗 - 机制：推送增加功能使用概率，但不直接影响学习效果 - 验证：A/B测试确保随机性；检查推送时间与用户特征无关 **方案2：服务器负载分配** - 工具变量：用户被分配到的服务器（某些服务器该功能响应更快） - 机制：响应速度影响使用体验和采用率 - 假设：服务器分配是随机的，速度差异不直接影响学习 **方案3：注册时间断点** - 工具变量：在功能发布日期前后一周内注册的用户 - 机制：发布后注册的用户默认开启，之前的需要手动开启 - 注意：需要验证注册时间附近用户的可比性 **实施细节**： 1. 数据收集： - 处理变量：功能使用强度（使用时长/次数） - 结果变量：课程完成率、测试成绩、知识留存率 - 控制变量：年龄、教育背景、学习时间、设备类型 2. 有效性检验： - 第一阶段F检验（F > 10） - 平衡性检验（工具变量组间特征平衡） - 伪结果检验（用历史成绩作为结果变量） 3. 稳健性检查： - 使用不同的结果指标 - 子样本分析（新/老用户、不同科目） - 排除可能的违反者（如技术问题用户）

练习6.7：理论推导（挑战题）

证明在存在测量误差的情况下，工具变量估计仍然是一致的。设真实模型为 $Y = \beta D^* + u$，但我们只观察到 $D = D^* + v$，其中 $v$ 是测量误差。

提示：推导IV估计量并分析其概率极限。

答案

设工具变量为 $Z$，满足： - $\text{Cov}(Z, u) = 0$（排除性限制） - $\text{Cov}(Z, D^*) \neq 0$（相关性） - $\text{Cov}(Z, v) = 0$（测量误差独立于工具） IV估计量： $$\hat{\beta}_{IV} = \frac{\text{Cov}(Y, Z)}{\text{Cov}(D, Z)}$$ 分子： $$\text{Cov}(Y, Z) = \text{Cov}(\beta D^* + u, Z) = \beta \text{Cov}(D^*, Z) + \text{Cov}(u, Z) = \beta \text{Cov}(D^*, Z)$$ 分母： $$\text{Cov}(D, Z) = \text{Cov}(D^* + v, Z) = \text{Cov}(D^*, Z) + \text{Cov}(v, Z) = \text{Cov}(D^*, Z)$$ 因此： $$\hat{\beta}_{IV} = \frac{\beta \text{Cov}(D^*, Z)}{\text{Cov}(D^*, Z)} = \beta$$ 结论：即使存在测量误差，只要测量误差与工具变量无关，IV估计仍然是一致的。这是IV方法相对于OLS的另一个优势（OLS在测量误差下会产生衰减偏差）。关键假设：$\text{Cov}(Z, v) = 0$，即测量误差必须与工具变量无关。

练习6.8：综合案例分析（挑战题）

某研究使用”抽签结果”作为”服兵役”的工具变量，估计服兵役对未来收入的影响。批评者提出：抽中但没去服役的人（如因健康原因豁免）可能本身就不同。这如何影响LATE的解释？如何改进研究设计？

提示：考虑不同类型的不依从者和单调性假设。

答案

问题分析： 1. **人群分类复杂化**： - 健康的顺从者：抽中就服役，没抽中就不服役 - 不健康的从不服役者：无论是否抽中都因健康原因不服役 - 可能的反抗者：抽中但通过其他途径避免服役 2. **LATE解释的限制**： - LATE只识别健康顺从者的处理效应 - 排除了不健康人群，可能高估了平均效应 - 如果健康状况与收入能力相关，存在选择性 3. **单调性假设的考量**： - 假设基本成立（很少有人因为没抽中而主动服役） - 但顺从者群体已经是一个选择性样本改进策略： 1. **细化工具变量**： - 使用"抽签号码"作为连续工具变量 - 利用不同年份的抽签临界值变化 2. **控制健康状况**： - 收集服役前体检数据 - 将分析限制在体检合格人群 - 或将健康状况作为协变量 3. **边界识别策略**： - 利用抽签临界值附近的准实验变化 - 结合断点回归设计 4. **多重工具变量**： - 抽签结果 + 出生队列征兵政策变化 - 可以部分检验假设的有效性 5. **敏感性分析**： - 估计不同健康水平下的处理效应 - 计算选择性偏差的边界 - 使用Lee (2009) bounds方法研究启示： - LATE的外部有效性取决于顺从者的代表性 - 需要清楚定义和描述顺从者群体 - 政策制定需要考虑效应的异质性

常见陷阱与错误

1. 工具变量选择的常见错误

错误1：使用内生的”工具”

症状：选择与未观测混杂因素相关的变量作为工具
例子：用”朋友的选择”作为个人选择的工具（社交网络效应）
后果：估计偏差，可能比OLS更糟
预防：仔细考虑工具变量的生成机制

错误2：忽视排除性限制的微妙违反

症状：工具变量有多个影响路径
例子：用距离作为工具时忽略了地理位置的其他效应
诊断：理论分析、安慰剂检验、过度识别检验
解决：控制可能的违反路径、寻找更好的工具

2. 弱工具变量陷阱

错误3：过度依赖边缘显著的工具

症状：第一阶段p值< 0.05但F统计量< 10
后果：有限样本偏差严重、置信区间不可靠
正确做法：优先看F统计量而非p值
补救：寻找更强工具、使用稳健推断方法

错误4：在弱工具下使用常规推断

症状：使用标准2SLS置信区间
后果：第一类错误率膨胀
解决：使用Anderson-Rubin或CLR置信区间

3. LATE解释错误

错误5：将LATE等同于ATE

症状：直接将IV估计解释为全人群效应
例子：”教育的回报率是X%”（实际是顺从者的回报率）
正确表述：”对于受政策影响的人群，效应是…”
注意：明确说明识别的是哪个子群体

错误6：忽视单调性假设的违反

症状：存在反抗者但仍使用标准IV
诊断：检查处理概率是否随工具单调变化
后果：估计量不再有因果解释
处理：重新考虑工具或使用其他方法

4. 技术实施错误

错误7：手动2SLS时使用错误的标准误

症状：分别运行两个OLS并使用第二阶段标准误
后果：标准误被低估，显著性被高估
正确做法：使用专门的IV估计命令或手动调整

错误8：控制变量的不当使用

症状：在第一阶段和第二阶段使用不同的控制变量
规则：两阶段必须包含相同的控制变量
例外：第一阶段可以有额外的工具变量

5. 多工具变量使用错误

错误9：盲目增加弱工具变量

症状：为了提高”效率”加入多个弱相关变量
后果：有限样本偏差可能增加
建议：质量重于数量，弱工具不如没有

错误10：过度解释J检验

症状：J检验不显著就认为所有工具都有效
真相：检验功效有限，特别是工具以相同方式违反假设时
补充：需要理论论证和其他稳健性检验

6. 应用场景误判

错误11：在不适合的场景强行使用IV

症状：为了”因果识别”而勉强找工具变量
问题：差的工具变量不如诚实的相关性分析
原则：没有好的工具变量时，承认局限性

错误12：忽视合规性的复杂性

症状：在复杂干预中简单应用IV
例子：多阶段项目、时变处理
注意：需要更复杂的模型或其他方法

调试技巧

第一阶段诊断：
- 始终报告第一阶段结果
- 计算并报告F统计量
- 绘制工具变量与处理变量的关系图
稳健性检验：
- 尝试不同的工具变量组合
- 比较IV、OLS和其他方法的结果
- 进行子样本分析
假设检验：
- 安慰剂检验：用前期结果作为因变量
- 平衡性检验：检查工具变量组的协变量平衡
- 单调性检验：检查不同子群的第一阶段效应
报告规范：
- 清楚说明工具变量的来源和理论基础
- 报告第一阶段统计量
- 讨论LATE的含义和局限性
- 进行必要的敏感性分析

最佳实践检查清单

工具变量选择阶段

理论基础
- 工具变量有明确的外生来源吗？
- 能清楚解释为什么工具影响处理但不直接影响结果吗？
- 查阅了相关文献中类似工具的使用吗？
假设验证
- 相关性：第一阶段F统计量 > 10？
- 排除性限制：考虑了所有可能的直接影响路径吗？
- 独立性：工具变量与可能的混杂因素相关吗？
- 单调性：不存在明显的反抗者群体吗？
数据质量
- 工具变量测量准确吗？
- 样本量足够大吗（经验法则：n > 100 + 10k，k为内生变量数）？
- 检查了工具变量的分布和异常值吗？

估计实施阶段

第一阶段分析
- 报告了完整的第一阶段回归结果？
- 计算了F统计量和partial R²？
- 绘制了工具与处理的关系图？
- 如果F < 10，使用了弱工具稳健方法？
模型设定
- 第一阶段和第二阶段包含相同的控制变量？
- 考虑了非线性关系的可能性？
- 处理了异方差和聚类问题？
- 使用了正确的标准误计算方法？
多工具变量情况
- 进行了过度识别检验（J检验）？
- 比较了不同工具的估计结果？
- 检验了工具变量的联合显著性？
- 考虑了最优工具变量组合？

结果解释阶段

效应识别
- 清楚说明估计的是LATE而非ATE？
- 描述了顺从者群体的特征？
- 计算了顺从者比例？
- 讨论了外部有效性的限制？
稳健性检验
- 与OLS结果进行了比较和解释？
- 进行了子样本分析？
- 测试了不同的模型设定？
- 进行了安慰剂检验？
敏感性分析
- 评估了排除性限制违反的影响？
- 考虑了测量误差的影响？
- 分析了异质性处理效应？
- 使用了边界分析方法？

报告规范

方法说明
- 清楚描述了工具变量的定义和来源？
- 解释了识别策略的逻辑？
- 讨论了关键假设的合理性？
- 说明了LATE的政策含义？
统计报告
- 报告了第一阶段和第二阶段的完整结果？
- 包含了所有诊断统计量（F统计量、J统计量等）？
- 提供了置信区间而不仅是点估计？
- 报告了样本量和变量的描述统计？
局限性讨论
- 诚实讨论了方法的局限性？
- 说明了结果的适用范围？
- 提出了未来研究的方向？
- 承认了无法检验的假设？

高级考虑

方法选择
- 比较了IV与其他因果识别方法？
- 考虑了组合多种方法的可能性？
- 评估了IV是否是最适合的方法？
创新应用
- 探索了新的工具变量来源？
- 考虑了机器学习方法辅助工具选择？
- 使用了最新的弱工具稳健方法？
政策影响
- 结果对政策制定有明确含义吗？
- 考虑了实施成本和可行性？
- 提供了可操作的建议？

危险信号（Red Flags）

如果出现以下情况，需要重新考虑：

⚠️ 第一阶段F统计量 < 5
⚠️ IV估计与OLS相差超过10倍
⚠️ 不同工具变量估计结果符号相反
⚠️ J检验强烈拒绝（p < 0.01）
⚠️ 无法清楚解释工具变量的外生性
⚠️ 顺从者比例 < 5%
⚠️ 标准误异常大（比OLS大5倍以上）

记住：一个诚实报告局限性的相关性分析，好过一个基于弱假设的”因果”估计。