Loading...
墨滴

BulletTech官方微信

2021/07/07  阅读:25  主题:自定义主题1

DID

双重差分小介

1 引言

双重差分,顾名思义就是差分两次。那么差分和我小叮当又有什么关系呢?更何况是差分两次。别急,听我们慢慢道来。
双重差分模型是计量经济学中的一种常见的模型。它的作用是探究一项实验或一个事件的影响,有一丢丢类似ab test。有别于刻画简单的相关关系的线性回归,双重差分是关于因果推断的小巧、实用的模型。它的由来要从线性回归的假设说起。

2 线性回归假设

我们都知道线性回归,我们也可能都不知道线性回归。它就是如下这个“简单”的式子:

我们在快乐使用线性回归的同时,往往忽略了线性回归模型的4个前提条件:

  • 线性关系

  • 严外生性

  • 无完全共线性

  • 球形误差方差

用人话来说,Y和X必须满足线性关系(废话。。)。残差(实际值与估计值的差异)与X不相关并且它自身的分布满足同方差、不存在自相关的性质。不能有一个X是别的几个X的爸爸(被线性表示)。好的,聪明的我们已经准备忽略这些前提条件了。且慢,如果前提条件不满足的话可是会使估计不准的哦。

其中,严外生性就是一个很傲娇(容易不满足)的条件。在这种情况下,我们常说这个模型具有内生性问题。我们再用小学数学回顾一下什么是严外生性。

3 严外生性

根据重复期望法则 ,有

从而有

因此 ,假设要求扰动项 与解释变量之间没有线性相关性。

4 内生性问题常见形式

好的,我们已经成功(没)搞明白了学术中的严外生性。那么,在实际的数据中,内生性问题是怎么表现的呢?

  • 遗漏解释变量(还有别的X可以有效的估计Y)

  • X与Y互为因果(如X为教育水平,Y为收入,教育水平可以影响收入,同时,收入也可以影响教育水平,如读个MBA)

5 解决方案

  • 工具变量法(Instrumental Variable)
    找到一个变量和内生解释变量相关,但是和随机扰动项不相关的外生变量。同其他已有的外生变量一起回归,得到内生变量的估计值,以此作为IV,放到原来的回归方程中进行回归。
    例子,Y为内战爆发概率,X为经济增长,IV为降雨量。内战爆发概率和经济增长本身互为因果(存在内生性问题),降雨量和经济增长有关(农业国家),同时,降雨量只能通过影响经济增长单向的影响内战爆发概率。

  • 双重差分法(Differences-in-Differences, DID)
    倘若出现了一次外部冲击,这次冲击影响了一部分样本,对另一部分样本则无影响,而我们想看一下这次外部冲击到底有何影响,双重差分法就是用来研究这次冲击的净效应的。由于冲击相对于研究样本而言一般是外生的,因而不存在反向因果问题。

好的,我们的大明星双重差分模型终于出现了。

6 双重差分模型

双重差分模型的形式也比较简单,本质上还是一个线性回归。

D为分组虚拟变量。在研究事件或政策影响时,若受冲击的影响,则个体i属于实验组, ,反之个体i属于对照组, 。T为时间的虚拟变量(事件或政策有一个发生的时点),冲击之前 ,冲击之后 为分组虚拟变量与时间虚拟变量的交互项(乘在一起),其系数 就反映了冲击的净效应。

哇塞,是不是看上去很简单。在这个模型中,我们还可以加入一些别的控制变量。同时,双重差分模型也有自己的前提条件,实验组和对照组在冲击前有平行趋势,是不是有点像ab test?

总而言之,双重差分模型可以帮助你科学地评估某项事件或政策的影响。让你再也不用担心老板振聋发聩地问你,你说说这到底有啥影响?

7 Takeaways

  • 关注模型假设
  • 基于因果推断的机器学习(瞬间升华)

BulletTech官方微信

2021/07/07  阅读:25  主题:自定义主题1

作者介绍

BulletTech官方微信