Loading...
墨滴

thomas

2021/10/17  阅读:94  主题:橙心

面板数据

面板数据

面板数据DAG

假设我们有一列结果Yi的数据,它们出现在三个时间段内。换句话说, ,其中i表示一个特定的指标,t=1、2、3表示i指标被观察到的时间段。

同样地,我们有一个协变量矩阵Di,它也随时间变化—— 。最后,存在一个特定的单位-未被观察到的变量ui,ui随指标变化,但ui不随时间变化。因此,ui变量没有t=1,2,3下标。

这个变量的关键是
(1)它在数据集中没有被观察到,
(2)它是特定于指标的,
(3)对于给定的指标i,ui不会随着时间而变化。

最后,存在一些特定指标的不随时间变化的变量Xi。注意,它不会随着时间的变化,与ui一样,但是它是可以观察到的。

注意:

1.Di1导致Yi1以及下一个时期处理组的值Di2。

2.未观察到的混淆因子ui,决定了所有的Y和D变量。因此,D是内生性的,因为ui没有被观察到,并被吸收到了回归模型的结构误差项中。

3.没有与Dit相关且未被观察到的时间变化混淆因子——唯一的混淆因子是ui,我们称之为未观察到的异质性。

4.过去的结果不会直接影响当前的结果(即,Yit变量之间没有直接的变化关系)。

5.过去的结果并不直接影响当前的处理组(即从 到Dit没有直接的变化关系)。

6.过去的处理组Di,t−1并不直接影响当前的结果Yit(即从Di,t−1到Yit没有直接的变化关系)。

正是在这些假设下,我们可以使用一种叫做固定效应的特定面板方法来分隔离D对Y的因果效应。

回到我们关于回归教育的故事

假设我们感兴趣学校教育是如何影响收入的,而学校教育在一定程度上是由不变的遗传因素决定的,这些因素本身就决定了未被观察到的能力,比如智力、坚持和干劲[Conley and Fletcher, 2017]。如果我们观察到相同的人的收入和教育随时间的变化,那么如果上述DAG描述的情况中同时包含有直接影响和无影响,那么我们可以使用面板固定效应模型来识别学校教育对收入的因果效应。

面板数据估计

“面板数据”指的是一个数据集,我们在多个时间段内观察到相同的单位(如个人、公司、国家、学校)。

通常我们的结果变量取决于几个因素,其中一些是观察到的,其中一些在我们的数据中没有观察到,如果未观察到的变量与处理变量相关,那么处理变量是内生性的,相关性不是因果效应的估计。本章重点讨论了D和Y之间的相关性反映了因果效应的条件,即使是未观察到的变量与处理变量相关。具体来说,如果这些被省略的变量随着时间的推移是恒定的,那么即使它们在单位间是异质性的,我们也可以使用面板数据估计来一致地估计我们的处理变量对结果的影响。

对于面板数据有几种不同类型的估计,在本章中将只涵盖两个:混合最小二乘(POLS)和固定效应(FE)。

符号设定

首先,我们需要设置我们的符号。除了一些例外,面板方法通常是基于传统的符号,而不是潜在的结果符号。设Y和D≡(D1,D2,...,DK)是可观察的随机变量,而u是一个不可观察的随机变量。我们感兴趣的是变量Dj在总体回归函数中的部分影响:

我们观察到一个样本为i=1,2,..,N的横截面单位t=1,2,...,T个时间段(一个平衡的面板)。对于每个单位i,我们将所有时间段的可观测变量表示为 D_{it}≡(D_{it1},D_{it2},... D_{itk}) $看成是一个1×K向量。我们通常假设实际的横截面单位(例如,面板中的个体)是同时独立的从总体中抽取。然后,我们将主要的观测结果描述为Yi≡(Yi1,Yi2,...,Yit)和Di≡(Di1,Di2,...,DiT)

现在说明各个单元的实际叠加是很有帮助的。一个单元,我将有多个时间段t,

整个面板本身的所有单位都会看起来是这样的:

对于一个随机抽取的横截面单位i,该模型为

通常,我们学校收入引起干劲的例子。Yit为第i个人在第t年获得收入。δ为学校教育的回报。设ui是所有不随时间变化的人的特定特征的总和,如未观察到的能力。正如我前面说的,这通常被称为未观察到的异质性。 是随时间变化的未被观察到的因子,这个因子可以决定在给定的时间下的的工资。这通常被称为残差项。我们想知道在回归Yit和Dit的时候会发生什么。

混合OLS

我们将讨论的第一个估计量是混合最小二乘,或POLS。当我们忽略面板结构,Yit对Dit回归时,我们得到

复合错误 。获得对δ的一致估计所需的主要假设是:

虽然我们的DAG不包括 ,但这将相当于假设未观察到异质性, ,在所有时间段内都与 不相关。

但在我们的例子中,这并不是一个恰当的假设,因为我们的DAG明确地将未观察到的异质性与每个时期的结果和处理组联系起来。以教育收益为例,学校教育很可能基于未观察到的背景因素,ui,因此在不控制它的情况下,会导致遗漏变量偏误即 有偏的。

之间没有相关性必然意味着所有t中Dit和未观察到的ui之间没有相关性,这可能不是一个可信的假设。

另一个问题是,ηit与单位i连续相关,因为ui存在于每个t时期中。因此,异方差稳健的标准误差也可能太小。 固定效果(在估计范围内)。让我们重写我们未观察到的效应模型,使之牢记在我们的脑海中:

如果我们有多个时间段的数据,我们可以认为ui作为固定效应是需要估计的。OLS估计与固定效应产生

这相当于在Dit上的Yit回归中包含N个个体。 此最小化问题的一阶条件(FOC)是:

并且

i=1,,。 . . ,N. 因此,对于i=1,。 . . ,N,有

同时

将此结果插入到一阶条件中得到:

带有按时间去均值(去中心)的变量

但是,在不清楚的情况下,使用去均值变量 进行回归在数值上等同于 和对虚拟变量的回归。因此,这有时被称为“内部”估计,有时也被称为“固定效应”估计。当包括年份固定效应时,称为“二维固定效应”估计。它们都指的是一回事。

更好的是,即使当E[Dit,ui]=0,δ的去均值变量的回归也是一致的,因为变量去均值消除了未观察到的效应。让我们现在来看看:

未被观察到的异质性去了哪里?!当我们采取数据去均值处理时,它被删除了。正如我们所说的,包括个人固定效果这次会自动去均值,这样你就不必自己去手动操作了。 那么,我们又如何精确地进行这种形式的估计呢?有三种方法来实现固定效应(内部)估计器。

它们是:

1.去均值后 回归(需要纠正自由度)

2.用Dit和虚拟变量对Yit进行回归(虚拟变量回归)

  1. 在Stata,用封闭固定效应Yit对Dit进行回归

当我们回看原始的DAG时,我们回顾了识别δ与固定效应(内部)估计所必需的假设,但让我们用一些形式来补充DAG的直觉。主要的识别假设有:

1.E[εit|Di1,Di2,. . ,DiT,ui]=0;t=1,2,. . . ,T 这意味着回归变量是未观察效应的严格外生条件。不过,这允许Dit与ui任意关联。它只涉及Dit和εit的关系,而不是Dit与ui的关系.

2.

现在我们有一个秩条件,你不应该感到惊讶,因为即使我们使用更简单的线性模型,估计的系数总是一个可伸缩协方差,其中伸缩协方差是一个方差项。因此,回归变量必须随着时间至少一些i发生变化,否则将导致共线,以使 .

假设1和假设2下的估计量的性质是 是一致的 对D是无偏的

这个框架中的标准错误必须通过面板单元(例如,个体)进行“聚类”,以允许随着时间的推移在同一个个体i的 中存在相关性。只要聚类的数量“很大”,就会产生有效的推断。

注意事项#1:

固定效应不能解决反向因果关系。例如,假设我们将犯罪率回归到警察的人均支出上。Becker[1968]认为,逮捕概率的增加,通常由人均警察或人均警察支出代理,该变量增加将减少犯罪。但与此同时,人均警察支出本身就是犯罪率的函数。这种反向回归因果关系问题,在大多数面板模型在犯罪率对警察回归时都会出现。例如,参见Cornwell and Trumbull [1994]。我已经在表66中复制了这其中的一部分。这个因变量是北卡罗来纳州各县的犯罪率,他们发现警察和犯罪率之间呈正相关,这与贝克尔的预测相反。这是否意味着在一个地区有更多的警察会导致更高的犯罪率?还是它很可能反映了相反的因果关系问题?

Table 66.警方对罪犯的面板估计

注:北卡罗来纳州的县级数据。括号中的标准差。

所以,如果你有反向因果关系或共时性偏差,第一种你不使用面板固定效应的,特别是当这种反向因果关系在观测数据中非常强时。然而,从技术上讲,这将违反我们在本章开始时提出的DAG。请注意,如果我们有反向的因果关系,那么Y→D,这将被DAG中包含的这个理论模型明确地排除。但很明显,在警察-罪犯的例子中,DAG是不合适的,对这个问题的任何反思都应该告诉你,DAG是不合适的。因此,正如我反复说过的,它需要一些仔细的反思,并准确地写出DAG中的处理变量和结果变量之间的关系,可以帮助你开发一个可信的识别策略。

注意事项#2:

固定效应不能解决未观察到的时变异质性。第二种情况是,面板固定效应获取任何东西,如果未观察到的异质性是随时间变化的的。在这种情况下,去均值只是降低了一个未观察到的时变变量,然后移动到复合误差项,由于去均值的 相关, 仍然是内生的。同样,仔细查看DAG-面板固定效果只有在ui不变时才合适。否则,这只是另一种省略变量偏差的形式。所以,也就是说,不要盲目地使用固定效果,认为它解决了省略的变量偏差问题——就像你不应该因为方便就使用匹配一样。您需要一个基于实际经济模型的DAG,这使你构建适当的研究设计。没有什么可以替代仔细的推理和经济理论,因为它们是良好的研究设计的必要条件。

回到婚姻和未被观察到的异质性

这什么时候会是真的?让我们以Cornwell and Rupert [1997]的例子,作者试图估计婚姻对收入的因果影响。这是一个众所周知的程式化的事实,已婚男性比未婚男性挣更多,甚至控制了可观察性。但问题是,这种相关性是因果关系,还是反映了未观察到的异质性(即选择偏差)。

所以假设我们有关于个人的小组数据。这些个体i被观察了四个周期t。我们感兴趣的是以下公式:

结果是他们在每个时期观察到的工资,并且在每个时期都有所变化。让工资成为婚姻的一个功能。由于人们的智能状态随着时间的推移而变化,婚姻变量允许随着时间的推移而变化。但在大多数情况下,种族和性别通常不会随着时间的推移而变化;这些变量通常是不变的,或者你有时会听到的称为“时不变”。最后,变量Ai和γi是未被观察到的变量,在整个样本中发生横切面变化,但不随时间而变化。这些未观察能力可能指人的任何固定天赋,比如固定的认知能力或非认知能力,如“勇气”。这里的关键是它是特定的、未观察的和时不变的。 是未被观察到的工资决定因素,它被假定与婚姻和其他协变量不相关。

Cornwell和Rupert[1997]估计了一个可行的广义最小二乘模型和三个固定效应模型(每个模型都包括不同的时变控制)。作者称固定效应回归为“组内”估计,因为它使用单元内的变化来消除混淆。他们的估计数见Table 67. Table 67.估计的工资回归 注:括号中为标准差。

请注意,FGLS(第一列)发现,婚姻溢价约为8.3%。但是,一旦我们开始估计固定效应模型,效果就会变得更小,且变得不精确。纳入婚姻特征,如结婚年限和工作年限,导致婚姻系数从FGLS估计下降了约60%,在5%的水平上不再具有统计学意义。

基本操作

回归,并出结果

sysuse lifeexp.dta

 estout 

画散点图

aaplot

面板回归

面板设定

webuse grunfeld

面板回归

xtreg

豪斯曼检验

数据实操

因变量

关键变量

协变量

结果是否显著

结果是否稳健

观察数据,思考内在机理

thomas

2021/10/17  阅读:94  主题:橙心

作者介绍

thomas