Loading...
墨滴

thomas

2021/11/22  阅读:25  主题:橙心

二学位期末总结

统计学期末总结

基本内容

1、概率与统计综述
2、潜在因果关系模型
3、有向无环图
4、断点回归法
5、PSM匹配法
6、工具变量法
7、双重差分模型
8、合成控制法


概率与统计概述

1、均值回归定理是所有高级方法的基石

reg y D x1 xn

2、稳健回归

reg y D x1 xn,r

潜在因果关系模型

1、处理效应ATE

第二项被称为选择偏差,它们在被控制下的潜在结果有何不同?第一个是反事实的,而第二个是根据开关方程观察到的结果。 第三项是异质性选择偏误

第二项选择性偏误可以通过处理组的随机化选择去掉。

第三项我们假定处理效应与控制组相同,即处理不会对样本产生显著差异。反过来说,如果产生显著差异,那说明就是处理产生了效果!

通过如上操作,可以得到:


有向无环图

1、有向无环图是判断因果关系的重要方法,也称因果图

如果混淆因子不可观察

教育的收入效应

必须控制混淆因子

不能控制碰撞因子

控制碰撞因子导致回归偏误

断点回归法

断点回归的操作

断点回归基本命令
rd y1 xc,cov(z1 z2)
rd y1 xc,graph
rdrobust y1 xc 

平滑性检验

DCdensity xc,breakpoint(0) generate(Xj Yj r0 fhat se_fhat) graphname(rd.eps)

PSM倾向得分匹配法

直接回归可能存在内生性,因为吸烟还受到年龄的影响、基因的影响,比如如果有一种基因天生喜欢吸烟,同时这种人寿命也短,无论他吸不吸烟也会早死。

匹配的方法
1、reg y x1 x2 ,回归方法的缺陷在于,可能存在混淆因子,而混淆因子有时候无法控制

2、匹配的思想在于,寻找到控制组与处理组的最接近样本,然后通过计算最接近样本中处理组与控制组的差异,从而得到平均处理效应ATE

3、所以需要计算处理组与控制组的距离,计算距离有很多方法,比如最近邻方法(neighbor(1))最小半径法(radius caliper(.05))核方法(kernel)

4、以最近邻方法为例
处理组变量D ,因变量
控制组变量D(=0),因变量
如果,完全不区分,直接回归,则可能出现选择性偏误,
(1)比如老年人吸不吸烟其死亡率都相对高
(2)较大年龄的人培训不培训工资都比较高
(3)如果只是按照年龄进行分组回归,会出现,有些组数据稀疏导致回归不显著,而且有的组显著,有的组不显著,到底算显著还是不显著;有的组为正,有的组为负,最终的效应到底是正还是负?
(4)我们真正想知道的是,吸烟到底对死亡率有没有影响?培训到底有没有提高收入?PSM就可以给出这样的答案。

(5)psm命令

psmatch2 treat age educ black hispan married nodegree re74 re75,out(re78) neighbor(1) ate ties logit common

psmatch2 treat age educ black hispan married nodegree re74 re75,out(re78)radius caliper(.05) ate ties logit common quietly

psmatch2 treat age educ black hispan married nodegree re74 re75,out(re78) kernel ate ties logit common quietly

其中_pscore是每个观测值对应的倾向值;

_id是自动生成的每一个观测对象唯一的ID(事实上这列变量即是对_pscore排序);

_treated表示某个对象是否试验组;

_n1表示的是他被匹配到的对照对象的_id(如果是1:3匹配,还会生成_n2, _n3);

_pdif表示一组匹配了的观察对象他们概率值的差。

(7)匹配检验 1)pstest $v2, both graph

共同取值范围

psgraph

核密度函数图

 twoway(kdensity _ps if _treat==1,legend(label(1 "Treat")))(kdensity _ps if _treat==0, legend(label(2 "Control"))),xtitle(Pscore
> ) title("Before Matching")
. twoway(kdensity _ps if _treat==1,legend(label(1 "Treat")))(kdensity _ps if (_weight!=1&_weight!=.), legend(label(2 "Control"))),
> xtitle(Pscore) title("After Matching")

工具变量法

1、工具变量方法 2、工具变量的选取
只与方程中的解释变量相关,而与方程中的误差项无关,

(1)工具变量Z必须为外生变量,即Cov(Z,ut)=0

(2)工具变量Z必须与内生自变量X高度相关,即Cov(Z,X)≠0。

总结为:与扰动项无关,与内生变量相关,能够替代或者表达原内生变量的信息,
工具变量|V应该尽量是外生的(如历史/自然/气候/地理之类),它应该在理论.上对被解释变量(以下称Y)没有直接影响,但应该通过影响被工具的变量(以下称X)而间接影响被解释变量Y。

3、命令

工具变量距估计

ivregress gmm y x1(x2=z1,z2)//两步GMM
ivregress gmm y x1(x2=z1,z2), igmm//迭代GMM,采用迭代法让估计值收敛

工具变量2sls估计

reg y x1 x2
estimates store ols
ivregress 2sls y x1 (x2=z1z2)//怀疑x2是内生变量estimates store iv
hausman iv ols, constant sigmamore //constant表示估计参数

异方差检验:杜宾-吴-豪斯曼检验(Durbin-Wu-Hausman Test,简记DWH) stata命令:

estat endog l/p<0.05,在5%的显著性水平上拒绝原假设

双重差分模型

政策评估

如果有一项政策只在某几个或某一个地区实施,在其他地区未实施,那么我们就获得一次对该政策实际效果评估的机会。
实施政策地区为处理组;
未实施地区为控制组;

我们希望得到如下的政策效果差异;

命令

1、diff命令

1、g treat=(id=内蒙古)&!missing(id)
///选定处理组,比如内蒙古实施了某些政策,而其它地区没有实施,那么设定内蒙古为1,其它地区为0
2、g time=(year==1996)&!missing(id) /// 如该政策实施时间为1996年,就将政策时间点设为1996,1996年为1,其他时间则为0
3、diff y ,treat(treat) period(time)

2、reg 命令 实际上双重差分是对处理组与政策时间点变量的交乘项的回归,所以,也可以用reg命令来做双重差分

g treat=(id=内蒙古)&!missing(id)
g time=(year==1996)&!missing(id) 
g treated=treat*time
reg y treat time treated,r

3、稳健性检验

***定义一系列变量***
gen period=年份-1996
gen pre3=(period==-3&treat==1)
gen pre2=(period==-2&treat==1)
gen pre1=(period==-1&treat==1)
gen current=(period==0&treat==1)
gen post1=(period==1&treat==1)
gen post2=(period==2&treat==1)
gen post3=(period==3&treat==1)
***声明面板数据***
xtset 城市 年份
***面板数据回归***
xtreg 产业结构升级 pre3 pre2 pre1 current post1 post2 post3,fe
***保存结果***
est sto result
***安装coefplot***
ssc install coefplot
***画出平行趋势图***
coefplot result,keep(pre3 pre2 pre1 current post1 post2 post3) vertical recast(connect) yline(0)

合成控制法

命令

synth 的基本语法格式如下

synth depvar predictorvars(x1 x2 x3) ,///
trunit() trperiod()   ///
[ counit(numlist) xperiod(numlist) mspeperiod()///
resultsperiod() nested allopt unitnames()///
  figure keep(file) customV(numlist) optsettings]

其他各州是否有同样的效果?

关于考试

考核项目 分值 标准
平时作业 60% 数据、方法与显著性
期末展示 20% 数据、方法与显著性
期末考试 20% 数据、方法与显著性

期末考试方式

1、开卷
2、要求就一项政策搜集相关数据,选择合适的方法,评估该政策的效果。
3、时间:2小时

thomas

2021/11/22  阅读:25  主题:橙心

作者介绍

thomas