Loading...
墨滴

裔风

2021/08/15  阅读:48  主题:极简黑

三大法宝

本文要回答的三个问题

一、倾向分值匹配可以解决内生性问题吗?
二、中介效应模型可以用于机制分析吗?
三、调节效应模型是什么?用来做什么?

因果推断框架

  • 经济研究要回答三类问题:
    1)选择是什么?
    2)为什么做出这个选择?
    3)做了选择会怎么样?
    回答问题1主要靠描述统计,而回答问题2、3就依靠因果推断识别因果效应

  • 三类因果识别假设(根据处理组和控制组生成方式划分):

    1. 第一类——随机实验(RCT):类似自然科学,自变量完全外生,可以用简单的组间均值做差算出因果效应。
    2. 第二类——条件独立性(CIA):在控制了一些变量后,自变量就能外生。即假设没有不可观测的因素导致内生性。
    3. 第三类——存在不可观测的遗漏变量:即使控制了一些变量,扰动项中也会有一些不可观测因素导致自变量内生。这种假设最贴近真实情况,即下图。 —简单线性回归、DIM(组间均值之差)是基于第一类识别假设。
      —多元线性回归、匹配是基于第二类识别假设。
      —IV、RD、DID、SCM、Event Study等工具是基于第三类假设。

一、倾向分值匹配可以解决内生性问题吗?

估计偏误的原因有三种情形:

例子:研究上大学对工资影响,用大学毕业生收入均值-高中毕业生收入均值,身高是一个导致内生的因素。

  1. 范围不重叠导致偏误(weak overlap)
     如高中生都是150-169cm;大学生都是170-190cm
  2. 分布不同(weak balancing)
     如高中生和大学生都是160-190cm,但是高中生集中分布于165cm左右,大学生集中分布于175左右。
  3. 自变量内生
     这个才是我们通常所指的内生性问题。
  • 匹配必须基于没有第一种偏误,之后能解决第二种偏误,无法解决第三种,也就是无法解决内生性问题。

另一个角度:计量方法分类

  • 综上,匹配总共基于两个假设:CIA和overlap
  • 匹配方法与解决内生性的那些IV、RDD等方法都不是一类!当然无法解决内生性。

二、中介效应模型可以用于机制分析吗?

什么是中介效应模型?

  • 如果(2)中的 和(3)中的 联合显著,则M是中介变量。
  • 在以上条件下,如果(3)中的 不显著,M是完全中介; 显著,M是部分中介。
  • 是总效应, 是直接效应, 是间接效应。

中介效应模型为什么不建议用?

1. 中介变量系数无法被准确估计。

  • 以上(4)式是中介效应模型的核心,而它的成立依赖于 都能被准确估计。
    • 可以被准确估计。因为我们能通过因果推断的工具解决X的内生性。
    • 不能被准确估计。一篇文章只能解决一个变量的内生性,在方程(3)中无法同时处理 的内生性。

2. 核心变量系数变味。
  比如大学教育→职业→工资,如果控制了中介变量职业(白领和蓝领),就变成研究上了大学的白领和没上大学的白领的工资差异,此时会产生偏误。因为没上大学还能当白领多半是牛X之人,把他们与正常的上了大学去当白领的人比较是不对的,也不是我们想研究的。同理,也比较了上了大学的蓝领和没上大学的蓝领的工资。上了大学还去当蓝领,多半是能力差的,和正常没上大学当蓝领的人比也不公平。

3. 没必要也很难区分直接效应和间接效应。
  上了大学,从而能得到一个好工作,进而得到高工资,这本来就是我们想研究的“教育带来回报”这个因果效应的一部分,而在方程(3)中控制了职业,我们的研究目标就变成了:上大学带来的除了能的得到更好职业之外的回报率。这是什么?很难说清!

4. 任何一个遗漏变量都会被中介效应模型验证为机制。
回顾遗漏变量偏误: 可以发现如果把 换成中介变量,和中介效应模型一模一样,所以任何一个遗漏变量都会被中介效应模型验证为机制。

那怎么做机制分析?

  • 首先要搞清为什么要做机制分析?
    • 是为了让别人相信你讲的故事!
    • 写文章就是讲道理+摆证据。
        讲道理对应文章里的理论基础板块,如果别人直接相信你的道理,连摆证据都不用。但是现在越来越多的人不相信纯道理,所以我再跑个OLS看有效果;别人还说不相信,因为认为有内生性,我再用IV等方法解决了内生性的问题,甚至到随机试验,完全外生。此时别人承认有效果了,但不相信你的理论。于是摆出机制分析的证据。这每一步的努力都是提供一些弱证据,最终让人相信你的故事。所以实证研究最重要的是把理论逻辑讲清楚,再确保识别的是因果关系,再谈机制分析。
  • 怎么做机制分析?——“做一半、说一半”!
    • X→M跑回归,M→Y引用文献/讲道理。M→Y的关系最好是显而易见的。
      • 如收入→健康→健康保险,健康→健康保险就是一个共识,因为逆向选择是经常存在的,健康差的人更倾向于买健康保险,如果别人不相信,可以引用一些文献佐证。
    • 事实上机制检验形式多种多样。
      • 如研究艾滋病对生育率的影响机制,想检验心理上和生理上两个机制。于是在艾滋病流行的区域,分了得艾滋病和没得艾滋病两组人,没得艾滋的人只有心理机制,得了艾滋的两种机制都有。

三、调节效应模型是什么?怎么做?

调节效应就是经济学中的异质性

  • x对y的影响大小受到z的调节。
  • 打破同质性假设:

为什么要做异质性?

  • 和机制分析一样是为了讲故事。

怎么做异质性分析?

  • 交互项or分组回归(可以结合)
    • 交互项好在可以从交互项系数直接看出异质性是否显著,分组回归如果两组都显著,还得检验组间系数差异。
    • 交互项还好在用全样本分析,样本量大,比分组回归更容易显著。
    • 交互项坏在假设控制变量在两组间系数相同,但是交互项也可以通过把控制变量和解释变量交互来规避这个缺点。分组回归就允许两组系数不同。
    • 交互项还坏在要求调解变量和自变量相互独立。
  • 异质性分析一定要建立在理论的基础上。
    • 不是直接就东、中、西;城市、农村等,如果有理论支持才能这么分。
    • 理论未必要有一个数理模型。形式可以是文字、图像、数理模型、引用文献。

PS.关于数理模型的误用现象:一般均衡模型+OLS
  所有的回归都建立在STUVA假设上,即认为不存在一般均衡效应,以局部均衡为基础,每个城市都是独立的,不存在溢出效应。这与理论部分的一般均衡模型相矛盾。

说明:本文基于张川川老师讲座《经济学研究中的机制分析和异质性分析》总结而成。

- END -

裔风

2021/08/15  阅读:48  主题:极简黑

作者介绍

裔风