Loading...
墨滴

thomas

2021/10/11  阅读:120  主题:橙心

统计学第二节

概率与回归综述

基本概率理论

在实践中,因果推理是基于从非常简单到非常先进的统计模型。建立这样的模型需要一些概率论的基本知识,所以让我们从一些定义开始。随机过程是一个可以重复多次,每次结果不同的过程。样本空间是一个随机过程中所有可能的结果的集合。我们区分离散和连续的随机过程如下表1。离散过程产生整数,而连续过程也产生分数。

我们用两种方式来定义独立的事件。

第一种是逻辑独立性。

例如,发生了两个事件,但没有理由相信这两个事件相互影响。当假定它们确实相互影响时,这是一种逻辑谬误。这个谬误认识到,事件的时间顺序不足以说第一件事导致了第二件事。

独立事件的第二个定义是统计独立性。

我们将用一个来自有替换和不替换的抽样思想的例子来说明后者。让我们使用一副随机洗牌的卡片为例。对于52张牌,第一张牌是王牌的概率是多少?

在样本空间中有52个可能的结果,或随机过程的所有可能结果的集合。在这52个可能的结果中,我们关注一个王牌发生的频率。甲板上有四个王牌,所以4 /52 =0.077。 假设第一张牌是一张王牌。现在我们再问一次这个问题。如果我们洗牌,下一张牌也是王牌的概率是多少?新的概率是

在没有替换的抽样情况下,这两个事件——卡片1上的王牌,如果卡片1是王牌,则是卡片2上的王牌——都不是独立的事件。为了使这两个事件独立,你必须把王牌放回去,然后洗牌。所以有两个事件,A和B,是独立的,当且仅当:

两个独立事件的一个例子是在用一个骰子滚动3后,用另一个骰子滚动5。这两个事件是独立的,所以无论我们在第一个骰子上滚动了什么,滚动一个5的概率总是0.17。

NBA的一个例子:相互独立的比赛

但是,如果我们想知道一些需要多个事件首先发生的事件发生的概率呢?例如,假设我们说的是克利夫兰骑士队赢得NBA冠军。2016年,金州勇士队在7场三胜制的季后赛中战绩为3胜1负。勇士队输掉季后赛会发生什么呢?骑士队必须赢三场。在这种情况下,要找到概率,我们必须取所有边际概率的乘积,或 ,其中Pr(·)是一个事件发生的边际概率,n是该一个事件的重复次数。如果克利夫兰获胜的无条件概率是0.5,并且每场比赛都是独立的,那么骑士从3-1落后中回来的概率是每场比赛获胜概率的乘积:

德州扑克例子

德州扑克比赛中,每个玩家每人可以得到两张牌。“那么,手里有王牌的可能性是多少呢?没错, 这是0.45%.

独立事件联合概率

让我们正式化我们所说的一个更普遍的情况。对于独立事件,为了计算联合概率,我们乘以边际概率:

其中,Pr(A,B)为A和B同时发生的联合概率,Pr(A)为A事件发生的边际概率。现在,考虑一个稍微困难一点的应用程序。用两个六面骰子滚动点数7的概率是多少,它和滚动3的概率相同吗?为了回答这个问题,让我们比较一下这两个概率。我们将使用一个表来帮助解释直觉。首先,让我们看看使用两个六面骰子获得点数7的所有方法。当掷两个骰子时,总共有36个可能的结果 。在表2中,我们看到有六种不同的方法只使用两个骰子来滚动点数7。所以滚动7点的概率是6/36=16.67%。接下来,让我们看看使用两个六面骰子掷出3的所有方法。表3显示,只有两种方法可以得到一个3滚动的两个六面骰子。所以滚动3点的概率是2/36=5.56%。所以,滚动7和滚动3的概率是不同的

表2.用两个六面骰子获得7的方法总数

表3、使用两个六面骰子获得3的方法总数。

事件和条件概率。首先,在我们讨论表示概率的三种方法之前,我想介绍一些新的术语和概念:事件和条件概率。让A成为一些事件。让B成为其他的事件。对于两个事件,有四种可能性。 1.A和B:A和B都同时出现。 2.∼A和B:A不发生,但B发生。 3.A和∼B:A发生,但B不发生。 4.∼A和∼B:A和B都不发生。 我将使用几个不同的例子来说明如何表示一个概率。

概率树

让我们考虑一下你试图获得驾照的情况。假设,为了获得驾照,你必须通过笔试和驾驶考试。但是,如果你没有通过笔试,你就不能参加驾驶考试。我们可以在一个概率树中表示这两个事件

概率树非常直观且易于解释。首先,我们看到通过笔试的概率为0.75,考试不及格的概率为0.25。其次,在从节点开始的每个分支时,我们可以进一步看到与给定分支相关的概率求和为1.0。联合概率也都为1.0。这被称为总概率定律,它等于A和B事件发生的所有联合概率的和。

我们还可以在驾照树中看到条件概率的概念。例如,在通过笔试的前提下,驾驶考试失败的概率表示为Pr(Fail|Pass)=0.45。

维恩图和集合

表示多个事件发生的第二种方法是使用维恩图。维恩图最初是由约翰·维恩在1880年构思的。它们被用来教授基本集理论,以及在概率和统计学中表达集合关系。这个例子将涉及两个集合,A和B。

美国大碗的橄榄球比赛

德克萨斯大学的橄榄球教练整个赛季都有体育主管和董事。在几个平庸的赛季之后,他在学校的未来正处于危险之中。如果长角牛队不能参加一场Great Bown比赛,他很可能不会被重新雇佣。但如果他们这样做了,那么他很可能会被重新雇佣。让我们用这个教练的情况作为我们指导的例子来讨论基本集理论。但在此之前,让我们提醒一下我们的条款。

A和B是事件,U是其中A和B是子集的通用集。让A是长角牛队被邀请参加一场很好的大碗比赛的可能性,B是他们的教练被重新雇佣的可能性。设Pr(A)=0.6,设Pr(B)=0.8。设A和B同时发生的概率为Pr(A,B)=0.5。注意,A+∼A=U,其中∼A为A的补集. 补集意味着它是通用集合中的一切都不是A. B的情况也是如此。B和∼B=U的值之和。因此:

我们可以重写出以下定义:

每当我们想描述一组可能发生的事件时,它是:A∪B.这的发音是“A并B”,这意味着它是包含A与B的每个元素的新集合. 那么,在集合A或集合B中的任何元素也在新的联合集中。每当我们想描述一组一起发生的事件——交集——它是A∩B,发音为“A与B交集”。这个新集合包含A和B集合中的所有元素。也就是说,只有A和B中的东西都被添加到新的集合中。

现在让我们仔细看看涉及A的关系

注意:有两种方法来识别A集合。 首先,您可以查看A与B一起发生的所有实例。但是,A中不是B的其余部分呢?这是A∪B的情况,它涵盖了A集的其余部分。类似的推理方式可以帮助您理解以下表达式

为了得到A交B,我们需要三个对象:B之外的A单位集合,A之外的B单元集合,以及它们的总集和。你得到了所有这些,你就得到A∩B。现在,它只是一个简单的添加来查找所有缺失的值。回想一下,A是你的 球队进入季后赛,Pr(A)=0.6,教练被重新聘用的概率,Pr(B)=0.8。另外,Pr(A,B)=0.5,这A和B同时发生的概率。然后我们有:

当使用集合时,重要的是要理解概率是通过考虑由子集(例如A∪B)组成的集合的份额(例如A)来计算概率的。当我们写下A∪B发生的概率时,它是与U。但如果我们问“A的什么份额是由于A∪B?”呢?那么,注意,我们需要这样做

表4、两次列联表。

使用公式2.1和2.2,我可以简单地写下一个联合概率的定义。

这是联合概率的公式。给定方程2.3,并使用(Pr(A、B和Pr(B、A))的定义,我也可以重新排列项,进行替换,并将其重写为:

公式2.8有时被称为贝叶斯规则的朴素版本。不过,我们将将方程2.5替换为方程2.8来分解这个方程2.8。

将公式2.6替换为公式2.9的分母,得到:

最后,我们注意到,使用联合概率的定义,即Pr(B,∼A)=Pr(B|∼A)Pr(∼A),我们将其替换为方程2.10的分母,得到:

方程2.11是贝叶斯规则的贝叶斯分解版本


让我们再举一次我们的例子,德州做一场伟大的碗比赛。A是德州的一场伟大的碗比赛,B是被重新雇佣的教练。而A∩B是这两个事件发生的联合概率。我们可以使用列联表进行每个计算。这里的问题是:如果德州的教练被重新聘用,那么长角牛队进行一场伟大的碗比赛的可能性有多大?或者正式的,Pr(A|B)。我们可以用贝叶斯分解来找到这个概率

使用联合概率的定义与列联表检查

所以,如果教练被重新雇佣,我们有63%的机会做出一场伟大的碗比赛。

蒙蒂大厅的例子。

假设有三扇关闭的门:1(D1)、2(D2)和3(D3)。其中一扇门后面有一百万美元。另外两扇门的后面都是一只山羊。在这个例子中,游戏节目的主持人蒙蒂·霍尔要求参赛者挑选一扇门。在他们选了门,但在他打开他们挑选的门之前,他打开另一扇门,露出了一只山羊。然后他问参赛者:“你想换门吗?”对蒙蒂·霍尔提议的一个常见回应是,换门没有意义,因为两扇门后面那百万美元的可能性是相同的。因此,为什么要切换呢?有50-50的机会在门的后面,有50-50的机会在剩下的门后面,所以切换没有合理的意义

我们需要知道门3有百万美元的概率,并与门1的概率进行比较。我们将将其称为2号门的打开活动B。我们将称百万美元在后门的可能性,Ai。现在我们写出了刚刚正式提出的问题,并使用贝叶斯分解对其进行分解。我们最终有兴趣知道门1有1百万美元的概率(事件A1),因为主持人打开了门2(事件B),这是一个条件概率问题。让我们用方程2.11中的贝叶斯分解来写出这个条件概率

在方程的右侧基本有两种概率。百万美元在一个给定的门后面,Pr(Ai)。有条件的可能性是蒙蒂霍尔会打开门2,因为百万美元在门后面的Ai,Pr(B|Ai)。在我们没有任何额外信息的情况下,我身后有百万美元的边际概率是1/3。我们称之为先验概率,或先验信念。它也可以被称为无条件的概率。条件概率Pr(B|Ai)需要更仔细的考虑。取第一个条件概率,Pr(B|A1)。如果门后面有百万美元,蒙蒂大厅打开门的可能性有多大?让我们考虑一下第二个条件概率:Pr(B|A2)。如果钱在2门后面,蒙蒂大厅打开2门的可能性是多大?然后是最后一个条件概率,Pr(B|A3)。在一个钱在门后面的世界里,蒙蒂大厅打开门的可能性是多少?每一个条件概率都需要仔细考虑相关事件的可行性。让我们检查一下最简单的问题:Pr(B|A2)。如果钱在2号门后面,蒙蒂大厅打开同一扇门有多大可能,2扇门?请记住:这是一个游戏节目。这样就可以让你了解游戏节目主持人的行为。你认为蒙蒂大厅会打开一扇有百万美元的门吗?认为他会打开一扇真正有钱的门是没有意义的——他总是打开背后有山羊的那扇门。让我们看看,如果把这种直觉带到逻辑的极端,得出结论,如果主持人永远不会打开那扇门后有有一百万美元的门,会发生什么。他只会在门里有一只山羊时才会打开一扇门。在此假设下,我们可以通过将Pr(B|Ai)和Pr(Ai)替换为方程2.12的右侧来估计Pr(A1|B)。

那么什么是Pr(B|A1)呢?也就是说,在一个你选择了1门,钱在1门后面的世界里,他打开2门的可能性是什么?如果钱在1门后面,他可以打开两扇门——他可以打开2门或3门,因为后面都有一只山羊。所以Pr(B|A1)=0.5。

那么第二个条件概率,Pr(B|A2)呢?如果钱在2号门后面,他打开它的可能性是多少?根据我们的假设,如果门有一百万美元,他永远不会打开门,我们知道这个概率是0.0。

最后,那么第三种概率,Pr(B|A3)呢?考虑到钱在门3后面,他打开门2的可能性是多少?现在仔细考虑这个——选手已经选择了1扇门,所以他不能打开那个门。他不能打开3号门,因为那背后有钱。因此,他唯一能打开的门是2号门。因此,这个概率是1.0。此外,所有的边际概率,Pr(Ai),等于1/3,允许我们通过替换、乘法和除法来求解左侧的条件概率。

Aha。这难道不是有点令人惊讶吗?参赛者选择正确的门的概率是1/3,就像在蒙蒂霍尔打开2号门之前一样。但是你持有的门有百万美元的可能性呢?现在2号门已经从等式中移除,你对这种可能性的信念改变了吗?让我们通过贝叶斯分解来弯曲,看看我们是否学到了什么

有趣的是,虽然你对你最初选择的门的信念并没有改变,但你对另一扇门的信念已经改变了。先验概率,Pr(A3)=1/3,通过一个称为更新为Pr(A3|B)=2/3的新概率的过程而增加。这种新的条件概率被称为后验概率,或后验信念。这只是意味着,亲眼目睹了B,你学到的信息让你对钱可能在哪扇门形成一个新的信念。

正如脚注14中提到的关于vosSant关于需要切换门的正确推理的争议,基于贝叶斯规则的推理通常甚至对聪明的人也感到惊讶——可能是因为我们缺乏连贯的方法来正确地将信息合并到概率中。贝叶斯规则向我们展示了如何以一种合乎逻辑和准确的方式来做到这一点。但除了有洞察力之外,贝叶斯的规则也为一种关于因果关系的不同推理打开了大门。虽然这本书的大部分内容都与已知原因的效应估计有关,但贝叶斯规则提醒我们,我们可以对已知效应的原因形成合理的信念。

求和操作

我们用来推理因果关系的工具就建立在概率的基础上。我们经常使用数学工具和统计数据中的概念,如期望和概率。我们将在这本书中使用的最常见的工具之一是线性回归模型,但在我们能够深入研究它之前,我们必须建立一些简单的符号。我们将从求和算符开始。希腊文字母(大写Sigma)表示总和运算符。设x1x2…xn为numbe序列

这个字母i被称为求和的索引。其他的字母,如j或k,有时被用作总和的索引。下标变量只是表示一个随机变量x的一个特定值。数字1和n分别是求和的下限和上限。 这个表达式可以用单词表示为“从1到n的所有值的数字xi之和。”一个例子可以帮助澄清:

求和运算符有三个属性。

第一个属性称为常量规则。

形式上是:

让我们考虑一个例子。假设我们得到:

求和运算符的第二个属性是:

让我们再举一个例子。

假设我们被给定了:我们可以应用这两个属性来得到以下第三个属性

在离开求和运算符之前,还要注意那些不是该运算符的属性的东西也很有用。首先,一个比率的总和并不是这些总和本身的比率

第二,某个平方变量的求和并不等于其求和的平方。

我们可以使用求和指标来进行一些计算,其中一些我们将在这本书的过程中重复地做。例如,我们可以使用求和算子来计算平均值: 其中, 为随机变量 的平均值(平均值)。我们可以做的另一个计算是一个随机变量的平均值。 与平均值之间的偏差之和总是等于0:

如表5所示。考虑两个数字的序列,{ }和{ }。现在我们可以考虑x和y数列的可能值的双和。例如,考虑n=m=2的情况。然后, 等于 。这是因为:

在整本书中非常有用的一个结果是: 下面是一个过长的、一步一步的证明。请注意,在第一行之后抑制求和索引,以便于阅读。

此结果的一个更一般的版本是:

或者,

随机变量的期望值,也称期望,

有时也称为总体均值,只是该变量可以接受的可能值的加权平均值,权重由总体中每个值发生的概率给出。假设变量X可以取值 ,每个值的概率分别为 。然后,我们将x的期望值定义为:

让我们来看一个数值例子。如果X的值分别为-1、0和2,概率分别为0.3、0.3和0.4。那么,x的期望值等于:

事实上,您也可以期望使用该变量的一个函数,比如 。请注意, 取值-1,0和4,概率分别为0.3、0.3和0.4。因此,计算 的期望值为:

期望值的第一个属性是,对于任何常数c,E(c)=c。

第二个属性是,对于任意两个常数a和b,则是E(aX+b)=E(aX)+E(b)=aE(X)+b。

第三个属性是,如果我们有许多常数, ,许多随机变量, 那么下面是正确的:

我们也可以用期望算符来表达它:

在ai=1的特殊情况下

期望运算符 是一个总体概念。它指的是整个群体,而不仅仅是我们可用的样本。它的意思与总体中一个随机变量的平均值有些相似。期望算子的一些附加性质可以解释为假设两个随机变量,期望算子W和H。

方差

考虑一个随机变量W的方差:

我们可以展示

在一个给定的数据样本中,我们可以通过以下计算来估计方差:

其中我们除以n−1,因为我们正在通过估计平均值进行度差调整。但在大样本中,这种自由度调整对 的值没有实际影响,其中 是与平均值的所有平方偏差的平均值(经过一个自由度修正后)。

还有几个方差的特性。

首先,一条直线的方差为:

其中常数的方差为0(即,任意常数的V(c)=0,c)。两个随机变量之和的方差等于:

如果这两个变量是独立的,则E(XY)=E(X)E(Y)和V(X+Y)等于V(X)+V(Y)之和.

协方差

方程2.22的最后一部分称为协方差。协方差度量了两个随机变量之间的线性依赖性。我们用C(X,Y)运算符来表示它。表达式C(X,Y)>0表示两个变量向相同的方向移动,而C(X,Y)<0表示它们向相反的方向移动。因此,我们可以将方程2.22重写为:

虽然我们很容易说,零协方差意味着两个随机变量是不相关的,但这是不正确的。它们可能有一个非线性的关系。协方差的定义是

正如我们所说,如果X和Y是独立的,那么C(X,Y)=0。两个线性函数之间的协方差为:

两个常数,a1和a2,等于零是因为它们的平均值是本身,所以协方差等于0。解释协方差的大小可能很棘手。为此,我们可以更好地观察相关性。我们对相关性的定义如下, 。然后:

相关系数以−1和1为界。正(负)相关表示变量以相同(相反)的方式移动。系数越接近1或−1,线性关系就越强。

总体模型

我们从横断面分析开始。我们将假设我们可以从感兴趣的总体中收集一个随机的样本。假设有两个变量,x和y,我们想看看y如何随着x的变化而变化。有三个问题会立即出现。

第一,如果y受到除x以外的因素的影响呢?我们该如何处理这个问题呢?

第二,连接这两个变量的函数形式是什么?

第三,如果我们对x对y的因果效应感兴趣,那么我们如何区分它与单纯的相关性呢?让我们从一个特定的模型开始。

假设这个模型在总体中成立。方程2.25定义了一个线性双变量回归模型。对于涉及捕获因果效应的模型,左边的术语通常被认为是效应,右边的术语被认为是原因。公式2.25明确允许其他因素通过为误差项u包含一个随机变量来影响y。这个方程还通过假设y线性依赖于x,明确地模拟了函数形式。我们称 系数为截距参数,我们称 系数为斜率参数。这些都描述了一个总体,我们在实证工作中的目标是估计它们的价值。我们从未直接观察过这些参数,因为它们不是数据。然而,我们可以做的是使用数据和假设来估计这些参数。为此,我们需要可靠的假设来用数据准确地估计这些参数。我们稍后将回到这一点上。在这个简单的回归框架中,所有决定y的未观察到的变量都由误差项u包含。 首先,我们做出了一个简化的假设,而不丧失一般性,

其中,E(.)是前面讨论的期望值算符。如果我们将u随机变量归一化为0,就没有任何影响了。为什么?因为 (截距项)的存在总是允许我们有这种灵活性。如果u的平均值与0不同,例如,说它是 ,那么我们就调整截距。但是,调整截距对β1斜率参数没有影响。例如:

其中为 。新的误差项是 ,新的截距项是 。但是,虽然这两个术语改变了,但请注意那些没有改变的东西:斜率,β1。

样本独立性

一个假设与我们对统计数据的基本处理吻合良好的假设涉及到由x值确定的总体的每个“切片”的误差项的平均值:

其中E(u|x)是“u给定x的期望值”。如果方程2.27成立,那么我们说u是独立于x的平均值。这里的一个例子可能会有所帮助。假设我们正在估计学校教育对工资的影响,而u是未被观察到的能力。平均独立性要求E(能力|x=8)=E(能力|x=12)=E(能力|x=16),这样在八年年级教育、十二个年级教育和大学教育的不同人群的平均能力是相同的。因为人们根据自己未被观察到的技能和属性来选择投资多少学校,方程2.27可能被违反——至少在我们的例子中是这样。但假设我们愿意做出这个假设。然后结合这个新假设,E(u|x)=E(u)(要做的非平凡假设)和E(u)=0(归一化和平凡假设),可以得到以下新假设:

方程2.28称为零条件均值假设,是回归模型中的一个关键的识别假设。因为条件期望值是一个线性算子,E(u|x)=0意味着

它显示了总体回归函数是x的线性函数,或者Angrist和Pischke[2009]称之为条件期望函数。这种关系对于参数β1作为因果参数的直觉至关重要.

普通最小二乘OLS

给定关于x和y的数据,我们如何估计总体参数, ?设(xi和yi),当{i=1,2,…,n}是从总体中获得的随机样本。将任何观察结果插入总体方程中:

其中,ui表示一个特定的观察结果。我们观察yi和xi,但无法观察ui。我们只知道ui就在那里。然后,我们使用了我们前面讨论过的两个总体限制:

得到了 的估计方程。我们已经讨论到了第一个情况了。然而,第二个方法意味着x的平均值不会随着误差项的不同而变化。这种独立性假设意味着E(xu)=0,我们得到E(u)=0,和C(x,u)=0。请注意,如果C(x,u)=0,那么这意味着x和u是独立的。 接下来我们插入u,它等于

这是总体中有效决定 的两种条件。同样,请注意,这里的符号是总体概念。我们没有接触总体,尽管我们有总体的样本:

其中 是来自数据的估计值。这是两个未知数 中的两个线性方程。当我们通过这两个方程的以下样本性质时,回顾求和算子的性质。我们从方程2.29开始,并通过求和算子。

式中 是n个数的平均值{i:1,....,n}。为了强调,我们将称y为样本平均值。我们已经证明了第一个方程等于零(方程2.29),所以这意味着 我们现在使用这个方程用斜率来写截距:

现在我们插入 到第二个方程, 这给了我们以下信息(使用一些简单的代数操作):

所以要求解的方程是

的公式很重要,因为它向我们展示了如何获取我们所拥有的数据并计算斜率估计。该估计 ,通常被称为普通最小二乘(OLS)斜率估计。当xi的样本方差不为0时,它就可以计算出来。换句话说,如果xi不是所有值都是常数,则可以计算。直觉是,x中的变化允许我们识别它在y中的影响。然而,这也意味着,如果我们观察到一个每个人都有相同学历的样本,或我们感兴趣的任何因果变量,我们就不能确定一种关系中的斜率。 一旦我们计算了 ,我们就可以计算截距值 ,如 。这是OLS截距估计,因为它是使用样本平均值计算的。请注意,它很简单,因为 中是线性的。使用计算机和统计编程语言和软件,我们让我们的计算机做这些计算,因为即使n很小,这些计算也相当乏味。 对于任何候选估计 ,我们为每个i定义一个拟合值为

回想一下, ,所以我们有n个这些方程。这是我们对yi预测的值,给定了x=xi。但是有预测错误是因为y=yi。我们把这个错误称为残差,并在这里使用这个符号。因此残差等于:

虽然残差和误差项都用u表示,但知道其中的差异很重要。残差是基于拟合 和实际值y的预测误差。因此,用任何数据样本都可以很容易地计算出残差。但u没有帽子是错误的术语,根据定义,它是由研究者没有观察到的事物决定的。虽然一旦通过回归和操作的几个步骤生成,残差就会出现在数据集中,但错误项将永远不会出现在数据集中。它是我们的模型没有捕获的我们结果的所有决定因素。这是一个至关重要的区别,奇怪的是,它是如此微妙,以至于即使是一些经验丰富的研究人员也难以表达它。假设我们通过对每个i的平方来衡量误差的大小。毕竟,平方它将消除错误的所有负值,从而使一切都是正值。如果我们不希望正值和负值相互抵消,这在总结误差时变得很有用。所以让我们这样做:把误差平方,把它们加起来

这个方程称为残差的平方和,因为残差 。但残差是基于对斜率和截距的估计。我们可以想象对这些值的任何数量的估计。但如果我们的目标是通过选择 来最小化残差的平方和呢?使用演积分,可以证明该问题的解产生的参数估计与我们之前得到的相同。一旦我们有了数字和给定的数据集,我们写OLS回归线:

让我们来看看这里的输出。首先,如果您汇总数据,您将看到使用Stata的预测命令和使用生成命令手动生成拟合的值。我希望读者有机会更好地理解这一点,两者也是如此。但是第二,让我们看看数据,并在上估计系数都接近于数据生成过程中内置的硬编码值。 图3、从y对x开始的双变量回归的图形表示。

一旦我们有了估计系数和OLS回归线,我们就可以预测x的任何(合理)值的y(结果)。因此,插入x的某些值,我们可以立即计算出y的误差。OLS的价值在于可以衡量误差的大小:OLS使线性函数的误差最小化。事实上,对于所有线性估计器来说,它是y的最佳猜测,因为它最小化了预测误差。换句话说,任何估计都存在预测误差,但OLS的误差是最小的。请注意,当x=0时,截距是y的预测值。在该样本中,该值为-0.0750109.13,斜率允许我们根据以下公式预测x的任何变化的y的相应变化: 如果 ,那么x增加一个单位,在我们的数值例子中 ,因为 。 现在我们已经计算了 ,我们得到了拟合的OLS,通过将x插入的以下等式中,i=1,…n:

The OLS residuals are also calculated by:

大多数残差将不同于0(即,它们不在回归线上)。您可以在图3中看到这一点。有些是正的,有些是负的。正残差表示回归线(以及预测值)低估了y的真实值,反之余数为负则代表回归线高估了真实价值。 回想一下,我们定义了的因变量y的拟合值 和残差ui, 。请注意,残差和拟合值之间的散点图关系创建了一个球形图案,表明它们不相关(图4)。这表明最小二乘法产生的残差与拟合值不相关。这里没有魔法,是最小二乘法基本规则。

OLS的代数性质

还记得我们是怎么得到 的吗?当包含截距项时,我们有:

OLS残差加总为零,

下表(表6)总结了这方面的输出。 请注意u、 列之间的差异。什么时候我们将这十条线相加,无论是误差项还是y的拟合值求和都不为零。但是残差和为零。正如我们所说,OLS系数的代数性质之一是最佳的,以确保残差和为零。 由于 的定义(我们也可以在表6中看到),我们可以取双方的样本平均值:

所以 ,因为残差和为零。同样,我们获得估计值的方法也会导致

解释变量和残差之间的样本协方差(因此样本相关性)始终为零(见表6)。

因为 是xi的线性函数,拟合值和残差也不相关(见表6);

最小二乘法要选择合适的 ,使得这个属性成立。 第三个特性是,如果我们插入x的平均值,我们就可以预测y的样本平均值。也就是说,点 位于OLS回归线上,或者:

拟合优度

对于每一个观察,我们写下

将总平方和(SST)、解释平方和(SSE)和残差平方和(SSR)定义为

SST除以(n-1)时为 的样本方差; 的样本方差, 的样本方差;。用一些简单的操作重写方程2.34:

由于方程式2.34显示拟合值与残差不相关,我们可以写出以下方程式:

假设SST>0,我们可以定义 的总变化的分数,这是由 (或OLS回归线)解释的。

这叫做回归的R平方。可以证明它等于yi和 之间相关性的平方。因此
表明 之间没有线性关系,
表示一个完美的线性关系(例如,Yi=Xi+2)。随着R2的增加,yi越来越接近OLS回归线。
不过,我鼓励你不要在研究项目中专注于R平方,因为研究项目的目的是估计一些因果效应。这是一个有用的汇总度量,但它并没有告诉我们因果关系。
请记住,如果您试图估计某些因果效应,那么您并不是在试图解释y的变化。R2告诉我们yi的变化有多少是由解释变量解释的。但是如果我们对单个变量的因果效应感兴趣,R2是不相关的。
对于因果推断,我们需要方程2.28。

使用总体模型进行回归

但我们的分析完全是基于数据样本的代数分析。所以,当我们对样本应用OLS时,无论基础模型如何,残差平均值为零。
现在我们必须研究OLS估计的统计特性,参考总体模型并假设随机抽样。 估计在不同的数据样本中表现如何?例如,平均而言,如果我们反复取样,我们会得到正确的答案吗?我们需要找到OLS估计器的期望值——实际上是所有可能的随机样本的平均结果,并平均确定我们是否正确。这就自然而然地产生了一种称为无偏的特征,即 所有估计量的期望值

记住,我们的目标是估计β1,这是描述y和x之间关系的斜率总体参数。我们的估计 是针对特定样本获得的参数 的估计。不同的样本将产生不同的估计( )对于“真实”(和未观察到的)β1。无偏性意味着,如果我们可以从总体中抽取任意多个随机样本,每次计算一个估计值,估计值的平均值将等于β1。 OLS无偏需要几个假设。

第一个假设在参数中称为线性

假设一个总体模型

其中β0和β1为未知总体参数。我们视x和u是一些数据生成过程生成的随机变量的结果。因此,由于y是x和u的函数,因此它们是随机的,那么y也是随机的。说明这一假设正式表明我们的目标是估计β0和β1。

我们的第二个假设是必须是随机抽样

我们有一个随机的 样本大小为n,{(xi,yi):i=1,…,n},遵循总体模型。 我们知道如何使用这些数据通过OLS估计β0和β1。 因为每个i都是从总体中抽取的,我们可以为每个i写:

注意,这里的ui是观察i未观察到的错误。这不是我们根据数据计算的残差。

第三种假设称为解释变量中的样本必须是变动的

也就是说,xi上的样本结果并非都是相同的值。这与说x的样本方差不是零是一样的。实际上,这根本不是假设。如果xi的所有值都相同(即常数),我们就无法了解X如何影响总体中的Y。回想一下,OLS是y和x的协方差除以x的方差,因此如果x是常数,那么我们除以零,OLS估计量是未定义的。 有了第四个假设,我们的假设开始有了真正的根据。

零条件平均假设

可能是因果推理中最关键的假设。在总体中,给定解释变量的任何值,误差项的平均值为零:

这是证明OLS无偏的关键假设,一旦我们假设 不随x变化,零值就不重要。请注意,我们可以计算OLS估计值,无论该假设是否成立,即使存在潜在风险的总体模型。 那么,我们如何证明 是β1的无偏估计(方程式2.37)?我们需要证明,在我们刚才概述的四个假设下,当对随机样本进行平均时, 的预期值将以β1的真实值为中心。这是一个微妙但关键的概念。在这种情况下,无偏意味着如果我们重复从总体中采集数据,并对每个新样本进行回归,所有这些估计系数的平均值将等于β1的真实值

我们将通过一系列步骤来讨论答案。

第一步:写下一个公式。使用以下形式很方便

让我们通过定义 (即 中的总变化),并将其改写为:

步骤2:用 替换每个

使用第一个线性假设和我们已经采样数据的事实(我们的第二个假设)。分子变成

使用了以下变换

可以推出下式,

请注意,最后一个是OLS回归 关于 的斜率系数,其中i:1,…n,我们无法进行此回归,因为 未观察到。现在定义 ,以便我们有以下式子:

这向我们展示了以下几点: 第一, 是未观察到的误差 的线性函数。 的函数。 其次, 和它的估计值 之间的随机差异,是由于这个不可观测的线性函数造成的。

第三步:找到

在随机抽样假设和零条件平均值假设下, ,这意味着每个x变量都有如下条件

因为 是{x1,…,xn}的函数。如果总体中的u和x是相关的,这将是真实的。 现在我们可以完成证明:条件是{x1,…,xn},

记住, 是总体中的固定常数。估计量 因样本而异,是一个随机结果:在我们收集数据之前,我们不知道 会是什么。在上述四个假设下, 。 我发现当我们做这样的练习时,具体一些是很有帮助的。让我们想象一下。让我们创建一个蒙特卡罗模拟。我们有以下总体模型:

其中x∼N(0,9),u∼N(0,36)。而且,x和u是独立的。以下蒙特卡罗模拟将对样本数据进行OLS估计1000次。真实的β参数等于2。但是,当我们使用重复抽样时, 平均值等于多少?

表7给出了超过1000次重复(重复取样)的平均值。您的结果与我的不同之处在于模拟中涉及的随机性。但是你的结果应该和这里显示的相似。虽然每个样本具有不同的估计斜率,但所有样本的平均值为1.998317,接近真实值2(见方程式2.38)。 该估计的标准偏差为0.0398413,接近回归本身中记录的标准误差。因此,我们看到,该估计是重复抽样系数的平均值,标准误差是该重复估计器的标准偏差。我们可以看到这些数据的分布系数估计如图5所示。 问题是,我们不知道我们有哪种样本。我们有一个“几乎是2”的样本,还是有一个“与2完全不同”的样本?我们永远无法知道我们是否接近总体值。我们希望我们的样本是“典型的”,并产生接近 的斜率估计,但我们无法知道是否一定能实现。无偏性是规则程序的一个属性。这不是估算本身的属性。例如,假设我们估计8.2%的教育回报率。说8.2%是对学校教育回报率的无偏估计很有诱惑力,但这在技术上是不正确的。用于获取 的规则是无偏的(如果我们认为u与学校教育无关),而不是实际估计本身。

Table 7. Monte Carlo simulation of OLS

Figure 5. Distribution of coefficients from Monte Carlo simulation.

条件期望函数

条件期望函数(CEF)是某些结果y的平均值,而某些协变量x保持不变。让我们更专注于这个函数。让我们把符号和一些语法放在一边。如前所述,我们将CEF写为 。请注意,CEF是 函数。由于 是随机的,所以CEF是随机的,尽管有时我们用 的特殊值来工作,如下面的例子
。 当存在处理变量时,CEF有两个值:

迭代期望定律

迭代期望法(LIE)是CEF的一个重要补充。这条规律规定,无条件的期望可以写成CEF的条件平均值。换句话说, 。这是一个相当简单的想法:如果你想知道某个随机变量y的无条件期望,你可以简单地计算协变量x所有条件期望的加权和。 让我们看一个例子。假设女性的平均成绩为3.5分,男性的平均GPA为3.2分,一半的人口是女性,一半是男性。然后: 你可能一直在使用LIE(迭代期望定律),但你自己都不知道。证明并不复杂。让 每一个被连续不断分布。 联合密度定义为 。给定x=u的y的条件分布,定义为 。边际密度为

看看这个证明有多简单。第一行使用期望的定义。第二行使用条件期望的定义。第三行切换积分顺序。第四行使用联合密度的定义。第五行用后续表达式替换前一行。第六行对x的积分联合密度,该密度等于y的边际密度。所以重申了迭代期望定律:E(yi)=E(E(y|xi))。

CEF分解性能

我们将讨论的CEF的第一个性质是CEF分解性质。LIE(迭代期望定律)的力量来自于它将随机变量分成两部分的方式——CEF和具有特殊性质的残差。CEF分解属性表明:

(i) 的平均值无关,即

(ii) 的任何函数无关。 这个定理说明任何随机变量 都可以分解成一个可以由 解释的(CEF)和一个与 的函数正交的项。我先来证明这一部分。 回想一下 ,因为我们将在下面的第二行进行替换。

定理的第二部分指出 的函数无关。设 的函数。然后 内积中的第二项由于均值独立性等于零。

CEF预测特性

第二个属性是CEF预测属性。这表明 ,其中 的任意函数。这说明CEF是给定的 的最小均方误差。加入 到右边可以得到下式,

我个人觉得用更简单的符号更容易理解。因此,将此表达式替换为以下术语:

与上述术语对应,重新排列它们,并用它们的原始值替换术语,直到获得以下内容:

现在最小化关于 的函数。当关于 最小化此函数时,请注意第一项 并不重要,因为它不依赖于 。所以它会归零。然而,第二项和第三项确实依赖于 。 所以重写 作为 。也将 设置为等于

现在最小化这个函数并设置它为等于零

其分解之后等于零。

方差定理

我们将讨论的CEF的最后一个性质是方差定理的分析,或方差分析。根据这个定理,某些随机变量的无条件方差等于条件期望的方差加上条件方差的期望,或者

其中V是方差, 是条件方差。

线性CEF定理

在应用工作中使用最小二乘法是非常普遍的。这是因为回归有几个理由。在一定的误差项假设下,我们讨论了一个无偏性。 Angrist和Pischke[2009]认为,即使基础CEF本身不是线性的,线性回归也可能有用,因为回归是CEF的良好近似。所以,当我把这个问题进一步细分时,请保持开放的心态。 Angrist和Pischke[2009]给出了使用回归的几个论点,线性CEF定理可能是最简单的。假设我们确信CEF本身是线性的。那又怎么样?如果CEF是线性的,那么线性CEF理论表明总体回归等于线性CEF。如果CEF是线性的,如果总体回归等于它,那么你当然应该使用总体回归来估计CEF。如果你需要一个证据来证明什么是常识,我会提供一个。如果 是线性的,那么对于 某些向量, 。通过分解性质,可以得到

然后当你解决这个问题时,你就会得到 。因此,

最佳线性预测定理

在此背景下,还有一些其他的线性定理值得提出。根据CEF预测属性,CEF是所有函数类中给定x的y的最小均方误差预测。鉴于此,总体回归函数是我们在所有线性函数的类中所能做的最好的。

回归CEF定理

现在我想再介绍一个回归的属性。函数 提供了对CEF的最小均方误差线性近似。也就是说,

因为所有这些线性定理会让读者问,“那又怎么样?”我告诉你这一切是因为我想向你们提出一个论点,即回归是有吸引力的;即使它是线性的,但当CEF本身不是线性时,它仍然是合理的。由于我们不确定CEF是线性的,这实际上是一个至少可以考虑的很好的论点。回归最终只不过是一个将数据转化为估计值的方法,我在这里要说的是,方法即使在坏的情况下也能产生一些理想的东西。不过,让我们通过回顾另一个定理来进一步看看这个曲柄,这个定理已经被称为回归解剖学定理。

回归解剖定理

除了我们对CEF和回归定理的讨论之外,我们现在还剖析了回归本身。在这里,我们讨论了回归解剖学定理。回归解剖是基于弗里施和Waugh[1933]和洛弗尔[1963]的早期工作。当我通过一个特定的例子并提供一些数据可视化时,我发现这个定理更直观。在我看来,这个定理可以帮助我们进行干预。

其中Y是劳动力供给,X是家庭规模。如果家庭规模确实是随机的,那么一个家庭中孩子的数量与未观察到的错误项不相关。这意味着,当我们根据家庭规模回归劳动力供应时,我们的估计 可以被解释为家庭规模对劳动力供应的因果效应。我们可以在一个散点图中绘制回归系数,显示所有i对数据;斜率系数将是该数据体系的最佳线性拟合。此外,在儿童数量随机假设下,斜率也可以告诉我们家庭规模对劳动力供应的平均因果效应。但最有可能的是,家庭规模并不是随机的,因为很多人选择了家里孩子的数量——而不是,比如说,抛硬币。那么,我们如何解释家庭规模是不是随机的呢?通常,人们根据类似于最佳停止规则来选择家庭规模。人们会选择有多少孩子,什么时候有多少孩子,什么时候会停止有多少孩子。在某些情况下,他们甚至可能试图选择性别。所有这些选择都是基于各种未被观察到和观察到的经济因素,这些因素本身可能与这些经济因素有关

其中Y是劳动力供应,X是孩子的数量,R是种族,A是年龄,u是人口误差项。如果我们想估计家庭规模对劳动力供应的平均因果效应,那么我们需要两件事。首先,我们需要一个包含所有这四个变量的数据样本。如果没有所有这四个变量,我们就不能估计这个回归模型。其次,我们需要随机分配给一套给定的种族和年龄的孩子的数量,X。现在,我们该如何解释 呢?考虑到数据有六个维度,我们该如何可视化这个系数呢?回归解剖学定理既告诉我们这个系数估计实际上意味着什么,也让我们只在二维中可视化数据。为了解释回归解剖学定理的直觉,让我们写下一个具有多个变量的总体模型。假设您感兴趣的主要多元回归模型有K个协变量。然后我们可以把它写成:

现在假设一个辅助回归,其中变量 在所有剩余的自变量上进行回归:

其中 是辅助回归的残差。然后,参数β1可以重写为:

注意,我们再次看到系数估计是一个伸缩协方差,只有在这里,协方差是相对于辅助回归的结果和残差,而尺度是相同残差的方差。 为了证明该定理,请注意 ,并将 辅助回归中的 和残余 插入到协方差 中:

由于构建了 ,因此得出了术语 。由于 是除 外的所有自变量的线性组合,所以必须是这样的

现在考虑一下 这个词。这可以写成

由于 与任何自变量都不相关,因此它也与 不相关。因此,我们有 。关于减法的第二项,用 辅助回归的预测值,我们得到

同样,由于 与任何自变量都不相关,因此该项的期望值等于零。由此可见, 。剩下的唯一的项是 ,它等于E ,因为 。术语 可以通过重写辅助回归模型 来代替,这样

这给出

这直接源于 之间的正交性。从之前的推导中,我们最终得到了

完成证明。我发现可视化事物很有帮助。让我们来看看Stata中使用其流行的汽车数据集的一个示例。我会告诉你的:

让我们来看看我在表8中复制的回归输出,以及我称之为短双变量回归和长多变量回归中的斜率参数的良好可视化。 价格对汽车长度的短回归得出的长度系数为57.20。每增加一英寸,一辆车就会再贵57美元,如图6中向上倾斜的虚线所示。这条线的斜率是57.20。 你最终将成为谈论在回归的右侧包含更多变量作为“控制”这些变量的第二性。但在这个回归解剖学练习中,我希望当你在做一个不同的事情时,你实际上能给出一个不同的解释。首先,注意一旦我们控制了其他变量,长度上的系数是如何改变符号和大小增加的。现在,对长度的影响是−94.5。长度似乎被其他几个变量混淆了,一旦我们限制了它们,较长的车实际上会更便宜。您可以在图6中看到一个可视化的表示,其中多元斜率是负的。

表8.汽车价格对长度及其他特征的回归估计

图6.回归解剖学显示 那么在这个可视化中到底发生了什么呢?首先,它将维数(变量)的数量从4个压缩到只有2个。它通过我们之前描述的回归解剖过程做到了这一点。基本上,我们进行辅助回归,使用其残差,然后计算斜率系数为 。这使得我们能够将辅助残差的散点图与它们的观察结果配对,并将斜率切片(图6)。请注意,这是一种从多元回归中预览两个变量之间的多维相关性的有用方法。注意,实黑线为负,双变量回归的斜率为正。回归解剖学定理表明,这两个估计量-一个是一个多变量OLS,另一个是一个双变量回归价格和一个残差--是相同的。

OLS估计量的方差

这或多或少总结了我们想要讨论的关于线性回归的问题。在零条件均值假设下,我们可以从认识论上推断,用于从我们的样本中的回归中产生系数的规则是无偏的。这很好,因为它告诉我们,我们有充分的理由相信这个结果。但现在我们需要建立这种认识论的理由,以捕捉抽样过程本身固有的不确定性。这种增加的不确定性层通常被称为推理。现在我们就来看看吧。 还记得我们之前运行的模拟吗,我们重新采样了一个总体并估计了回归系数1000次吗?我们生成了图5中这1000个估计值的直方图。系数的平均值约为1.998,非常接近2的(硬编码到数据生成过程中)的真实效果。但标准差在0.04左右。这意味着,基本上,在对某些种群的重复抽样中,我们得到了不同的估计。但这些估计数的平均值接近真实效应,它们的方差的标准差为0.04。在重复抽样的传播中,这个概念可能是最有用的事情. 在我们前面讨论的四个假设下,OLS估计量是无偏的。但是这些假设并不足以告诉我们任何关于估计量本身的方差。这些假设有助于告知我们的信念,即估计的系数平均等于参数值本身。但是为了明智地谈论估计的方差,我们需要测量估计的采样分布中的色散度。正如我们一直说的,这导致我们的方差并最终导致标准差。我们可以描述在这四个假设下的OLS估计量的方差。但目前,可以最简单地引入一个简化计算的假设。我们将保持我们一直在使用的假设顺序,并称之为第五个假设。

第五个假设是同方差或常数方差假设

这个假设规定,我们的总体误差项u在给定解释变量x的任何值下具有相同的方差。通常情况下,这是:

当我第一次学习这些材料的时候,我总是异常地很难理解 。部分原因是我的人文学科背景;我并不太欣赏分散的随机变量。我不习惯取很多数字,并试图测量它们之间的距离,所以点击速度很慢。所以如果你像我一样,试试这个。你可以把 看作是一个像2或8这样的正数。这个数字是在衡量潜在错误本身的扩散程度。换句话说,以解释变量条件的误差方差只是一些有限的正数。这个数字测量的是除x以外的影响y本身值的东西的方差。因为我们假设零条件均值假设,每当我们假设同方差,我们也可以写:

现在,在第一个、第四和第五个假设下,我们可以写道:

因此,y的平均值或期望值允许随x而变化,但如果误差是同方差的,那么方差就不会随x而变化。常数方差假设可能不现实;它必须根据具体情况来确定。

定理:OLS的抽样方差

在假设1和假设2下,我们得到:

为了证明这一点,就像以前一样写下来,

其中, .我们在推导中认为这是非随机的。因为β1是一个常数,所以它不影响 。现在,我们需要使用这样一个事实,对于不相关的随机变量,和的方差是方差的和。{ui:i=1,…n}实际上是独立的,是不相关的。记住:如果我们知道x,我们就知道w。所以:

其中倒数第二等条件使用第五个假设,使ui的方差不依赖于xi。现在我们有了:

我们已经展示了:

OLS斜率估计的方差

如果同差误差的第五个假设不成立,它是无效的。换句话说,需要同方差假设来推导出这个标准公式。但同方差假设并没有被用来显示OLS估计量的不偏性。这只需要前四个假设。通常,我们对β1很感兴趣。我们可以很容易地研究影响其方差的两个因素:分子和分母

随着误差方差的增加,也就是随着 的增加,我们的估计中的方差也会增加。y和x之间的关系中的“噪声”越多(即u的可变性越大),就越难了解一些关于β1的东西。相比之下,更多的变化是一件好事。随着 的上升,

注意, 是x中的样本方差。我们可以认为这接近于x的总体方差 ,因为n变大。这意味着:

这意味着随着n的增长, 收缩的速度缩小,这就是为什么更多的数据是一件好事:它缩小了我们的估计的采样方差。 的标准差是方差的平方根。所以:

这被证明是出现在置信区间和测试统计数据中的变化的度量。接下来我们来看看估计误差方差。在公式中 ,我们可以从{xi:i=1,……,n}计算SSTx。但我们需要估计一下 。回想一下, 。因此,如果我们可以观察到一个误差的样本,{ui:i=1,…,n}, 的无偏估计将是样本平均值:

但这不是一个我们可以从我们观察到的数据中计算出来的估计,因为ui是未被观察到的。用其“估计”的OLS残差 来替换每个ui怎么样?

虽然ui不能计算出来,但 可以从数据中计算出来,因为它依赖于估计, 。但是,除了纯粹的巧合,对任何一个i有

请注意, ,但估计几乎总是与样本中的总体值不同。那么作为σ2的估计器呢?

它是一个真正的估计,很容易从OLS后的数据中计算出来。事实证明,这个估计器略有偏差:它的期望值略小于 。估计不考虑用于获得 的残差的两个限制:

对未观察到的错误没有这样的限制。因此, 的无偏估计器使用了一个自由度调整。残差自由度只有n−2,而不是n个。因此:

现在我们提出以下定理。前五个假设下的σ2的无偏估计量为:

在大多数软件包中,回归输出将包括:

这是对sd(u)的一个估计量,即总体误差的标准偏差。一个小故障是, 不是σ的无偏估计。这对我们的目的来说并不重要: 被称为回归的标准误差,这意味着它是对回归中误差的标准差的估计。软件包Stata称之为均方根误差(RMSE)。

给定