概率与回归综述

基本概率理论。

在实践中，因果推理是基于从非常简单到非常先进的统计模型。

随机过程是一个可以重复多次，每次结果不同的过程。样本空间是一个随机过程的所有可能结果的集合。

我们区分离散的和连续的随机过程如下表1。离散过程产生整数，而连续过程也产生分数。我们用两种方式来定义独立的事件。第一种是指逻辑独立性。例如，发生了两个事件，但没有理由相信这两个事件相互影响。当假定它们确实相互影响时，这是一种逻辑谬误，称为事后错误提出特别谬论，拉丁语的意思是“此后，因此，正因此如此”。这个谬误认识到，事件的时间顺序不足以说第一件事导致了第二件事。

独立事件的第二个定义是统计独立性。我们将用一个来自有替换和不替换的抽样思想的例子来说明后者。让我们使用一副随机洗牌的卡片为例。对于52张牌，第一张牌是王牌的概率是多少？

在样本空间中有52个可能的结果，或随机过程的所有可能结果的集合。在这52个可能的结果中，我们关注一个王牌发生的频率。甲板上有四个王牌，所以4 /52 =0.077。假设第一张牌是一张王牌。现在我们再问一次这个问题。如果我们洗牌，下一张牌也是王牌的概率是多少？新的概率是

在没有替换的抽样情况下，这两个事件——卡片1上的王牌，如果卡片1是王牌，则是卡片2上的王牌——都不是独立的事件。为了使这两个事件独立，你必须把王牌放回去，然后洗牌。所以有两个事件，A和B，是独立的，当且仅当：

两个独立事件的一个例子是在用一个骰子滚动3后，用另一个骰子滚动5。这两个事件是独立的，所以无论我们在第一个骰子上滚动了什么，滚动一个5的概率总是0.17。

但是，如果我们想知道一些需要多个事件首先发生的事件发生的概率呢？例如，假设我们说的是克利夫兰骑士队赢得NBA冠军。2016年，金州勇士队在7场三胜制的季后赛中战绩为3胜1负。勇士队输掉季后赛会发生什么呢？骑士队必须赢三场。在这种情况下，要找到概率，我们必须取所有边际概率的乘积，或，其中Pr(·)是一个事件发生的边际概率，n是该一个事件的重复次数。如果克利夫兰获胜的无条件概率是0.5，并且每场比赛都是独立的，那么骑士从3-1落后中回来的概率是每场比赛获胜概率的乘积：

另一个例子可能会有帮助。在德州扑克比赛中，每个玩家每人可以得到两张牌。当你拿着两种东西时，你会说你“兜里有两张牌”。“那么，兜里王牌的可能性是多少呢？没错，这是0.45%.

让我们正式化我们所说的一个更普遍的情况。对于独立事件，为了计算联合概率，我们乘以边际概率：

其中，Pr（A，B）为A和B同时发生的联合概率，Pr(A)为A事件发生的边际概率。现在，对于一个稍微困难一点的应用程序。用两个六面骰子滚动点数7的概率是多少，它和滚动3的概率相同吗？为了回答这个问题，让我们比较一下这两个概率。我们将使用一个表来帮助解释直觉。首先，让我们看看使用两个六面骰子获得点数7的所有方法。当掷两个骰子时，总共有36个可能的结果。在表2中，我们看到有六种不同的方法只使用两个骰子来滚动点数7。所以滚动7点的概率是6/36=16.67%。接下来，让我们看看使用两个六面骰子掷出3的所有方法。表3显示，只有两种方法可以得到一个3滚动的两个六面骰子。所以滚动3点的概率是2/36=5.56%。所以，滚动7和滚动3的概率是不同的

表2.用两个六面骰子获得7的方法总数

表3、使用两个六面骰子获得3的方法总数。

事件和条件概率。首先，在我们讨论表示概率的三种方法之前，我想介绍一些新的术语和概念：事件和条件概率。让A成为一些事件。让B成为其他的事件。对于两个事件，有四种可能性。 1.A和B：A和B都同时出现。 2.∼A和B：A不发生，但B发生。 3.A和∼B：A发生，但B不发生。 4.∼A和∼B：A和B都不发生。我将使用几个不同的例子来说明如何表示一个概率。概率树。让我们考虑一下你试图获得驾照的情况。假设，为了获得驾照，你必须通过笔试和驾驶考试。但是，如果你没有通过笔试，你就不能参加驾驶考试。我们可以在一个概率树中表示这两个事件

概率树非常直观且易于解释。首先，我们看到通过笔试的概率为0.75，考试不及格的概率为0.25。其次，在从节点开始的每个分支时，我们可以进一步看到与给定分支相关的概率求和为1.0。联合概率也都为1.0。这被称为总概率定律，它等于A和B事件发生的所有联合概率的和。

我们还可以在驾照树中看到条件概率的概念。例如，在通过笔试的前提下，驾驶考试失败的概率表示为Pr(Fail|Pass)=0.45。

维恩图和集合。表示多个事件发生的第二种方法是使用维恩图。维恩图最初是由约翰·维恩在1880年构思的。它们被用来教授基本集理论，以及在概率和统计学中表达集合关系。这个例子将涉及两个集合，A和B。

德克萨斯大学的橄榄球教练整个赛季都有体育主管和董事。在几个平庸的赛季之后，他在学校的未来正处于危险之中。如果长角牛队不能参加一场Great Bown比赛，他很可能不会被重新雇佣。但如果他们这样做了，那么他很可能会被重新雇佣。让我们用这个教练的情况作为我们指导的例子来讨论基本集理论。但在此之前，让我们提醒一下我们的条款。A和B是事件，U是其中A和B是子集的通用集。让A是长角牛队被邀请参加一场很好的碗比赛的可能性，B是他们的教练被重新雇佣的可能性。设Pr(A)=0.6，设Pr(B)=0.8。设A和B同时发生的概率为Pr(A，B)=0.5（0.48？）。注意，A+∼A=U，其中∼A为A的补集. 补集意味着它是通用集合中的一切都不是A. B的情况也是如此。B和∼B=U的值之和。因此：

我们可以重写出以下定义：

每当我们想描述一组可能发生的事件时，它是：A∪B.这的发音是“A并B”，这意味着它是包含A与B的每个元素的新集合. 那么，在集合A或集合B中的任何元素也在新的联合集中。每当我们想描述一组一起发生的事件——交集——它是A∩B，发音为“A与B交集”。这个新集合包含A和B集合中的所有元素。也就是说，只有A和B中的东西都被添加到新的集合中。

现在让我们仔细看看涉及A的关系

注意这是意思：有两种方法来识别A集合。首先，您可以查看A与B一起发生的所有实例。但是，A中不是B的其余部分呢？这是A∪B的情况，它涵盖了A集的其余部分。类似的推理方式可以帮助您理解以下表达式

为了得到A交B，我们需要三个对象：B之外的A单位集合，A之外的B单元集合，以及它们的总集和。你得到了所有这些，你就得到A∩B。现在，它只是一个简单的添加来查找所有缺失的值。回想一下，A是你的球队进入季后赛，Pr(A)=0.6,教练被重新聘用的概率，Pr(B)=0.8。另外，Pr(A，B)=0.5，这A和B同时发生的概率。然后我们有：

当使用集合时，重要的是要理解概率是通过考虑由子集(例如A∪B)组成的集合的份额(例如A)来计算概率的。当我们写下A∪B发生的概率时，它是与U。但如果我们问“A的什么份额是由于A∪B？”呢？那么，注意，我们需要这样做：

表4、两次列联表。

使用公式2.1和2.2，我可以简单地写下一个联合概率的定义。

这是联合概率的公式。给定方程2.3，并使用(Pr(A、B和Pr(B、A))的定义，我也可以重新排列项，进行替换，并将其重写为：

公式2.8有时被称为贝叶斯规则的朴素版本。不过，我们将将方程2.5替换为方程2.8来分解这个方程2.8。

将公式2.6替换为公式2.9的分母，得到：

最后，我们注意到，使用联合概率的定义，即Pr(B，∼A)=Pr(B|∼A)Pr(∼A)，我们将其替换为方程2.10的分母，得到：

那么方程2.11意味着什么呢？这是贝叶斯规则的贝叶斯分解版本。让我们再举一次我们的例子，德州做一场伟大的碗比赛。A是德州的一场伟大的碗比赛，B是被重新雇佣的教练。而A∩B是这两个事件发生的联合概率。我们可以使用列联表进行每个计算。这里的问题是：如果德州的教练被重新聘用，那么长角牛队进行一场伟大的碗比赛的可能性有多大？或者正式的，Pr(A|B)。我们可以用贝叶斯分解来找到这个概率

使用联合概率的定义与列联表检查

所以，如果教练被重新雇佣，我们有63%的机会做出一场伟大的碗比赛。蒙蒂大厅的例子。让我们用一个不同的例子，蒙蒂大厅的例子。这首歌很有趣，因为大多数人都觉得它违反了直觉。它甚至被用来诋毁数学家和统计学家。但贝叶斯的规则使答案非常清楚——事实上，如此清楚，贝叶斯的规则实际上曾经有争议，这有点令人惊讶[麦格雷恩，2012]。假设有三扇关闭的门：1（D1）、2（D2）和3（D3）。其中一扇门后面有一百万美元。另外两扇门的后面都是一只山羊。在这个例子中，游戏节目的主持人蒙蒂·霍尔要求参赛者挑选一扇门。在他们选了门，但在他打开他们挑选的门之前，他打开另一扇门，露出了一只山羊。然后他问参赛者：“你想换门吗？”对蒙蒂·霍尔提议的一个常见回应是，换门没有意义，因为两扇门后面那百万美元的可能性是相同的。因此，为什么要切换呢？有50-50的机会在门的后面，有50-50的机会在剩下的门后面，所以切换没有合理的意义

我们需要知道门3有百万美元的概率，并与门1的概率进行比较。我们将将其称为2号门的打开活动B。我们将称百万美元在后门的可能性，Ai。现在我们写出了刚刚正式提出的问题，并使用贝叶斯分解对其进行分解。我们最终有兴趣知道门1有1百万美元的概率(事件A1)，因为蒙蒂霍尔打开了门2(事件B)，这是一个条件概率问题。让我们用方程2.11中的贝叶斯分解来写出这个条件概率

在方程的右侧基本有两种概率。百万美元在一个给定的门后面，Pr(Ai)。有条件的可能性是蒙蒂霍尔会打开门2，因为百万美元在门后面的Ai，Pr(B|Ai)。在我们没有任何额外信息的情况下，我身后有百万美元的边际概率是1/3。我们称之为先验概率，或先验信念。它也可以被称为无条件的概率。条件概率Pr(B|Ai)需要更仔细的考虑。取第一个条件概率，Pr(B|A1)。如果门后面有百万美元，蒙蒂大厅打开门的可能性有多大？让我们考虑一下第二个条件概率：Pr(B|A2)。如果钱在2门后面，蒙蒂大厅打开2门的可能性是多大？然后是最后一个条件概率，Pr(B|A3)。在一个钱在门后面的世界里，蒙蒂大厅打开门的可能性是多少？每一个条件概率都需要仔细考虑相关事件的可行性。让我们检查一下最简单的问题：Pr(B|A2)。如果钱在2号门后面，蒙蒂大厅打开同一扇门有多大可能，2扇门？请记住：这是一个游戏节目。这样就可以让你了解游戏节目主持人的行为。你认为蒙蒂大厅会打开一扇有百万美元的门吗？认为他会打开一扇真正有钱的门是没有意义的——他总是和山羊打开门。所以你不认为他只是和山羊一起开门吗？让我们看看，如果把这种直觉带到逻辑的极端，得出结论，如果蒙蒂霍尔有一百万美元就永远不会打开门，会发生什么。他只有在门里有一只山羊时才会打开一扇门。在此假设下，我们可以通过将Pr(B|Ai)和Pr(Ai)替换为方程2.12的右侧来估计Pr(A1|B)。

那么什么是Pr(B|A1)呢？也就是说，在一个你选择了1门，钱在1门后面的世界里，他打开2门的可能性是什么？如果钱在1门后面，他可以打开两扇门——他可以打开2门或3门，因为后面都有一只山羊。所以Pr(B|A1)=0.5。

那么第二个条件概率，Pr(B|A2)呢？如果钱在2号门后面，他打开它的可能性是多少？根据我们的假设，如果门有一百万美元，他永远不会打开门，我们知道这个概率是0.0。

最后，那么第三种概率，Pr(B|A3)呢？考虑到钱在门3后面，他打开门2的可能性是多少？现在仔细考虑这个——选手已经选择了1扇门，所以他不能打开那个门。他不能打开3号门，因为那背后有钱。因此，他唯一能打开的门是2号门。因此，这个概率是1.0。此外，所有的边际概率，Pr(Ai)，等于1/3，允许我们通过替换、乘法和除法来求解左侧的条件概率。

Aha。这难道不是有点令人惊讶吗？参赛者选择正确的门的概率是1/3，就像在蒙蒂霍尔打开2号门之前一样。但是你持有的门有百万美元的可能性呢？现在2号门已经从等式中移除，你对这种可能性的信念改变了吗？让我们通过贝叶斯分解来弯曲，看看我们是否学到了什么

有趣的是，虽然你对你最初选择的门的信念并没有改变，但你对另一扇门的信念已经改变了。先验概率，Pr(A3)=1/3，通过一个称为更新为Pr(A3|B)=2/3的新概率的过程而增加。这种新的条件概率被称为后验概率，或后验信念。这只是意味着，亲眼目睹了B，你学到的信息让你对钱可能在哪扇门形成一个新的信念。

正如脚注14中提到的关于vosSant关于需要切换门的正确推理的争议，基于贝叶斯规则的推理通常甚至对聪明的人也感到惊讶——可能是因为我们缺乏连贯的方法来正确地将信息合并到概率中。贝叶斯规则向我们展示了如何以一种合乎逻辑和准确的方式来做到这一点。但除了有洞察力之外，贝叶斯的规则也为一种关于因果关系的不同推理打开了大门。虽然这本书的大部分内容都与已知原因的效应估计有关，但贝叶斯规则提醒我们，我们可以对已知效应的原因形成合理的信念。

求和操作。我们用来推理因果关系的工具就建立在概率的基础上。我们经常使用数学工具和统计数据中的概念，如期望和概率。我们将在这本书中使用的最常见的工具之一是线性回归模型，但在我们能够深入研究它之前，我们必须建立一些简单的符号。我们将从求和算符开始。希腊文字母（大写Sigma）表示总和运算符。设x1x2…xn为numbe序列

这个字母i被称为求和的索引。其他的字母，如j或k，有时被用作总和的索引。下标变量只是表示一个随机变量的一个特定值，x。数字1和n分别是求和的下限和上限。这个表达式可以用单词表示为“从1到n的所有值的数字xi之和。”一个例子可以帮助澄清：

求和运算符有三个属性。第一个属性称为常量规则。形式上是：

让我们考虑一个例子。假设我们得到：

求和运算符的第二个属性是：

让我们再举一个例子。

假设我们被给定了：我们可以应用这两个属性来得到以下第三个属性

在离开求和运算符之前，还要注意那些不是该运算符的属性的东西也很有用。首先，一个比率的总和并不是这些总和本身的比率

第二，某个平方变量的求和并不等于其求和的平方。

我们可以使用求和指标来进行一些计算，其中一些我们将在这本书的过程中重复地做。例如，我们可以使用求和算子来计算平均值：其中，其中，

为随机变量xi的平均值（平均值）。我们可以做的另一个计算是一个随机变量的平均值。与平均值之间的偏差之和总是等于0：

如表5所示。考虑两个数字的序列，{ }和{ }。现在我们可以考虑x和y数列的可能值的双和。例如，考虑n=m=2的情况。然后，等于x1y1+x1y2+x2y1+x2y2。这是因为：

在整本书中非常有用的一个结果是：下面是一个过长的、一步一步的证明。请注意，在第一行之后抑制求和索引，以便便于阅读。

此结果的一个更一般的版本是：

或者，

一个随机变量的期望值，也称为期望，有时也称为总体均值，只是该变量可以接受的可能值的加权平均值，权重由总体中每个值发生的概率给出。假设变量X可以取值x1、x2、...、xk，每个值的概率分别为f（x1）、f（x2）、...、f(xk)。然后，我们将X的期望值定义为：

让我们来看一个数值例子。如果X的值分别为-1、0和2，概率分别为0.3、0.3和0.4。6那么，X的期望值等于：

事实上，您也可以期望使用该变量的一个函数，比如X2。请注意，X2取值-1,0和4，概率分别为0.3、0.3和0.4。因此，计算X2的期望值为：

期望值的第一个属性是，对于任何常数c，E(c)=c。第二个属性是，对于任意两个常数a和b，则是E(aX+b)=E(aX)+E(b)=aE(X)+b。第三个属性是，如果我们有许多常数， ,许多随机变量，X1，……，Xn，那么下面是正确的：

我们也可以用期望算符来表达它：

在ai=1的特殊情况下

方差

期望运算符E（.）是一个总体概念。它指的是整个群体，而不仅仅是我们可用的样本。它的意思与种群中一个随机变量的平均值有些相似。期望算子的一些附加性质可以解释为假设两个随机变量，期望算子W和H。

考虑一个随机变量W的方差：

我们可以展示

在一个给定的数据样本中，我们可以通过以下计算来估计方差：

其中我们除以n−1，因为我们正在通过估计平均值进行度差调整。但在大样本中，这种自由度调整对S2的值没有实际影响，其中是与平均值的所有平方偏差的平均值（经过一个自由度修正后）。

还有几个方差的特性。首先，一条直线的方差为：

并且一个常数的方差为0（即，任意常数的V(c)=0，c）。两个随机变量之和的方差等于：

如果这两个变量是独立的，则E(XY)=E(X)E(Y)和V(X+Y)等于V(X)+V(Y)之和.

协方差

方程2.22的最后一部分称为协方差。协方差度量了两个随机变量之间的线性依赖性。我们用C（X,Y）运算符来表示它。表达式C(X，Y)>0表示两个变量向相同的方向移动，而C(X，Y)<0表示它们向相反的方向移动。因此，我们可以将方程2.22重写为：

虽然我们很容易说，零协方差意味着两个随机变量是不相关的，但这是不正确的。它们可能有一个非线性的关系。协方差的定义是

正如我们所说，如果X和Y是独立的，那么C(X，Y)=0。两个线性函数之间的协方差为：

两个常数，a1和a2，零因为它们的平均值是本身，所以差等于0。解释协方差的大小可能很棘手。为此，我们可以更好地观察相关性。我们对相关性的定义如下，

。然后：

相关系数以−1和1为界。正（负）相关表示变量以相同（相反）的方式移动。系数越接近1或−1，线性关系就越强。

总体模型

我们从横断面分析开始。我们将假设我们可以从感兴趣的人群中收集一个随机的样本。假设有两个变量，x和y，我们想看看y如何随着x的变化而变化。有三个问题会立即出现。

第一，如果y受到除x以外的因素的影响呢？我们该如何处理这个问题呢？

第二，连接这两个变量的函数形式是什么？

第三，如果我们对x对y的因果效应感兴趣，那么我们如何区分它与单纯的相关性呢？让我们从一个特定的模型开始。

假设这个模型在总体中成立。方程2.25定义了一个线性双变量回归模型。对于涉及捕获因果效应的模型，左边的术语通常被认为是效应，右边的术语被认为是原因。公式2.25明确允许其他因素通过为误差项u包含一个随机变量来影响y。这个方程还通过假设y线性依赖于x，明确地模拟了函数形式。我们称β0系数为截距参数，我们称β1系数为斜率参数。这些都描述了一个总体，我们在实证工作中的目标是估计它们的价值。我们从未直接观察过这些参数，因为它们不是数据（我将在整本书中强调这一点）。然而，我们可以做的是使用数据和假设来估计这些参数。为此，我们需要可靠的假设来用数据准确地估计这些参数。我们稍后将回到这一点上。在这个简单的回归框架中，所有决定y的未观察到的变量都由误差项u包含。首先，我们做出了一个简化的假设，而不丧失一般性，

其中，E（.）是前面讨论的期望值算符。如果我们将u随机变量归一化为0，就没有任何影响了。为什么？因为β0（截距项）的存在总是允许我们有这种灵活性。如果u的平均值与0不同，例如，说它是，那么我们就调整截距。但是，调整截距对β1斜率参数没有影响。例如：

其中为。新的误差项是，新的截距项是。但是，虽然这两个术语改变了，但请注意那些没有改变的东西：斜率，β1。

样本独立性

一个假设与我们对统计数据的基本处理吻合良好的假设涉及到由x值确定的总体的每个“切片”的误差项的平均值：

其中E(u|x)是“u给定x的期望值”。如果方程2.27成立，那么我们说u是独立于x的平均值。这里的一个例子可能会有所帮助。假设我们正在估计学校教育对工资的影响，而u是未被观察到的能力。平均独立性要求E(能力|x=8)=E(能力|x=12)=E(能力|x=16)，这样在八年年级教育、十二个年级教育和大学教育的不同人群的平均能力是相同的。因为人们根据自己未被观察到的技能和属性来选择投资多少学校，方程2.27可能被违反——至少在我们的例子中是这样。但假设我们愿意做出这个假设。然后结合这个新假设，E(u|x)=E(u)（要做的非平凡假设）和E(u)=0（归一化和平凡假设），可以得到以下新假设：

方程2.28称为零条件均值假设，是回归模型中的一个关键的识别假设。因为条件期望值是一个线性算子，E(u|x)=0意味着

它显示了总体回归函数是x的线性函数，或者Angrist和Pischke[2009]称之为条件期望函数。这种关系对于参数β1作为因果参数的直觉至关重要.

普通最小二乘OLS

给定关于x和y的数据，我们如何估计总体参数，β0和β1？设(xi和yi)，当{i=1,2，…，n}是从总体中获得的随机样本。将任何观察结果插入总体方程中：

其中，u表示一个特定的观察结果。我们观察yi和xi，但无法观察ui。我们只知道u就在那里。然后，我们使用了我们前面讨论过的两个总体限制：

得到了β0和β1的估计方程。我们已经讨论到了第一个情况了。然而，第二个方法意味着x的平均值不会随着误差项的不同而变化。这种独立性假设意味着E(xu)=0，我们得到E(u)=0，和C(x，u)=0。请注意，如果C(x，u)=0，那么这意味着x和u是独立的。接下来我们插入u，它等于：

这是总体中有效决定β0和β1的两种条件。同样，请注意，这里的符号是总体概念。我们没有接触总体，尽管我们有总体的样本：

其中和是来自数据的估计值。这是两个未知数和中的两个线性方程。当我们通过这两个方程的以下样本性质时，回顾求和算子的性质。我们从方程2.29开始，并通过求和算子。

式中是n个数的平均值{i:1，....,n}。为了强调，我们将称y为样本平均值。我们已经证明了第一个方程等于零（方程2.29），所以这意味着我们现在使用这个方程用斜率来写截距：

现在我们插入到第二个方程，这给了我们以下信息（使用一些简单的代数操作）：

所以要求解的方程是

前面的公式很重要，因为它向我们展示了如何获取我们所拥有的数据并计算斜率估计。该估计，通常被称为普通最小二乘(OLS)斜率估计。当xi的样本方差不为0时，它就可以计算出来。换句话说，如果xi不是所有值都是常数，则可以计算。直觉是，x中的变化允许我们识别它在y中的影响。然而，这也意味着，如果我们观察到一个每个人都有相同学历的样本，或我们感兴趣的任何因果变量，我们就不能确定一种关系中的斜率。一旦我们计算了，我们就可以计算截距值，如。这是OLS截距估计，因为它是使用样本平均值计算的。请注意，它很简单，因为在中是线性的。使用计算机和统计编程语言和软件，我们让我们的计算机做这些计算，因为即使n很小，这些计算也相当乏味。对于任何候选估计，，我们为每个i定义一个拟合值为

回想一下，我={1，…，n}，所以我们有n个这些方程。这是我们对yi预测的值，给定了x=xi。但是有预测错误是因为y=yi。我们把这个错误称为残差，并在这里使用这个符号。因此残差等于：

虽然残差和误差项都用u表示，但知道其中的差异很重要。残差是基于拟合和实际值y的预测误差。因此，用任何数据样本都可以很容易地计算出残差。但u没有帽子是错误的术语，根据定义，它是由研究者没有观察到的事物决定的。虽然一旦通过回归和操作的几个步骤生成，残差就会出现在数据集中，但错误项将永远不会出现在数据集中。它是我们的模型没有捕获的我们结果的所有决定因素。这是一个至关重要的区别，奇怪的是，它是如此微妙，以至于即使是一些经验丰富的研究人员也难以表达它。假设我们通过对每个i的平方来衡量误差的大小。毕竟，平方它将消除错误的所有负值，从而使一切都是正值。如果我们不希望正值和负值相互抵消，这在总结误差时变得很有用。所以让我们这样做：把误差平方，把它们加起来

这个方程称为残差的平方和，因为残差。但残差是基于对斜率和截距的估计。我们可以想象对这些值的任何数量的估计。但如果我们的目标是通过选择和来最小化残差的平方和呢？使用演积分，可以证明该问题的解决解产生的参数估计与我们之前得到的相同。一旦我们有了数字和给定的数据集，我们写OLS回归线：

让我们来看看这里的输出。首先，如果您汇总数据，您将看到使用Stata的预测命令和使用生成命令手动生成拟合的值。我希望读者有机会更好地理解这一点，两者也是如此。但是第二，让我们看看数据，并在上估计系数都接近于数据生成过程中内置的硬编码值。图3、从y对x开始的双变量回归的图形表示。

一旦我们有了估计系数和OLS回归线，我们就可以预测x的任何（合理）值的y（结果）。因此，插入x的某些值，我们可以立即计算出y的误差。OLS的价值在于可以衡量误差的大小：OLS使线性函数的误差最小化。事实上，对于所有线性估计器来说，它是y的最佳猜测，因为它最小化了预测误差。换句话说，任何估计都存在预测误差，但OLS的误差是最小的。请注意，当x=0时，截距是y的预测值。在该样本中，该值为-0.0750109.13，斜率允许我们根据以下公式预测x的任何变化的y的相应变化：如果，那么x增加一个单位，在我们的数值例子中，因为。现在我们已经计算了和，我们得到了拟合的OLS,通过将x插入的以下等式中，i=1，…n:

The OLS residuals are also calculated by:

大多数残差将不同于0（即，它们不在回归线上）。您可以在图3中看到这一点。有些是正的，有些是负的。正残差表示回归线（以及预测值）低估了y的真实值，反之余数为负则代表回归线高估了真实价值。回想一下，我们定义了的因变量y的拟合值和残差ui，。请注意，残差和拟合值之间的散点图关系创建了一个球形图案，表明它们不相关（图4）。这表明最小二乘法产生的残差与拟合值不相关。这里没有魔法，是最小二乘法基本规则。

OLS的代数性质

还记得我们是怎么得到和的吗？当包含截距项时，我们有：

OLS残差加总为零，

下表（表6）总结了这方面的输出。请注意u、和列之间的差异。什么时候我们将这十条线相加，无论是误差项还是y的拟合值求和都不为零。但是残差和为零。正如我们所说，OLS系数的代数性质之一是最佳的，以确保残差和为零。由于的定义（我们也可以在表6中看到），我们可以取双方的样本平均值：

所以，因为残差和为零。同样，我们获得估计值的方法也会导致

解释变量和残差之间的样本协方差（因此样本相关性）始终为零（见表6）。

因为是xi的线性函数，拟合值和残差也不相关（见表6）；

最小二乘法要选择合适的和，使得这个属性成立。第三个特性是，如果我们插入x的平均值，我们就可以预测y的样本平均值。也就是说，点位于OLS回归线上，或者：

拟合优度。

对于每一个观察，我们写下

将总平方和（SST）、解释平方和（SSE）和剩余平方和（SSR）定义为

SST除以（n-1)时为的样本方差；是的样本方差，是的样本方差；。用一些简单的操作重写方程2.34：

由于方程式2.34显示拟合值与残差不相关，我们可以写出以下方程式：

假设SST＞0，我们可以定义的总变化的分数，这是由（或OLS回归线）解释的。

这叫做回归的R平方。可以证明它等于yi和之间相关性的平方。因此。表明和之间没有线性关系，表示一个完美的线性关系（例如，Yi＝Xi＋2）。随着R2的增加，yi越来越接近OLS回归线。不过，我鼓励你不要在研究项目中专注于R平方，因为研究项目的目的是估计一些因果效应。这是一个有用的汇总度量，但它并没有告诉我们因果关系。请记住，如果您试图估计某些因果效应，那么您并不是在试图解释y的变化。R2告诉我们yi的变化有多少是由解释变量解释的。但是如果我们对单个变量的因果效应感兴趣，R2是不相关的。对于因果推断，我们需要方程2.28。 OLS的期望值。到目前为止，我们的动机很简单使用总体模型进行回归。但我们的分析完全是基于数据样本的代数分析。所以，当我们对样本应用OLS时，无论基础模型如何，残差平均值为零。

但我们的工作越来越艰难。现在我们必须研究OLS估计的统计特性，参考总体模型并假设随机抽样。数理统计领域与问题有关。估计在不同的数据样本中表现如何？例如，平均而言，如果我们反复取样，我们会得到正确的答案吗？我们需要找到OLS估计器的期望值——实际上是所有可能的随机样本的平均结果，并平均确定我们是否正确。这就自然而然地产生了一种称为无偏的特征，即所有估计量的期望值

记住，我们的目标是估计β1 ，这是描述y和x之间关系的斜率总体参数。我们的估计是针对特定样本获得的参数的估计。不同的样本将产生不同的估计( )对于“真实”（和未观察到的）β1。无偏性意味着，如果我们可以从总体中抽取任意多个随机样本，每次计算一个估计值，估计值的平均值将等于β1。 OLS无偏需要几个假设。

第一个假设在参数中称为线性。

假设一个总体模型

其中β0和β1为未知总体参数。我们视x和u是一些数据生成过程生成的随机变量的结果。因此，由于y是x和u的函数，因此它们是随机的，那么y也是随机的。说明这一假设正式表明我们的目标是估计β0和β1。

我们的第二个假设是随机抽样。

我们有一个随机的样本大小为n，{（xi，yi）：i=1，…，n}，遵循总体模型。我们知道如何使用这些数据通过OLS估计β0和β1。因为每个i都是从总体中抽取的，我们可以为每个i写 :

注意，这里的ui是观察i未观察到的错误。这不是我们根据数据计算的残差。

第三种假设称为解释变量中的样本变化。

也就是说，xi上的样本结果并非都是相同的值。这与说x的样本方差不是零是一样的。实际上，这根本不是假设。如果xi的所有值都相同（即常数），我们就无法了解X如何影响总体中的Y。回想一下，OLS是y和x的协方差除以x的方差，因此如果x是常数，那么我们除以零，OLS估计量是未定义的。有了第四个假设，我们的假设开始有了真正的根据。

零条件平均假设

可能是因果推理中最关键的假设。在总体中，给定解释变量的任何值，误差项的平均值为零：

这是证明OLS无偏的关键假设，一旦我们假设不随x变化，零值就不重要。请注意，我们可以计算OLS估计值，无论该假设是否成立，即使存在潜在风险总体模型。那么，我们如何证明是β1的无偏估计（方程式2.37）？我们需要证明，在我们刚才概述的四个假设下，当对随机样本进行平均时，的预期值将以β1的真实值为中心。这是一个微妙但关键的概念。在这种情况下，无偏意味着如果我们重复从总体中采集数据，并对每个新样本进行回归，所有这些估计系数的平均值将等于β1的真实值 . 我们将通过一系列步骤来讨论答案。第一步：写下一个公式。使用以下形式很方便

未完待续