计量笔记专栏

计量笔记(一) | OLS估计量推导

前言

前面通过计量笔记(一) | OLS估计量推导和计量笔记(二) | OLS估计量性质我们已经推导出了参数的OLS估计量的矩阵表达式即，以及证明了在经典假设成立的条件下参数的OLS估计量的矩阵表达式是最佳线性无偏估计量，以及随机扰动项的无偏估计

接下来就是要对线性模型进行检验，所谓检验可以分为经济意义检验和统计准则检验，经济意义检验就是判断估计参数的正负号以及大小是否恰当，只有通过经济意义检验才能进行统计准则检验。统计准则检验包括拟合优度检验（检验）、回归模型总体显著性检验（检验）、回归系数的显著性检验（检验）

拟合优度检验

拟合优度是指多元线性回归估计模型对观测值之间的拟合程度，直观上理解是观测值样本点离拟合回归直线上有多近。高斯-马尔可夫定理：在线性模型的经典假设下，参数的最小二乘估计量是线性无偏估计量中方差最小的估计量（BLUE估计量）。但是拟合程度有多好，需要构建拟合优度指标进行衡量

首先需要对进行总变差分解：

下面要先插入OLS的正交性问题

我们在计量笔记(一) | OLS估计量推导中得出，由于，所以可以得出下式

两个向量之间的积为0，说明两个向量之间是正交的，由此可见残差向量与常数向量正交（残差之和为0）、与解释向量正交，与拟合值向量正交

如何理解残差向量与拟合值向量正交？由可知，拟合值为被解释变量向解释变量超平面的投影，而残差就是拟合值到解释变量超平面的点到平面的垂直距离（妙）

言归正传，根据OLS的正交性，残差向量与拟合值向量和常数向量正交

由此，总变差方程式可以变成下式

：总离差平方和，Total Sum of Squares, TSS，反映因变量观测值总的变异程度

：残差平方和，Residual Sum of Squares, RSS，反映因变量回归估计值总的变异程度，它是因变量观测值总变差中由解释变量解释的那部分变差，也称解释变差

：回归平方和，Explained Sum of Squares, ESS，反映因变量观测值与估计值之间的总变差

综上分析可知，总离差平方和由残差平方和和回归平方和两部分构成。显然，在总离差平方和一定时，回归平方和越大，残差平方和就会越小，那么因变量回归估计值总的变异程度越能解释因变量观测值总的变异程度，即解释变差的解释能力越强，说明回归模型对观测值的拟合程度越高

定义可决系数来描述拟合程度

定义可决系数有一个显著的特点：如果观测值不变，可决系数将随着解释变量数目的增加而增大。

直观理解是随便加入一个解释变量（即使是对观测值影响很小）也会增强解释变差的解释能力，即使这个变量与观测值无关（即系数为0），可决系数起码可以保持不变

那么是否意味着加入越多解释变量，对模型的拟合就越好呢？

在计量笔记(二) | OLS估计量性质随机干扰项方差估计中，我们用对进行估计，即

有些解释变量对观测值影响很小，增加这些变量对减少残差平方和没有多大作用，但是引入解释变量的数目越多，越大，如果残差平方和减小不明显，那么估计值就会增大，而的增大对于推断参数的置信区间以及对于预测区间的估计，都意味着精度的降低。

为了解决这个问题，引入修正可决系数

如果增加一个对观测值影响较大的变量，那么残差平方和减小比减小更显著，修正可决系数就会增大；如果增加一个对观测值影响较小的变量，那么残差平方和减小没有减小显著，修正可决系数就会减小，说明不应该引入这个解释变量

修正可决系数与可决系数有何联系

由于、、均大于0，可知

即修正可决系数不大于可决系数

修正可决系数有可能是负值

修正可决系数有可能是一个负值，即，这种情况下会有

所以，当时，，这种情况下使用修正可决系数将失去意义，作处理。所以修正可决系数只适用于因变量与解释变量的整体相关程度比较高的情况，因为只有在这种情况下才不会小于

欢迎关注微信公众号：乌龙PySta （ID: wylcfy2014）
不定期推送python和stata笔记，经管文本分析与机器学习

参考资料

[1] 朱建平等，高级计量经济学导论

[2] 孙敬水，中级计量经济学

[3] 陈强，计量经济学与stata应用