方差分析（四）

本篇将考察方差分析何时会给出错误的判断，这种问题很有用，却鲜有人提及。

方差分析（四）
直面错误
协变方差带来的错误
协议变分布带来的错误
- 错误的规避

直面错误

分析错误是相当困难的事情，因为这涉及一个最基本的数学问题，

对于特定的问题，其正确的解释往往只有几种；但除了这有限的几种之外，其他所有的可能性都属于错误。

因此，错误是一种“取之不尽、用之不竭”的资源。也因此，本文只针对典型的错误情况进行分析。

协变方差带来的错误

这种错误是由于样本方差受到类别的影响，而与样本类别产生协变的方差会导致方差分析给出错误的结果。

这个现象可以用如下实验来说明

首先生成一组模拟数据，生成的方式与前文相同，唯一不同的是，两类数据之间没有均值的差异，它们的差异在于方差不同

Raw
之后对它进行方差分析，方法同样与上文^[1]相同，得到的结果如下图

Var

实验结果就展示了这样一种典型错误，就是说，在均值没有差异的情况下，方差分析给出了显著差异的结果，并且所检测出的显著差异的位置与实际的类别分割位置“大致相同”。

但时刻记住，方差分析的目的是检验出不同类别样本的均值差异，因此，这无疑是一个错误。

协议变分布带来的错误

这种错误是由于样本分布受到类别的影响，用同样的方法构造数据，并进行分析

模拟数据的生成方式与之前相似，不同的是没有采用方差差异，而是在另一类中使用指数分布生成随机数值

Raw-Diff-Normal

两段数据的均值同样是相同的；
对它进行方差分析得到下图

Var-Diff-Normal

可以看到，之前方差分析中的规律性在这组数据中灰飞烟灭。在这里甚至也找到了显著的组间差异，这是方差分析面临的另一种典型错误。
进一步分析，对去除均值的数据值进行统计，并求它与标准正态分布的数据的差异进行量化，得到下图

Dist-Diff-Normal

幸好，此时可以看到数据值与标准正态分布具有显著的差异，这说明我们“也许”能够通过检测样本数值分布与正态分布的差异，判定方差分析的结果是否面临这种风险。

错误的规避

规避这种错误的方式有很多，

一个方式是进行事后检验，即直接对分割出的均值差异进行检验。这种方式的逻辑是这样的

方差分析检验得到的差异有可能是错的，但它有很大的概率包含正确的差异结果。因此，在其判定差异的范围内，对类别的均值差异进行检验，就可以有效规避以上的错误。

因此，这种事后检验的方式不仅仅是为了确定差异的方向，更加是为了避免协变方差造成的伪差异；
另一个方式是直接对去除类别均值后的样本的分布进行检验，检验它是不是服从正态分布，同时检验它的方差是不是一致，以及样本数值是否服从正态分布。

以上是规避典型错误的基本思路，这也是为什么进行方差分析之前需要进行样本的正态性检验；以及为什么要进行事后均值检验的原因。

参考资料

[1]

上文: http://mp.weixin.qq.com/s?__biz=MzkxNTI1MDc5NA==&mid=2247484953&idx=1&sn=e50719994cfc132dc5907a7c017beaa5&chksm=c1634d1cf614c40aef3c0b9fb61388c6f3adc82dc7324029d40cf89bde2788e7aee4b9108fff&token=72310936&lang=zh_CN#rd