张春成
2022/01/01阅读:70主题:默认主题
方差分析(四)
方差分析(四)
本篇将考察方差分析何时会给出错误的判断, 这种问题很有用,却鲜有人提及。
直面错误
分析错误是相当困难的事情, 因为这涉及一个最基本的数学问题,
对于特定的问题,其正确的解释往往只有几种; 但除了这有限的几种之外, 其他所有的可能性都属于错误。
因此,错误是一种“取之不尽、用之不竭”的资源。 也因此,本文只针对典型的错误情况进行分析。
协变方差带来的错误
这种错误是由于样本方差受到类别的影响, 而与样本类别产生协变的方差会导致方差分析给出错误的结果。
这个现象可以用如下实验来说明
-
首先生成一组模拟数据, 生成的方式与前文相同, 唯一不同的是, 两类数据之间没有均值的差异, 它们的差异在于方差不同
Raw -
之后对它进行方差分析,方法同样与上文[1]相同, 得到的结果如下图
Var
实验结果就展示了这样一种典型错误, 就是说,在均值没有差异的情况下, 方差分析给出了显著差异的结果, 并且所检测出的显著差异的位置与实际的类别分割位置“大致相同”。
但时刻记住, 方差分析的目的是检验出不同类别样本的均值差异, 因此,这无疑是一个错误。
协议变分布带来的错误
这种错误是由于样本分布受到类别的影响, 用同样的方法构造数据,并进行分析
-
模拟数据的生成方式与之前相似, 不同的是没有采用方差差异, 而是在另一类中使用指数分布生成随机数值
Raw-Diff-Normal 两段数据的均值同样是相同的;
-
对它进行方差分析得到下图
Var-Diff-Normal 可以看到,之前方差分析中的规律性在这组数据中灰飞烟灭。 在这里甚至也找到了显著的组间差异, 这是方差分析面临的另一种典型错误。
-
进一步分析,对去除均值的数据值进行统计, 并求它与标准正态分布的数据的差异进行量化, 得到下图
Dist-Diff-Normal 幸好,此时可以看到数据值与标准正态分布具有显著的差异, 这说明我们“也许”能够通过检测样本数值分布与正态分布的差异, 判定方差分析的结果是否面临这种风险。
错误的规避
规避这种错误的方式有很多,
-
一个方式是进行事后检验, 即直接对分割出的均值差异进行检验。 这种方式的逻辑是这样的
方差分析检验得到的差异有可能是错的, 但它有很大的概率包含正确的差异结果。 因此,在其判定差异的范围内, 对类别的均值差异进行检验,就可以有效规避以上的错误。
因此,这种事后检验的方式不仅仅是为了确定差异的方向, 更加是为了避免协变方差造成的伪差异;
-
另一个方式是直接对去除类别均值后的样本的分布进行检验, 检验它是不是服从正态分布, 同时检验它的方差是不是一致, 以及样本数值是否服从正态分布。
以上是规避典型错误的基本思路, 这也是为什么进行方差分析之前需要进行样本的正态性检验; 以及为什么要进行事后均值检验的原因。
参考资料
上文: http://mp.weixin.qq.com/s?__biz=MzkxNTI1MDc5NA==&mid=2247484953&idx=1&sn=e50719994cfc132dc5907a7c017beaa5&chksm=c1634d1cf614c40aef3c0b9fb61388c6f3adc82dc7324029d40cf89bde2788e7aee4b9108fff&token=72310936&lang=zh_CN#rd
作者介绍