张春成

V2

2022/01/01阅读:70主题:默认主题

方差分析(四)

方差分析(四)

本篇将考察方差分析何时会给出错误的判断, 这种问题很有用,却鲜有人提及。


直面错误

分析错误是相当困难的事情, 因为这涉及一个最基本的数学问题,

对于特定的问题,其正确的解释往往只有几种; 但除了这有限的几种之外, 其他所有的可能性都属于错误。

因此,错误是一种“取之不尽、用之不竭”的资源。 也因此,本文只针对典型的错误情况进行分析。

协变方差带来的错误

这种错误是由于样本方差受到类别的影响, 而与样本类别产生协变的方差会导致方差分析给出错误的结果。

这个现象可以用如下实验来说明

  • 首先生成一组模拟数据, 生成的方式与前文相同, 唯一不同的是, 两类数据之间没有均值的差异, 它们的差异在于方差不同

    Raw
    Raw
  • 之后对它进行方差分析,方法同样与上文[1]相同, 得到的结果如下图

    Var
    Var

实验结果就展示了这样一种典型错误, 就是说,在均值没有差异的情况下, 方差分析给出了显著差异的结果, 并且所检测出的显著差异的位置与实际的类别分割位置“大致相同”。

但时刻记住, 方差分析的目的是检验出不同类别样本的均值差异, 因此,这无疑是一个错误。

协议变分布带来的错误

这种错误是由于样本分布受到类别的影响, 用同样的方法构造数据,并进行分析

  • 模拟数据的生成方式与之前相似, 不同的是没有采用方差差异, 而是在另一类中使用指数分布生成随机数值

    Raw-Diff-Normal
    Raw-Diff-Normal

    两段数据的均值同样是相同的;

  • 对它进行方差分析得到下图

    Var-Diff-Normal
    Var-Diff-Normal

    可以看到,之前方差分析中的规律性在这组数据中灰飞烟灭。 在这里甚至也找到了显著的组间差异, 这是方差分析面临的另一种典型错误。

  • 进一步分析,对去除均值的数据值进行统计, 并求它与标准正态分布的数据的差异进行量化, 得到下图

    Dist-Diff-Normal
    Dist-Diff-Normal

    幸好,此时可以看到数据值与标准正态分布具有显著的差异, 这说明我们“也许”能够通过检测样本数值分布与正态分布的差异, 判定方差分析的结果是否面临这种风险。

错误的规避

规避这种错误的方式有很多,

  • 一个方式是进行事后检验, 即直接对分割出的均值差异进行检验。 这种方式的逻辑是这样的

    方差分析检验得到的差异有可能是错的, 但它有很大的概率包含正确的差异结果。 因此,在其判定差异的范围内, 对类别的均值差异进行检验,就可以有效规避以上的错误。

    因此,这种事后检验的方式不仅仅是为了确定差异的方向, 更加是为了避免协变方差造成的伪差异;

  • 另一个方式是直接对去除类别均值后的样本的分布进行检验, 检验它是不是服从正态分布, 同时检验它的方差是不是一致, 以及样本数值是否服从正态分布。

以上是规避典型错误的基本思路, 这也是为什么进行方差分析之前需要进行样本的正态性检验; 以及为什么要进行事后均值检验的原因。

参考资料

[1]

上文: http://mp.weixin.qq.com/s?__biz=MzkxNTI1MDc5NA==&mid=2247484953&idx=1&sn=e50719994cfc132dc5907a7c017beaa5&chksm=c1634d1cf614c40aef3c0b9fb61388c6f3adc82dc7324029d40cf89bde2788e7aee4b9108fff&token=72310936&lang=zh_CN#rd

分类:

数学

标签:

数学

作者介绍

张春成
V2