Loading...
墨滴

张春成

2021/12/30  阅读:26  主题:默认主题

方差分析(三)

方差分析(三)

本文对随机数据的方差与分割之间的关系进行简要的可视化。 通过可视化的结果可以看到, 建立线性模型的过程,可以形象地看作是一种规划过程; 而方差分析,是对这种规划过程的合理性进行判定。


数据规划

首先生成一组模拟数据,作为可视化的基础

Anova 3 Raw
Anova 3 Raw

图中蓝色和红色点集具有相同的分布; 为了显示清楚,红色的点值被 从而与蓝色点集分开; 且红色点集为蓝色点集的“随机排序”。

而蓝色点集是两个正态总体的并集,

  • 总体 ,包含1000个样本,满足
  • 总体 ,包含1000个样本,满足

一个有效的线性模型,应该能够对两个集合进行区分

其中, 变量代表对样本进行分割的替身变量, 代表服从正态分布的系统性噪声。

这是一个典型的线性规划问题,

按照替身变量 把样本点分为两类, 使线性方程得到满足。

满足该方程的代价函数可以表示两项

  • 第一项是类间差异项

    它代表分割后两类样本之间的均值差异, 我们希望它尽量大;

  • 第二项是类内差异项

    它代表分割后,且除去类别均值的影响后,样本的差异。 我们希望它尽量小, 但不知道是幸运还是不幸, 数学上有无数定理保证它永远不会小于特定值, 这个特定值就是

    这就是说一般情况下, 没有人确切地知道它的具体值, 但可以保证它是正的,且不会为零;

  • 因此,我们可以将寻找最优线性模型的问题等价于求解以下问题

    而方差分析的目的, 就是检验这种分割是否有效。

方差分析

为了说明方差分析所进行的计算, 我将数据进行“随机”分割, “随机”的方法采用伪随机方式。 即以数据中值为基础, 对数据进行“对半”分割, 在对半分割的基础上, 分别将分割点进行左、右移动, 从而遍历连续的分割方式。 共进行随机分割500次。

对蓝色点集进行分割, 得到类间和类内(2类)方差的统计结果如下图

Data1 3D
Data1 3D

图中将类间和类内(2类)的方差值分别作为点的x, y, z坐标值, 点的颜色代表对该分割方式, 进行方差分析得到的F统计量值。

可见,统计量的整体分布呈现对称模式, 越靠近中心,其F值越大, 代表两类样本越“不可能来自同一个正态总体”。

相应的,为了说明验证效果的有效性, 我们对红色点集进行同样的计算, 得到下图

Data2 3D
Data2 3D

可以看到,由于红色点集是顺序打乱的点集, 因此,我们看到不同的分割方案得到的结果几乎没有明显规律, 其F值也更加不容易突破“显著”条件。 这说明同样的分割方案, 无法在红色点集上,对数据进行有效的分割。

但是,需要说明的是, 红色点集的二阶统计量也并非毫无规律可循, 可见下图

Data2 2D
Data2 2D

该图是三维视图在二维平面的映射图, 可以看到,虽然类内方差取值范围较大, 但两类的类内方差始终满足对应关系

其中, 代表特定数值。 这一点可以从趋势线看到。

更有趣的是蓝色点集的二维视图

Data1 2D
Data1 2D

它说明类内方差的来源非常单调, 只来源于分割方法不合适带来的类别错配。

当然,以上结论只适用于如此简单的数据集。 它与实际数据相比,缺少了至关重要的一个成分, 那就是“协变”。

这将是下一篇的内容, 在此只给出一个简单的例子, 对于蓝色点集的分布模式, 我适当地增加一个类别样本方差, 就会得到这样的二维分布图

Data3 2D
Data3 2D

可以看到,在协变量出现后, 原来的美好关系荡然无存。 下一篇将深入探究这一点。

张春成

2021/12/30  阅读:26  主题:默认主题

作者介绍

张春成