Loading...
墨滴

精益修身

2021/05/22  阅读:56  主题:橙心

方差分析

方差分析

精益修身

举个例子

  • 怎么比较多个总体间的均值? 图1 一个例子

为什么不能两两比较

假设有四个总体均值要进行比较。

如果考虑两两比较,每次比较的显著性水平 ,每次比较中不发生错误的概率就是

次两两比较都不发生错误的概率就只有

如果比较的类别继续增加,两两比较的结论就很难以令人信服。

因此我们需要用一个合理的方法进行多总体的均值比较,这个方法就是方差分析

方差分析的推导

数据结构

height:13cm
height:13cm

一些准备性的概念

总平方和=组间+组内

F统计量的构造

组内平方和

态同方差假设下,所有数据都服从

组间平方和

如果原假设成立,则有:

方差分析的思路

  • “平方和”反映的是随机变量偏离均值的误差,平方和越大意味着误差越大。
    • 组内平方和反映的是随机误差
    • 组间平方和则既包含随机误差,也包括系统误差
  • 如果原假设是正确的,意味着不存在系统误差,则F值应该是接近于1。
    • 反之,如果F值很大,则说明存在系统系统误差,即各组间均值存在差异。

Stata代码及结果

import excel using 例10.1.xlsx , sheet("Sheet1") cellrange(F2:G24) clear //导入数据
oneway complaints firm //单因素方差分析
图4 运行结果
图4 运行结果

第2个命令:anova

anova用于多因素方差分析

图5 anova的结果
图5 anova的结果

注意事项

  1. 检验方差齐性 要求不高,只要是9倍以内的差异就行。
anova complaints firm
estat hettest

******如果方差不齐,可以用k-w检验
kwallis complaints, by(firm)
  1. 正态性检验 要求不高,只要是对称分布就行。
sktest complaints //偏度峰度检验
swilk complaints //适合小样本

******ksmirnov方法,适合大样本
summ comp, detail
ksmirnov comp = normal((comp-r(mean))/r(sd))

方差分析是一种特殊的回归

3种方法的展示

anova complaints firm
regress, baselevels //回归形式
*用xi命令进行回归并生成指示变量。
xi: reg complaints i.firm
*用tab生成指示变量并做回归
tab firm, gen(cat_) 
reg complaints cat_2-cat_4 //方差分析就是这种形式的回归

test cat_3 = cat_4
test cat_2 cat_3 cat_4

reg complaints cat_2-cat_4, r //方差不齐的情况
test cat_3 = cat_4

关系强度的度量

  • 拒绝原假设表明因素(自变量)与观测值之间有显著关系
  • 组间平方和(SSA)度量了自变量(行业)对因变量(投诉次数)的影响效应
    • 只要组间平方和SSA不等于0,就表明两个变量之间有关系(只是是否显著的问题)
    • 变量间关系的强度用自变量平方和(SSA) 占总平方和(SST)的比例大小来反映
  • 其平方根R就可以用来测量两个变量之间的关系强度

多重比较

原理

两个正态总体方差未知但相等的情形

我们将混合样本方差换成组内方差,且假定两总体的差 ,则

也就是说两样本均值差的绝对值 如果大于上述最小显著差异,则说明差异是显著的。


多重比较的灵敏度

灵敏度就是得到显著性的容易程度,灵敏度越高,意味着越容易显著。

灵敏度的排序

Bonferroni和LSD的结果对比

图6 Bonferroni和Fisher‘s LSD的比较 height:15cm

双因素方差分析

  • 单因素方差只考虑一个分类变量对数值变量的影响。但是现实中有时候需要多个因素对数值型变量的影响。多因素方差分析和双因素方差分析的思路类似,因此本章只介绍双因素方差分析
  • 双因素方差分析
    • 有交互(单元格有重复样本)
    • 无交互

无重复样本

例10.3:

构造检验统计量

有重复样本

例10.5

检验统计量

交互作用何时显著

height:15cm
height:15cm

精益修身

2021/05/22  阅读:56  主题:橙心

作者介绍

精益修身