Loading...
墨滴

thomas

2021/04/09  阅读:62  主题:橙心

分组变量检验与相关性分析

分组变量检验与相关性分析

上节回顾

描述性统计与分位数回归

1、各组完成对中国、内蒙古和二连CD生产函数

2、描述性统计的实现

3、分位数回归的实现


作业汇报


本节内容

分组变量假设检验

相关性分析

回归分析

正态性检验

图形检验

异方差调整

多重共线性调整


分组变量假设检验

有时候,我们想看看不同类的组有什么差别。

比如药物/疫苗是否有效。

不同组员工/学生是否具有同样的效率

不同特征的人得或不得某种疾病的概率是否相同。

这时候,我们需要引入分组变量假设检验。

假设检验的原理

一个例子

以下使用美国高血压样本数据。

webuse bplong,clear

t检验

ttest 变量,by (分组变量)

stata结果表明,性别不同,血压明显不同。男性大约高于女性7个血压值。


再看非参数检验

参数检验要求变量具有大样本或正态性特征,而非参数检验则无此要求,如果是小样本或分布不确定,则可以考虑非参数检验。适合参数检验的,同样也能做非参数检验。

ranksum 变量,by (分组变量)

菜单命令搜索>非参数检验>wilcoxon秩和检验

同样表明,分组变量水平显著不同。


相关性分析

pwcorr 因变量 自变量1 自变量2...自变量n,sig

如果是所有变量相关性分析,则可以缺省所有变量

pwcorr ,sig

得到


试一下回归分析

各组试一下自己做回归分析


数据正态性检验

sktest varname
swilk varname

其中sktest基于变量的偏度和斜度(正态分布的偏度为0,斜度为3),swilk基于Shapiro-Wilk检验。这两个检验的零假设为变量服从正态分布。它们都给出p值,p值越小,越倾向于否定零假设,也就是变量越有可能不服从正态分布。

无法在0.05水平以下否定正态分布假设。

更简单以下,可以考虑使用核密度图形检验

基本上符合整体分布!


作图

图形>直方图

大家可以自己尝试做散点图


异方差调整

什么是异方差

简言之,不满足回归分析的同方差要求

很难说,有可能存在异方差。

所以,保险的办法是,处理一下异方差问题。(或者,将处理和不处理的结果同时汇报,以示严谨性)

以下是不处理,直接回归的结果。

处理异方差,只需要在原有回归命令后面增加robust即可,

regress lexp region popgrowth gnppc safewater

regress lexp region popgrowth gnppc safewater,robust

结果如下 对比发现,没有太大区别,这可能表明异方差不严重。


多重共线性及VIF

多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

使用方差膨胀因子vif命令检查

vif

如果vif值不超过10则,不用处理多重共线性问题。


课后作业

第3、5、8组,搜集1978年以来日本数据(劳动力、资本和GDP);

第6、7组,搜集1978年以来韩国数据(劳动力、资本和GDP);

第1、2组,搜集1978年以来美国数据(劳动力、资本和GDP)

各组使用今天所学统计方法,对各国生产函数进行检验、回归和作图。


本讲回顾

单变量分组检验
相关性分析
回归分析
数据正态性检验
作图分析
异方差检验与调整
多重共线问题及方差膨胀因子

thomas

2021/04/09  阅读:62  主题:橙心

作者介绍

thomas