Loading...
墨滴

精益修身

2021/05/13  阅读:17  主题:橙心

对应分析

Stata之对应分析

精益修身

对应分析可以概括为用可视化的方式来讨论列联表。列联表由行、列两个维度构成,每个维度又有不同的状态。如果状态较少,可以直接用列联分析就可以判断行列之间哪些状态之间有关联,但是如果状态较多,难以直观的从列联表看出行列之间哪些状态相关联。这时候就需要用到对应分析。

1. 原理

1.1 基本概念

  1. 列联表 两个变量不同状态之间交叉的频数分布表。
图2 列联表
图2 列联表
  1. 对应矩阵 两个变量不同状态之间频率分布表
对应矩阵
对应矩阵
  1. 对应矩阵的矩阵表示

  2. 行轮廓、列轮廓

    轮廓也叫做剖面,行轮廓(row profile)是就是某行的条件分布,即某行中,所有的条件概率( )。

    行轮廓各元素之和等于1,即

    列轮廓(column profile)即列的条件分布,即某列中,所有的条件概率( )。

    列轮廓各元素之和等于1,即

  3. 行中心和列中心 对于行边缘分布

    所以,行边缘分布可以看作是所有列轮廓的加权平均,即 的某种中心,即下表

r
1
2
p

上表可以看作是列轮廓矩阵

类似,有列边缘分布:

所以列边缘分布可以看成是各行轮廓的加权平均,可看成是 的某种中心,即下表:

1 2 r

上表可以看作是行轮廓矩阵

1.2 总惯量

1.2.1 距离

有了行轮廓和列轮廓的概念后,变量A(行变量)不同状态就可以用q维空间的点来表示,B(列变量)的不同状态就可以用p维空间的点来表示。而不同状态的接近程度,我们就可以用距离来表示了。

上面是普通的欧氏距离。但是这个距离在列联表中存在一个问题,即会收到变量B(列变量)的边缘分布的影响。如果B中某个状态z出现的概率很大,上面的距离公式中 的部分就会过大。为了消除这一影响,还需要在距离公式中消除列变量边缘分布的影响。这样就有加权的距离公式:

1.2.2 重心

上述行轮廓的 维坐标是加权形式 。这个坐标以 为权重,因而消除了变量B各状态概率的影响,同时它由于是条件概率, 在分布上,所以也消除了变量A各状态概率的影响。然而,我们在研究平均坐标的时候,需要注意,各行出现的概率并不相等,应该让出现概率大的状态比重大。因此可以定义按照行边缘分布 为权重加权而得的平均坐标作为重心(类似上面的中心)。其第 分量的坐标是:

所以行轮廓的重心坐标是:

可以看出,行重心和行中心的差别只是行重心开平方,而行中心没有。主要在于在计算重心的时候,用的是行轮廓的加权形式( )再求加权平均而来的,而行中心则是直接用行轮廓进行加权平均。

1.2.3 总惯量(inertia)

将行轮廓与重心之间的加权的欧式距离之和定义为总惯量,即

从总惯量的定义中可以看到总惯量有以下性质:

(1)总惯量反应的是实际频率 和期望独立频率 的差异,差异越大,表明行变量和列变量越越倾向于有较强的关联。差异越小,则表明两者越倾向于独立。

(2)总惯量度量的是行(列)轮廓的总变差,总惯量越大,表明行轮廓和列轮廓的就越离散。

(3)根据列轮廓与列重心的加权距离计算的总惯量也是

1.2.4 总惯量为0的特殊情形

总惯量为0,表示行列独立,且所有的行轮廓都相等,所有的列轮廓都相等。

如果总惯量为0,或者行列独立,就没有必要构造列联表了。

1.2.5 总惯量的分解

对应矩阵 的中心化为:

,这是对应矩阵的标准化,标准化后的对应矩阵叫做

,有

的正特征根,则总惯量

1.2.6 R型因子分析与Q型因子分析

因子分析从协方差阵开始。

因此,行轮廓的协方差阵 和列轮廓的协方差阵 具有相同的非零特征根。且由于他们都有一个特征根为0,所以在对应分析中,公共因子轴的最大维数是 。(见何晓群P177)

为对应特征根 的特征向量,则有:

因此, 就是相对于特征根 的特征向量。R型因子分析和Q型因子分析就建立了联系。

2. Stata操作实例

2.1 案例一:员工等级与吸烟行为

  1. 代码如下
use https://www.stata-press.com/data/r16/ca_smoking, clear
tabulate rank smoking
ca rank smoking //rank是行变量,smoking 是列变量
  1. 结果如图1所示
图1 对应分析结果
图1 对应分析结果
  1. 解释

从结果中可以看到,观测值是193个,列联分析的 值是16.44,对应的P值是0.1718,表明两个变量之间独立的原假设是不能拒绝的。总惯量(Total inertia)是0.0852,是由 值除以样本容量得到的。

ca命令默认的维度是2,这有助于在2维平面上作图,进行对应分析。但是第一张表中的内容不依赖于你设定的维度,因此它始终呈现的是在相关维度下的奇异值及其所解释的主惯量(principal inertia)百分比。在ca命令中,rank排在前面,所以它是行变量,smoking排在后面,它是列变量。rank有5个等级,smoking有四个等级。所以第一张表中总维度是 (其中,p是行变量的状态数,q是列变量的状态数)。第2张表中只有近似的总体质量(overall quality)依赖于维数(number of dimensions)。总体质量是各维度质量得分的总和,因此维数越多,总体质量就会越高。质量越高,行(或列)的卡方距离就越能够由模型提取的维度(extracted dimensions)代表。对于一个饱和模型,总体质量是1。

  1. 多少个维度合适

那么究竟应该留下多少个维度呢?最好是提取的维度能够解释90%的总惯量(total inertia)。当然也可以查看碎石图,找到奇异值平坦的维度就可以了。

获得碎石图的语句是

screeplot e(Sv)
  1. 对应分析图

    图2 对应分析图
    图2 对应分析图

参考文献

  1. 何晓群. 多元统计分析[M]. 4版. 北京:中国人民大学出版社,2015.
  2. 王学民. 中国大学MOOC:多元统计分析[OL]. [2021-5-11]https://www.icourse163.org/course/tufc-1003381022
  3. StataCorp LLC, Sturctural Equation Modeling Reference Manual[M]. A Stata Press Publication: Texas 2019.

精益修身

2021/05/13  阅读:17  主题:橙心

作者介绍

精益修身