Loading...
墨滴

精益修身

2021/05/13  阅读:159  主题:橙心

因子分析

Stata之因子分析

精益修身

1. 因子分析的基本理论

1.1 因子分析的起源

1904年,英国心理学家Charles Spearman在研究学生的成绩时候发现,学生的古典语、法语和英语成绩具有很高的相关性。Spearman考虑,学生的三门课的成绩是不是由一个潜在的因素“语言能力”来决定的呢?

这就是最早的因子分析模型。其中,语言能力 被称为公共因子(common factor),由于他们不能被观测,所以被称为潜变量(latent variables) 被称为载荷(loading); 被称为特殊因子(specific factor)

1.2 因子分析的模型

1.2.1 单因子模型

Charles Spearman提出的模型就属于单因子模型,也就是潜变量只有一个的模型。

1.2.2 正交因子模型

  1. 模型

很多情况下,一个因子往往是不够的,错综复杂的变量可能需要多个公共因子来刻画。因此我们需要学习正交因子模型(orthogonal factor model)

假设可观测随机向量 的均值为 ,协方差矩阵为 。正交因子模型假定 线性 依赖于 不可观测 的公共因子 不可观测 的特殊因子 。通常

系数 被称为第 个变量在第 个因子上的载荷,体现了该公共因子( )对此变量( )的解释力。

使用矩阵记号,上述模型可写为:

  1. 假定

关于 的假定:

  1. 推论

(1)协方差的分解

(2) 元素形式

体现的是由公共因子贡献的方差,所以被称为共同度

体现了公共因子不能解释的部分,被称为特殊度个体方差

(3)载荷 测度了第 个变量和第 个公共因子之间的关联

(4)两个变量之间的协方差是其对应载荷的乘积和。

1.3 载荷估计方法

1.3.1 主成分法

  1. 知识点回顾

因为公共因子不可观测,所以需要绕过 去估计载荷矩阵

回看正交因子模型的协方差矩阵的分解:

回想 的谱分解:

其中, 的特征对。

  1. 思路

当最后 个特征值很小的时候,我们可以忽略他们,此时

其中,

  1. 定理(主成分解)

是样本协方差矩阵S的特征值-标准化特征向量,其中 ,记 是公共因子的数目。那么因子载荷矩阵的主成分解就是

估计的个体方差 的对角元素,即

其中,

共同度

  1. 推论

(1)样本协方差阵 的对角元素与 的对角元素。然而 的非对角元素不能由 复原。

(2)因子载荷与主成分载荷成比例

(3)第 个因子对总方差 的贡献为:

贡献比例为

  1. 相关系数矩阵 代替样本协方差阵

在变量的量纲相差很大时,可以用标准化的变量进行因子分析。相当于相关系数矩阵 代替样本协方差阵

  1. 如何确定因子的个数

一般根据研究中的实际场景来确定。如果没有先验信息,如何确定 ?一个想法是,既然

剩下的元素的平方和 的特征值的和

可以参考主成分分析,评估被忽略的特征值的贡献。即使用百分比截点,平均截点和碎石图来确定m。

1.3.2 主因子法

也称为主轴因子法。主成分忽略 ,然后对 进行谱分解。而主因子法是先给定个体方差阵 ,然后对 进行主成分法的因子分析。通过迭代,直到收敛,最后得到因子载荷和个体方差。

因为 有可能不是正定的,这个方法有可能会出现负的特征值,使得结果较难解释。

1.3.3 极大似然法

如果假定共同因子 和个体因子 都服从联合正态分布,且可测变量也是独立同服从正态分布,此时也可以使用极大似然法来估计。似然函数如下:

需要增加可识别条件

1.4 因子得分

有时候研究者需要得到因子得分(Factor score),

估计因子得分有几种不同的方法,主要有:

1.4.1 加权最小二乘法

对比因子模型和回归模型:

我们可以把已经估计出来的 看作是数据矩阵 ,想要求解的因子得分 看作是待估参数 。这样我们就可以用回归模型已有的方法来求解因子得分。由于 是异方差的,因此需要用加权最小二乘法。

1.4.2 回归法

假定 服从联合正态分布:

根据多元正态分布理论,可知 在给定 的条件分布仍为正态分布,且有均值为

因此可得第 个因子得分的估计是:

1.5 因子旋转

1.5.1 因子及载荷的不唯一性

由于因子是虚拟的,因此

是等价的。其中, 是满足上述要求的任意正交矩阵。

由上可知,因子及其载荷矩阵并不是唯一的,可以按照任意的正交矩阵 提供的方向进行旋转。这种不唯一性,为因子旋转提供了理论基础。

1.5.2 直觉理解

因子旋转的时候,需要找到使得因子及其载荷的结构更简单、解释更清晰的旋转方向 。结构更简单,解释更清晰的意思就是矩阵尽量的稀疏,有些载荷很大,有些载荷很小,接近于0。

从几何角度来说,载荷矩阵 的第 行,构成了原始变量 在因子/载荷空间的坐标。因此,因子旋转的目标就是让坐标轴靠近尽可能多的点。

1.5.3 旋转的类型

  • 正交旋转(Orthogonal rotation):原来垂直的坐标轴经过旋转,仍保持垂直,只是参考系发生变化。
  • 斜交旋转(Oblique rotation):不要求轴保持垂直。

1.5.4 旋转方法

  1. 图像法
图1 原始数据
图1 原始数据
图2 画图并旋转
图2 画图并旋转

如果m=2,我们可以通过观察因子载荷坐标系来决定如何旋转坐标轴。顺时针旋转为负角度,逆时针旋转为正角度。上图中,旋转的角度为

新的旋转载荷 可以通过图像测量出来,或者通过 得到,其中

  1. 最大方差法

如果 ,此时就无法再使用作图法。最常用的方法是最大方差法,也就是寻找能够最大化载荷矩阵中每一列载荷的方差的旋转载荷。方差最大,就能够保证载荷矩阵相对稀疏。

  1. 斜交因子旋转

不像正交旋转那样使用正交矩阵 ,斜交旋转使用一个更一般的非奇异矩阵 来得到 ,那么

因此,新的因子载荷之间是相关的,不是正交的。

斜交旋转的好处是旋转后的坐标轴更容易“穿过”多数坐标点。

1.6 因子分析与主成分分析之间的差别

  1. 因子分析是一种模型,主成分分析是一种方法;
  2. 目的的不同:因子分析目的是通过公共因子解释原始变量间的相关性,主成分分析目的是通过综合指标解释个体之间的差异性
  3. 形式上的不同:因子分析中,原变量表示为因子的线性组合,主成分中,主成分是原变量的线性组合,有点儿逆运算的意思。
  4. 因子分析的估计不唯一,可以旋转,主成分的构造是唯一的。

2. Stata操作命令

clear
use $training_data/data/hxq/何晓群6-3.dta, clear
factor x1-x12, pcf
screeplot, mean
rotate
scoreplot, comp(3) xline(0) yline(0) combined msize(tiny) mlabsize(tiny) mlabel(城市)
*factor1是城市规模,factor2是基础设施,factor3是居住面积

最后得到的因子得分图如下:

图3 得分图
图3 得分图

根据得分图可以看到在2004年,北京上海是规模最大的城市,深圳是基础设施最好的城市,上海比北京的人均居住面积更大。2004年的时候去深圳发展看来是不错的选择。:)

参考文献

  1. 何晓群. 多元统计分析[M]. 4版. 北京:中国人民大学出版社,2015.
  2. 刘婧媛. 中国大学MOOC:多元统计分析[OL]. [2021-4-29]https://www.icourse163.org/course/XMU-1206305809
  3. 王群勇. Stata使用指南与应用案例[M]. 北京:中国财政经济出版社,2008.

精益修身

2021/05/13  阅读:159  主题:橙心

作者介绍

精益修身