Loading...
墨滴

精益修身

2021/05/01  阅读:25  主题:嫩青

主成分分析

Stata之主成分分析

精益修身

主成分( principal components )和因子分析( factor analysis )都是将许多相关的变量合并成少数几个潜在维度( underlying dimensions ),因而提供了用于简化( simplification )的方法。为了达到简化的目的,分析人员必须从诸多不同种类的备选方法中进行选择。如果数据的确反映了明确的数个潜在维度,那么不同方法可能会收敛于类似的结果上。但是,当不存在明确的潜在维度的情况下,不同方法得到的结果往往会出现分歧。对这些方法的试验能够告诉我们一个特定的结果的稳定性如何,或者它在多大程度上取决于特定分析技术的人为选择。

主成分不同于LDA:LDA是找到一个线性组和,最大化群体之间的距离,所以是区分不同群体的方法;主成分也是一个线性组和,但是它只有一个群体,它区分的是群体内的个体。

1. 原理

1.1 主成分的作用

1. 降维

2. 提供综合指标

1.2 基于协方差的主成分分析

(特征值的积=行列式;特征值的和=迹。)

1.3 主成分分析的几何意义

主成分分析的过程无非就是坐标系旋转的过程(矩阵A的作用),个主成分表达式就是心坐标系与原坐标系的转换关系(矩阵A)。在新坐标系下,各坐标轴的方向就是原始数据变差最大的方向。

图1 主成分分析的几何意义
图1 主成分分析的几何意义

1.4 基于相关系数矩阵的主成分分析

如果变量 的数值差距过大,协方差矩阵 生成的主成分会有方差最大的变量所主导(何晓群,多元统计分析,例题5-1)。此时,就有必要对原始数据进行标准化。

,其中,

由于 ,即 相关系数矩阵。因此对 进行主成分分析,就是对 的相关系数矩阵进行主成分分析。

对相关系数矩阵做主成分会因为标准化而丢失一些信息,因为每个变量的方差都变成1了。所以,实践时需要权衡,或者用人均变量代替总量来做协方差主成分。

1.5 主成分个数的选择

1.5.1 百分比截点法(percentage cutoff)

使用足够多的主成分来反映一定百分比(比如80%)的总方差。 这种方法的主观性很强。

1.5.2 平均截点法(average cutoff)

使用特征值大于平均特征值的主成分。如果是使用相关矩阵做主成分,平均值为1。 当数据能够在相对较小的维度进行比较完美地归纳时,特征值会明显地分为“大特征值”和“小特征值”。因此,使用平均截点方法更为合理。

1.5.3 碎石图(scree graph)

选择主成分要根据业务特点。后面的特征值如果非常小,那意味着存在着共线性问题。

图2 碎石图
图2 碎石图

1.6 理论总结:主成分的性质

  1. 主成分之间不相关
  2. 各主成分方差和等于初始变量方差和
  3. 个主成分和第 个初始变量的相关系数称为因子载荷。其中, 是第k个主成分中 的系数, 的方差, 是主成分 的方差。
  1. 个主成分的方差为第 个特征值,即
  2. 的协方差矩阵为对角阵
  3. 第k主成分的贡献率: ,累积贡献率
  4. 原始数据所有变量与第 个主成分的相关系数的平方与方差的乘积和等于第 个主成分的方差。 即每个主成分的方差可以分解到主成分与每个初始变量相关系数的平方和。
  5. 任意初始变量与所有主成分的相关系数的平方和等于1 :

证明: 向量z是随机向量y的线性组和,因此y也可以表示成为z的线性组和。因此, 的全相关系数的平方和等于1。且由于主成分之间互不相关,因此 的全相关系数的平方和就是 ,所以得证。

数学证明:

  1. 原始变量与前m个主成分相关系数的平方和就是前m个主成分对该原始变量的方差贡献率。

2. stata操作案例

2.1 stata相关命令

  1. 主命令 pca varlist [if] [in] [weight] [, options]

选项:

components(#)      保留#个主成分,factors()作用类似
mineigen(#)        保留特征值大于#; default is 1e-5
correlation        用相关系数矩阵做PCA; the default
covariance         用协方差矩阵做PCA
  1. PCA估计后命令
estat anti  反映像相关系数矩阵和反映像协方差矩阵。
            有时候翻译为负偏协方差矩阵和负偏相关系数矩阵。
estat kmo   Kaiser-Meyer-Olkin 抽样充分性测量
estat loadings  主成分载荷矩阵
estat residuals 相关系数矩阵或者协方差矩阵的残差
estat rotatecompare 比较旋转和不旋转的主成分
estat smc   复相关系数平方
estat summarize  展示统计概要
loadingplot 主成分载荷
rotate      旋转主成分载荷
scoreplot   得分图
screeplot   碎石图,刻画特征值

2.2 案例

何晓群,多元统计分析,例题5-2。

pca x1-x8 x6 x7
estat loading
estat loading, cnorm(eigen) //得到的是主成分与原始变量的相关系数的平方,即性质7
screeplot, mean
loadingplot, comp(3) 
scoreplot, comp(3) mlabel(changjia)

参考文献

  1. Hamilton, Lawrence C., Statistics with STATA: updated for version 12[M]. Boston, MA: Brooks/Cole, 2013
  2. 刘婧媛. 中国大学MOOC:多元统计分析[OL]. [2021-4-29]https://www.icourse163.org/course/XMU-1206305809?from=searchPage
  3. 王群勇. Stata使用指南与应用案例[M]. 北京:中国财政经济出版社,2008.

精益修身

2021/05/01  阅读:25  主题:嫩青

作者介绍

精益修身