Loading...
墨滴

精益修身

2021/05/16  阅读:41  主题:橙心

典型相关分析

Stata之典型相关分析

精益修身

典型相关分析(canonical correlation analysis)是讨论两组变量之间相关性的分析方法,是简单相关和多元相关的延伸。

1. 原理

1.1 相关关系的类型

  1. 简单相关

    简单相关是两个变量间的相关。

  2. 多变量相关分析

    多元相关是一个变量和多个变量之间的相关,及复相关系数 ,它是线性回归中拟合优度 的平方根。

  3. 典型相关分析

    典型相关讨论的是多个变量和多个变量之间的相关关系

1.2 典型相关的求解

存在两个随机向量

不失一般性,设$p

为了研究两组变量之间的关系,我们考虑他们的线性组和:

我们的目标是在 给定的情况下,找到合适的 使得 之间的相关系数最大:

由于 乘以任意常数,不改变他们的相关关系,不妨设定 ,使得 的方差为1:

所以

于是,我们可以用拉格朗日乘数法来求解 :

分别对 求偏导得方程组:

整理上式,并分别用 左乘,有

又因为

都是数,数的转置还是它本身。也就是说, 恰好等于 。 根据(1)式可得(详细求解过程见何晓群(P197)):

(2)式有非零解的充要条件是

由于 都是正定的,所以他们的逆矩阵 也是正定的。 因此(3)式中

有相同的特征根。

如果记

类似从(4)式中也可得

具有相同的非零特征根从而推出(3)和(4)的特征根是相同的。设已求得 个特征根依次为:

个特征根中,除了上面的 个外,其余 个都是0。所以取最大的 ,相应的常数向量 结合而成的就是 之间就具有最大的相关系数

1.3 性质

  1. 每一对典型变量 的标准差为1;

  2. 任意两个典型变量 彼此不相关,任意两个典型变量 彼此不相关,且当 时, 也不相关。

  3. 同一对典型变量 的相关系数是

    用数学公式来表达就是:

1.4 显著性检验

如果向量 不相关,则协方差矩阵 仅包含0,因而典型相关系数

都变为0。

这样显著性问题就变成如下检验:

如果前 个典型相关系数在水平 上是显著的,则当检验第 个典型相关系数时,计算

检验统计量:

2. Stata实例

实例为何晓群第8章例2,讨论经济发展和空气质量的相关关系 代码如下:

import delimited "D:\齐安静 教学\统计学\多元统计分析\例题数据及程序整理\例8-2.csv", clear encoding(GB18030)
label variable y1 "pm2.5"
label variable y2 "pm10"
label variable y3 "so2"
label variable y4 "co"
label variable y5 "no2"
label variable y6 "o3"
label variable x1 "地区生成总值"
label variable x2 "第二产业增加值"
label variable x3 "第三产业增加值"
label variable x4 "人均地区生成总值"
label variable x5 "生产总值增长率"
label variable x6 "固定资产"
canon (x1-x6) (y1-y6), test(1 2 3) 
predict air_qual, v correlation(1) //预测第2组变量的第一典型变量
predict eco_grow, u correlation(1) //预测第1组变量的第一典型变量
estat correlations //查看原始变量的相关系数

corr x1-x6 air eco //查看第一典型变量和经济发展的关系
corr y1-y6 air eco //查看第一典型变量和空气质量的关系

结果展示:

图1 典型相关系数及检验
图1 典型相关系数及检验

从图中结果可见,两组变量的第一典型变量之间的相关系数是显著的,但是其他组典型相关变量之间的相关系数不显著。

图2 典型变量和原始变量之间的相关矩阵
图2 典型变量和原始变量之间的相关矩阵

从上图可以看出,经济层面的第一典型变量 和经济原始变量 都是负相关,只和增长率 是正相关,表明 基本可以代表经济发展情况,只是该变量值越小,表示经济状况越好。而 和空气质量原始变量的相关系数是3正3负,因此 并不能全面代表空气质量。

和空气质量原始变量( )的相关系数来看, 负相关,与 正相关,表明经济发展水平较高的城市 浓度较高,经济发展水平较低的城市 浓度较高。

参考文献

  1. 何晓群. 多元统计分析[M]. 5版. 北京:中国人民大学出版社,2019.
  2. 王斌会. 中国大学MOOC:多元统计分析及R语言建模[OL]. [2021-5-13]https://www.icourse163.org/course/JNU-1002335007
  3. StataCorp LLC, Sturctural Equation Modeling Reference Manual[M]. A Stata Press Publication: Texas 2019.

精益修身

2021/05/16  阅读:41  主题:橙心

作者介绍

精益修身