第五章非约束排序4 对应分析（CA）

1. 对应分析概述

对应分析（correspondence analysis，CA）是分析物种有-无或多度数据最受欢迎的工具之一。原始数据首先被转化成一个描述样方对对Pearson 统计量的贡献率的矩阵，将获得的矩阵通过奇异值分解技术进行特征根（奇异值平方）和特征向量的提取。因此，CA的排序结果展示的是样方之间的距离（），而不是欧氏距离。 距离不受双零问题影响，是非对称的距离系数。因此，CA非常适用原始的物种多度数据分析（无须预转化）。

注意:

进行CA分析的数据应该是频度或类频度非负数据，而且量纲完全一样，例如物种个体计数数据、生物量或有-无数据。

由于技术上的原因（计算矩阵过程会对频度数据进行隐含中心化），CA产生的排序轴数总是比样方数（n）或物种数（p）较小者少1。和PCA一样，正交的CA排序轴所承载的变差（variation）也是按顺序逐步降低，但与PCA不同的是，这里总变差不是用总方差来表示，而是通过一个叫总惯量（total inertia，矩阵所有值的平方和）的指标来表示。单个特征根总是小于1。用每轴特征根除以总惯量表示每轴贡献率。

在CA排序图中，对象（样方）和物种通常都是用点来表示。和PCA一样，排序图也有两种标尺类型。这里以样方为行、物种为列的物种矩阵数据为例，解读这两种类型排序图：

1型标尺CA双序图：行（样方）是列（物种）的形心。如果我们感兴趣的是对象（样方）之间的关系，应该选择1型标尺CA双序图。此时在多维空间内，样方之间距离是距离。

解读：

①在降维空间（排序图）内样方之间距离近似于它们的距离，因此，在排序图上，样方点越近，代表这些样方内的物种相对多度越相似的。

②一个样方的点靠近一个物种的点，表示该物种对于该样方的贡献比较大。如果是基于物种有-无数据，表示该物种在该样方的标识很可能是1。

2型标尺CA双序图: 列（物种）是行（样方）的形心。如果我们感兴趣的是物种之间的关系，应该选择2型标尺CA双序图。此时在多维空间内，物种之间距离是距离。

解读：

①在降维空间（排序图）内物种之间距离近似于它们的X²距离，因此，在排序图上，物种点之间距离越近，代表它们的相对多度沿着样方分布越相似。

②一个物种点靠近一个样方点，表示该物种在该样方内存在的可能性很大，或是在该样方内的多度比在其他更远的样方内大。

之前提到的断棍模型同样可以用于CA排序轴数的取含。接下来将以原始的鱼类多度数据为例进行CA分析。

2. 使用vegan包里的cca( )函数进行CA分析

2.1 加载数据及数据预处理

setwd("E:/Rstudio_working/lai jian shan/DATA/Data")
# 加载包，函数和数据
library(ade4)
library(vegan)
library(gclus)
library(ape)
library(missMDA)
library(FactoMineR)

#加载本章后面部分所需要的函数
source("cleanplot.pca.R")
source("PCA.newr.R")
source("CA.newr.R")

# 导入Doubs 数据
load("Doubs.RData")
# 删除无物种数据的样方8
spe <- spe[-8, ]
env <- env[-8, ]
spa <- spa[-8, ]

2.2 运行分析和绘制双序图

首先运行CA分析，然后绘制附带断棍模型的碎石图：

# 计算CA
(spe.ca <- cca(spe))
summary(spe.ca)  # 默认 scaling 2
summary(spe.ca, scaling = 1)

第一轴有一个很大的特征根。在CA里面，如果特征根超过0.6，代表数据结构梯度明显。第一轴特征根占总惯量多少比例呢？需要注意的是，两类标尺下，特征根一样。标尺的选择，只影响用于制图的特征向量，不影响特征根。

#使用vegan包里screep1ot.cca（）函数绘制附带断棍模型的碎石图
dev.new(title = "CA特征值的碎石图", noRStudioGD = TRUE)
screeplot(spe.ca, bstick = TRUE, npcs = length(spe.ca$CA$eig))

无论是数量分析结果，还是碎石图都显示第一轴占绝对优势

现在绘制Doubs鱼类物种数据CA双序图，并比较两种标尺排序图的不同之处。

# CA 排序图
dev.new(title = "CA 排序图",
        width = 14,
        height = 7,
        noRStudioGD = TRUE
)
par(mfrow = c(1, 2))
# 1型标尺：样方点是物种点的形心
plot(spe.ca, 
     scaling = 1, 
     main = "CA fish abundances - biplot scaling 1"
)
# 2型标尺：物种点是样方点的形心
plot(spe.ca, main = "CA fish abundances - biplot scaling 2")

#可以将聚类分析的结果叠加到CA排序图

两个图中第一轴从左到右的梯度基本上代表样方从下游（样方19-30）到上游排列。这个梯度比较明显，也可以解释为什么第一轴的特征根特别大。很多物种的点靠近样方19-30，表明这些物种在下游分布更多，而在上游分布比较少，甚至没有分布。第二轴的梯度从上到下是样方从上游到中游的分布。上游与中游这两组样方的梯度比较短，可能与它们的特征种比较一致有关。2型标尺双序图展示物种组如何在样方间分布。例如，鳟鱼（Thth）、钻鱼（Cogo）和鲤鱼（Teso）在中游的样方（11-18）分布比较多，而褐簿（Satr）、欧亚鲦鱼（Phph）和泥鳅（Bab1）在中上游分布比较多（接近样方1~18）。

1型标尺和2型标尺的双序图有什么不同？

1型标尺图中样方的点是物种多度的形心，所以1型标尺图更适合解释样方之间的关系和样方的梯度排列。相反，2型标尺图物种的点是样方的形心，所以2型标尺图更适合解释物种之间的关系和梯度分布。在这两种图内，解读那些接近坐标原点的物种需要很谨慎。这种现象可以有两种解释，有可能这些物种倾向于在坐标轴所代表的生态梯度中值范围内分布；也有可能这些物种在整个生态梯度的分布比较均匀。

2.3 将新的补充样方或物种投影到CA排序图

可以使用stats包里的predict（）函数将新的补充样方或物种投影到CA双标图中。对于vegan包中的函数cca（）计算的CA，这个函数以正确的方式计算新样方的位置（加权平均数）。包含新变量的数据框必须与原始的数据框具有完全相同的行名（如果补充新物种）或列名（如果补充新样方）。

以下示例:①移除了三个样方的CA，然后将这三个样方被动投影;②移除三个物种后被动投影。

# 1型标尺CA下补充样方的投影
sit.small <- spe[-c(7, 13, 22), ]  # 去掉3个样方
sitsmall.ca <- cca(sit.small)
dev.new(
  title = "去掉3个样方的CA排序图- 标尺1",
  noRStudioGD = TRUE
)
plot(sitsmall.ca, display = "sites", scaling = 1)

# 投影3个缺失的样方
newsit3 <- spe[c(7, 13, 22), ]
ca.newsit <- predict(
  sitsmall.ca, 
  newsit3, 
  type = "wa", 
  scaling = 1)
text(
  ca.newsit[, 1],
  ca.newsit[, 2],
  labels = rownames(ca.newsit),
  cex = 0.8,
  col = "blue"
)

# 2型标尺CA下补充物种的投影
spe.small <- spe[, -c(1, 3, 10)]  # 剔除3个物种
spesmall.ca <- cca(spe.small)
dev.new(
  title = "去掉3个物种的CA排序图- 标尺1",
  noRStudioGD = TRUE
)
plot(spesmall.ca, display = "species", scaling = 2)
# 投影3个补充的物种
newspe3 <- spe[, c(1, 3, 10)]
ca.newspe <- predict(
  spesmall.ca, 
  newspe3, 
  type = "sp", 
  scaling = 2)
text(
  ca.newspe[, 1],
  ca.newspe[, 2],
  labels = rownames(ca.newspe),
  cex = 0.8,
  col = "blue"
)

2.4 环境变量的被动曲线拟和

在PCA的学习中，使用函数 envfit（）将环境变量投影到（转化的）鱼类数据的PCA双序图。但是，线性拟合和箭头投影仅考虑物种-环境的线性关系。那如何在非线性基础上研究选定的环境变量与排序结果的关联关系，这时就可以在排序图上拟合这些环境变量的趋势面。

使用函数envfit（）作为第一步运算，但这次要使用公式模式，并将后加的环境变量限定为2个。该曲线拟合本身是由vegan包里实现广义可加模型平滑二维样条法（GAM）的 ordisurf（）函数完成。下面，使用水体流量（dis）和铵浓度（amm）两个变量，如图5.2所示，这两个因子都很重要，并且没有过度相关，比较合适。

接下来我们将添加两个选定环境变量拟合曲面到排序图中：

#CA双序图的曲线拟和
dev.new(
  title = "CA 双序图带环境变量",
  noRStudioGD = TRUE
)
plot(spe.ca, main = "CA 鱼类多度数据-2型标尺", 
     sub = "拟和曲线：水体流量（红色），铵浓度（绿色）")
spe.ca.env <- envfit(spe.ca ~ dis + amm, env)  #第一步运算
plot(spe.ca.env)  # 双箭头
ordisurf(spe.ca, env$dis, add = TRUE)
ordisurf(spe.ca, env$amm, add = TRUE, col = "green")

可以看到dis（红线）拟合曲面是强烈的非线性，而amm（绿线）表面由平行线组成，表示是线性拟合。

2.5 基于CA排序轴重排数据表格

可以用CA第一轴排序结果重新排列数据表格。可以使用vegan 包里的vegemite（）函数输出排序结果，对数据表格进行重新排列。也可以通过tabasco（）函数将表变成热图：

# 根据CA结果的物种数据的重排
vegemite(spe, spe.ca)
# 根据CA结果的物种数据的重排后的热图
dev.new(
  title = "CA- 物种数据的重排后的热图", 
  noRStudioGD = TRUE
)
tabasco(spe, spe.ca)

请注意，此表中物种排列顺序和样方排列顺序依赖于排序轴的方向（其实是任意的）。可以发现，单纯基于第一轴的结果重新排列数据表格，并没有选到最性的效果。因为第二轴所反映的上游（样方1~10）到中游（样方11-18）梯度，以及这些样方的特征种，在这个表格里并没有聚集，而是分散的。

好了，这次主要讲了对应分析的概念、如何使用vegan包的cca( ) 函数来进行CA分析，以及如何添加新的点到补充样方等，有什么问题欢迎留言讨论，下一次将继续CA对应分析的其他内容。

如有不足或错误之处，请批评指正。有什么不明白的也欢迎留言讨论。

欢迎关注微信公众号：fafu 生信小蘑菇

往期内容：

《数量生态学：R语言的应用》第三章-R模式

《数量生态学：R语言的应用》第二版第三章-关联测度与矩阵------Q模式

《数量生态学：R语言的应用》第二版笔记2

《数量生态学——R语言的应用》第二版阅读笔记--绪论和第二章（一部分）

R语言 pheatmap 包绘制热图（基础部分）

R语言pheatmap包绘制热图进阶教程

使用PicGo和gitee搭建图床

组间分析—T检验、R语言绘图

Rmarkdown的xaringan包来制作PPT

htlm文件部署到个人网站

感谢你的阅读！！！你的点赞关注转发是对我最大的鼓励。