数量生态学：R语言的应用—第四章聚类分析1-概述

之前我们了解了关联测度与矩阵，主要是Q模式与R模式。

从今天开始给大家带来《数量生态学：R语言的应用》—第四章聚类分析。

1.R模式思维导图

首先对昨天的R模式进行梳理一下，做一个思维导图 R模式

2. 聚类概述

在生态学研究当中，聚类的目的是识别环境中不连续对象的子集。实际上，聚类分析是所研究对象(或R模式下的变量)集合的分组。聚类分析不是典型的统计方法，因为没有检验任何统计假设，但是聚类后分组的稳健性是可以检验的。聚类分析有助于探索隐藏在数据背后的属性特征。

注意：大部分聚类方法都是基于关联矩阵进行计算，也就说明选择恰当关联系数非常重要

2.1 不同类型的聚类方法：

层次聚类的结果一般用聚类树或类树状图表示。非层次法的结果只给出所分对象(或变量)的分类组。

分类组可以进一步分析或代表最终结果，或当研究对象具有空间属性时，可以在研究区地图上标注不同的分类组

2.2 加载所需的包和数据

#加载包和数据
library(ade4)
library(adespatial)
library(vegan)
library(gclus)
library(cluster)
library(pvclust)
library(RColorBrewer)
library(labdsv)
library(rioja)
library(indicspecies)
library(mvpart)
library(MVPARTwrap)
library(dendextend)
library(vegclust)
library(colorspace)
library(agricolae)
library(picante)

#加载函数
source("drawmap.R")
source("drawmap3.R")
source("hcoplot.R")
source("test.a.R")
source("coldiss.R")
source("bartlett.perm.R")
source("boxplerk.R")
source("boxplert.R")

#从聚类结果获得二元差异矩阵的函数
grpdist <- function(X)
{
  require(cluster)
  gr <- as.data.frame(as.factor(X))
  distgr <- daisy(gr,"gower")
  distgr
  }

#导入Doubs数据
load("Doubs.RData")
#剔除无物种数据的样方8
spe <- spe[-8,]
env <- env[-8,]
spa <- spa[-8,]
latlong <- latlong[-8,] #经纬度

3. 基于连接的层次聚类

3.1 单连接聚合聚类

单连接聚合聚类也被称为最近邻体分类，该方法聚合对象的依据是最短的成对距离(或最大的相似性)：每个对象或聚类簇首次连接的列表称为主连接链，也称最小拓展树。

最经常的层次聚类分析可以通过states程序包内hclust()函数实现

#先计算样方之间的弦距离矩阵
spe.norm <- decostand(spe,"normalize")
spe.ch <- vegdist(spe.norm,"euc")

#将站点名称附加到类’dist‘的对象
attr(spe.ch,"labels") <- rownames(spe)

#进行单连接聚合聚类
spe.ch.single <- hclust(spe.ch,method = "single")

#使用默认参数选项绘制聚类树
plot(spe.ch.single,
     labels=row.names(spe),
     main="弦距离-单连接",
     xlab="单连接聚合聚类",
     ylab="高度")

基于单连接聚类的结果，我们如何描述这个数据集？是简单的单一梯度还是区分明显的样方组？能否辨认样方的连接链？样方1、5和9为什么最后连接？

3.2 完全连接聚合聚类

与单连接聚合聚类相反，完全连接聚合聚类(也称作"最远邻体分类")允许一个对象(或一个组)与另一个组聚合的依据是最远距离对。所以两个组所以成员之间的距离都必须全部计算，然后再比较。

#计算完全连接聚合聚类
spe.ch.complete <- hclust(spe.ch,method = "complete")

plot(spe.ch.complete,
     labels=row.names(spe),
     main="弦距离-完全连接",
     xlab="完全连接聚合聚类",
     ylab="高度")

当前所给的样方是沿着河流分布（样方的编号按照流向编排），这个聚类分析结果是否将位置相近的样方排在同一个组呢？两种完全有效的聚类分析方法分析同一数据，为什么产生如此不同的聚类结果呢？

从上面两种聚类树，我们可以清楚的看到两种方法聚类原理及结果的差异：

单连接聚类产生的分类组虽然不清晰，但容易识别数据的梯度。相反，完全连接聚类产生的分组间的差异比较明显，更适合去寻找和识别数据的间断分布。

4. 平均聚合聚类

平均聚合聚类是一类基于对象间平均相异或聚类簇形心的聚类方法。有四种方法，不同的方法区别在于组的位置计算方式(算数平均或形心)和当计算融合距离时是否用每组包含的对象数量作为权重。

下图是4种平均聚合聚类方法。引号内名称来自hclust（）函数内与方法对应的参数：

最有名的当属UPGMA方法，一个对象加入一个组的依据是这个对象与该组每个成员之间的平均距离。

#计算平均(UPGMA)聚合聚类
spe.ch.UPGMA <- hclust(spe.ch,method = "average")
plot(spe.ch.UPGMA,
     labels=row.names(spe),
     main="弦距离-UPGMA",
     xlab="UPGMA聚合聚类",
     ylab="高度")
#计算形心聚类
spe.ch.centroid <- hclust(spe.ch,method = "centroid")
plot(spe.ch.centroid,
     labels=row.names(spe),
     main="弦距离-形心",
     xlab="形心聚类",
     ylab="高度")

注意：UPGMC和WPGMC有时会导致聚类树翻转的现象，使得聚类树不再形成连续的嵌套分区，分类结果难以区分。

5. Ward 最小方差聚类

这是一种基于最小二乘法线性模型准则的聚类方法，分组依据是使组内平方和（即方差分析的方差）最小化。聚类簇内方差和等于聚类簇内成员间距离的平方和除以对象的数量。

# 计算Ward最小方差聚类
spe.ch.ward <- hclust(spe.ch, method="ward.D2")
#注意：在R 3.0.3 版本后，ward聚类方法的名称改为“ward.D2”，但直接写ward也可以
plot(spe.ch.ward,
     labels=row.names(spe),
     main="聚类树",
     ylab="高度",
     xlab="Ward聚类")

#使用距离平方造成此聚类树上半部分过于膨胀。为了使聚类树比例看起来
#更协调而不影响结构，可以使用当前融合水平的平方根重新绘图
spe.ch.ward$height <- sqrt(spe.ch.ward$height)
plot(spe.ch.ward,
     labels=row.names(spe),
     main="聚类树",
     ylab="高度",
     xlab="Ward聚类")

6 灵活聚类

cluster程序包内的agnes（）函数通过参数method和par.method的设置也可以实现灵活聚类。在agnes（）函数中，灵活的聚类由参数method="flexible"和参数par.method设置为向量值1、3或4来实现。其中最简单的应用是将参数设为β，因此得名“beta-灵活聚类”。

为了获得β=-0.25，给出的值是par.method=0.625，因为α=（1-β）/2=（1-（-0.25））/2=0.625。见agnes（）的帮助文档文件以获取更多详细信息。

par(mfrow = c(2, 2))

# 使用cluster程序包内的agnes（）计算beta灵活聚类
# beta = -0.1
spe.ch.beta1 <- agnes(spe.ch, method = "flexible",
                      par.method = 0.55)
# beta = -0.25
spe.ch.beta2 <- agnes(spe.ch, method = "flexible",
                      par.method = 0.625)
# beta = -0.5
spe.ch.beta3 <- agnes(spe.ch, method = "flexible",
                      par.method = 0.75)
# 改变agens获得对象属性
class(spe.ch.beta1)
spe.ch.beta1 <- as.hclust(spe.ch.beta1)
class(spe.ch.beta1)
spe.ch.beta2 <- as.hclust(spe.ch.beta2)
spe.ch.beta3 <- as.hclust(spe.ch.beta3)
plot(spe.ch.beta1, 
     labels = rownames(spe), 
     main = "弦距离-Beta-灵活聚类 (beta=-0.1)")
plot(spe.ch.beta2, 
     labels = rownames(spe), 
     main = "弦距离-Beta-灵活聚类 (beta=-0.25)")
plot(spe.ch.beta3, 
     labels = rownames(spe), 
     main = "弦距离-Beta-灵活聚类 (beta=-0.5)")

今天先简单介绍一下聚类分析以及聚类的方法，下一节将解读和比较层次聚类结果。

如有不足或错误之处，请批评指正。有什么不明白的也欢迎留言讨论。

欢迎关注微信公众号：fafu 生信小蘑菇

往期内容：

《数量生态学：R语言的应用》第三章-R模式

《数量生态学：R语言的应用》第二版第三章-关联测度与矩阵------Q模式

《数量生态学：R语言的应用》第二版笔记2

《数量生态学——R语言的应用》第二版阅读笔记--绪论和第二章（一部分）

R语言 pheatmap 包绘制热图（基础部分）

R语言pheatmap包绘制热图进阶教程

使用PicGo和gitee搭建图床

组间分析—T检验、R语言绘图

Rmarkdown的xaringan包来制作PPT

htlm文件部署到个人网站

感谢你的阅读！！！你的点赞关注转发是对我最大的鼓励。