Loading...
墨滴

fafu生信小蘑菇

2021/05/28  阅读:27  主题:自定义主题1

Alpha多样性指数求标准差及平均值

Alpha多样性指数求标准差及平均值

现在使用高通量测序技术来对微生物群落来进行测序分析已经发展很多年了,在论文中经常有使用到Alpha多样性来对微生物群落进行组内差异分析,所以今天先来给大家介绍一下如何使用单因素方差来对Alpha多样性指数求显著性差异。 今天内容比较简单,但是对我来说比较有用。

1. Alpha多样性指数概述

Alpha多样性(α多样性):指某个群落或生境内部的物种多样性,主要关注群落内的物种多样性。

Alpha多样性主要与两个因素有关:

  1. ​ 样本中物种种类数目,即丰富度(Richness)。群落丰富度(Community richness)的指数主要包括Chao1指数和ACE指数
  2. ​ 样本中各个种的相对密度,即群落中个体分配上的均匀度(Evenness)。群落多样性(Community diversity)的指数,包括Shannon指数和Simpson指数
  • ACE指数:利用稀有物种估算物种多样性的指数,其值越高代表群落物种种类越丰富。ACE是用来估计群落中含有OTU 数目的指数。
  • Chao1 指数:在生态学中作为度量物种丰富度的指标,其值越高代表群落物种越丰富
  • Simpson指数:用来估算样本中微生物多样性指数之一,指数值越大,说明群落多样性越低。但是,现在常用演变而来的Gini-Simpson指数代表原来的辛普森指数,即用1减去经典辛普森指数的数值后得到,此时Gini-Simpson指数随着丰富度的增加而增加
  • 香农指数(Shannon index):用来估算样本中微生物多样性指数之一。值越大,说明群落多样性越高

今天就先简单说一下这4个指数,以后应该会细说,网上也很多资源。

2. Alpha指数的数据求平均值和方差

2.1数据样本解释说明

求平均值和方差很简单且有很多的方法,感觉接触最多的应该就是EXCEL来处理,那么用R语言应该怎么做呢?

这里用到的是一组Alpha多样性指数,这组数据有6个样本(sample_1 到sample_6),每个样本具有3个重复,一共有18个样本进行高通量测序,高通量测序样本名称为(A1-A18)。

Alpha多样性指数:

image-20210528205752041
image-20210528205752041

group分组信息表:

image-20210528210057181
image-20210528210057181

2.2 加载数据及样本预处理

setwd("C:/Users/shanpengloveforever/Desktop/图/微信/alpha"#设置工作目录
data<-read.table("Alpha.txt",header=T,sep="\t",row.names=1) 加载Alpha数据表
data <- data[,2:5#  取出四种指数
#加载group分组信息表
group  <- read.table('group.txt', sep = '\t', header = TRUE, stringsAsFactors = FALSE, check.names = FALSE)
图2.2-1
图2.2-1
图2.2-2
图2.2-2
#添加样本名
data$sample<- factor(rownames(data), levels = rev(rownames(data)))
#合并两个表格
data <- merge(data, group, by = 'sample')
#将site转化为因子变量
data$site <- factor(data$site)
str(data) #查看数据类型
图2.2-3
图2.2-3
图2.2-4
图2.2-4

2.3 计算ACE指数的标准差及平均值

因为本人目前能力有限,所以大部分代码还是使用重复手段来解决,这里以ACE指数为例子来讲解使用R语音如何计算ACE指数的标准差及平均值。如果有小伙伴会简化流程的,欢迎交流。

#计算ACE平均值
ACE_mean <- aggregate(data$ACE, by = list(data$site), FUN = mean)
names(ACE_mean) <- c('sample','ACE_mean' ) #修改列名
#保留两位小数
ACE_mean$ACE_mean <- sprintf("%0.2f", ACE_mean$ACE_mean)
#计算ACE标准差
ACE_sd <- aggregate(data$ACE, by = list(data$site), FUN = sd)
names( ACE_sd)<-  c('sample','ACE_sd' ) #修改列名
ACE_sd$ACE_sd <- sprintf("%0.2f", ACE_sd$ACE_sd)
#合并平均值和标准差数据
ACE <- merge(ACE_mean, ACE_sd, by = 'sample')
图2.3-1
图2.3-1
图2.3-2
图2.3-2
图2.3-3
图2.3-3
library(tidyr) 
#将添加列mean±sd
#ACE1 <- tidyr::unite(ACE,"library(tidyr) 
#将添加列mean±sd
#ACE1 <- tidyr::unite(ACE,"ACE_mean ± ACE_sd", ACE_mean, ACE_sd,sep = "±")#两种方法都可以,这个是好朋友振哥告诉我的
ACE <- unite(ACE, "ACE_mean ± ACE_sd", ACE_mean, ACE_sd, sep = "±", remove = FALSE)
图2.3-4
图2.3-4

到这里我们就成功的将ACE_mean ± ACE_sd给和在一起了,一般论文也是用这个。

2.4 计算其他多样性指数的标准差和平均值

其实方法和上面的一样,你可以不用看,我这里只是作为一个参考。

#计算chao1标准差和平均值
chao1_mean <- aggregate(data$Chao1, by = list(data$site), FUN = mean)
names(chao1_mean) <- c('sample','chao1_mean' ) #修改列名
chao1_mean$chao1_mean <- sprintf("%0.2f", chao1_mean$chao1_mean)

chao1_sd <- aggregate(data$Chao1, by = list(data$site), FUN = sd)
names( chao1_sd)<-  c('sample','chao1_sd' ) #修改列名
chao1_sd$chao1_sd <- sprintf("%0.2f", chao1_sd$chao1_sd)
#合并两个表格
chao1 <- merge(chao1_mean, chao1_sd, by = 'sample')
chao1 <- unite(chao1, "chao1_mean ± chao1_sd", chao1_mean, chao1_sd, sep = "±", remove = FALSE)

#计算Simpson标准差和平均值
Simpson_mean <- aggregate(data$Simpson, by = list(data$site), FUN = mean)
names(Simpson_mean) <- c('sample','Simpson_mean' ) #修改列名
Simpson_mean$Simpson_mean <- sprintf("%0.2f", Simpson_mean$Simpson_mean)

Simpson_sd <- aggregate(data$Simpson, by = list(data$site), FUN = sd)
names(Simpson_sd)<-  c('sample','Simpson_sd' ) #修改列名
Simpson_sd$Simpson_sd <- sprintf("%0.2f", Simpson_sd$Simpson_sd)
#合并两个表格
Simpson <- merge(Simpson_mean,Simpson_sd, by = 'sample')
Simpson <- unite(Simpson, "Simpson_mean ± Simpson_sd", Simpson_mean, Simpson_sd, sep = "±", remove = FALSE)

#计算Shannon标准差和平均值
Shannon_mean <- aggregate(data$Shannon, by = list(data$site), FUN = mean)
names(Shannon_mean) <- c('sample','Shannon_mean' ) #修改列名
Shannon_mean$Shannon_mean <- sprintf("%0.2f", Shannon_mean$Shannon_mean)

Shannon_sd <- aggregate(data$Shannon, by = list(data$site), FUN = sd)
names(Shannon_sd)<-  c('sample','Shannon_sd' ) #修改列名
Shannon_sd$Shannon_sd <- sprintf("%0.2f", Shannon_sd$Shannon_sd)

#合并两个表格
Shannon<- merge(Shannon_mean,Shannon_sd, by = 'sample')
Shannon <- unite(Shannon, "Shannon_mean ± Shannon_sd", Shannon_mean, Shannon_sd, sep = "±", remove = FALSE)

图2.4-1
图2.4-1
图2.4-2
图2.4-2
图2.4-3
图2.4-3

2.5 将四个多样性指数合并并输出

Alpha1<- merge(ACE,chao1, by = 'sample')
Alpha1<- merge(Alpha1,Simpson, by = 'sample')
Alpha1<- merge(Alpha1,Shannon, by = 'sample')

write.table (Alpha1, file ="Alpha_1.csv",sep =",", quote =FALSE#将数据导出
image-20210528213405406
image-20210528213405406

抱歉了,由于时间问题,今天就先讲Alpha多样性指数求标准差及平均值,下一期带来使用单因素方差求Alpha多样性指数的显著性差异。

如果需要原始数据可以给我留言,有什么问题也欢迎讨论交流。

谢谢你的阅读。

fafu生信小蘑菇

2021/05/28  阅读:27  主题:自定义主题1

作者介绍

fafu生信小蘑菇