Loading...
墨滴

谢大飞

2021/08/06  阅读:49  主题:默认主题

公共数据下载

公共数据下载需求

在画进化树或者进行某个基因家族分析之前我们首先需要下载用到的物种的相关数据(蛋白质数据或者基因组数据)

比如说画进化树的时候常常需要用到拟南芥的数据来做参考

数据下载的方法:

1.NCBI 2.phytozome 3.ensemble plants 4.各自的数据库 5.发表的文章中的数据(plaBiPD)

1.NCBI NCBI

众所周知,NCBI是一个超级全的数据库,但是有个问题就是NCBI会对收录的数据进行重新编号,所以在使用NCBI上下载的数据的时候需要谨慎

进入NCBI,然后根据我们需要下载的数据去搜索,比如这次我搜索的是菠萝的基因组文件,就先选择genome,然后输入菠萝的拉丁名search,就可以得到需要的信息,根据我们研究的目的去下载相应的数据

ncbi
ncbi

下载方法还是两种:

第一种——直接下载到本地,直接点击需要的数据或者右键选择链接另存为

第二种——下载到服务器中,右键选择复制链接地址,然后到服务器中用wget下载即可

2. 在phytozome 上面搜索下载 phytozome

phytozome上下载数据需要先登陆,有账号的直接登陆,没有的先注册然后登陆

Phytozom界面
Phytozom界面

下载方式有两种:

第一种——根据物种的拉丁名先找到相应的物种然后跳转到对应的物种的页面

Phytozome下载1
Phytozome下载1

选择Bulk data 即可条状到该物种的相应数据的下载界面,选择需要的数据下载即可

Phytozome下载2
Phytozome下载2

第二种——直接点击Download,跳转到相应的下载页面,选择最新的版本PhytozomeV12,点击下拉文件夹然后按照物种拉丁名选择相应的物种,再选择需要的数据类型选择好之后点击 Download Selected Files下载选择好的数据即可(目前不知道如何下载到服务器中嗐.好的原来是关闭了这个服务,那没事了)

Phytozome下载3
Phytozome下载3

3. ensemble Plants(ensemble 是一个很大的综合的数据库,然后因为关注的主要是植物,所以就要用的是植物版本的) EnsemblePlants

进入网址之后点击downloads,就会出现很多的物种数据信息,可以自行选择显示十个或者全部

选择需要下载的物种以及序列信息(我们用的是蛋白质,所以就选择蛋白质一栏下面的FASTA)

esemble
esemble

此时我们并不能直接下载,因为对应的链接是一个文件夹,我们需要点开这个文件夹,然后进去之后选择我们需要的数据

esemble
esemble

选择全部的蛋白信息(此时有两种下载方法:第一直接点击链接下载;第二复制链接地址然后下载到服务器中)

 wget -c ftp://ftp.ensemblgenomes.org/pub/plants/release-49/fasta/arabidopsis_thaliana/pep/Arabidopsis_thaliana.TAIR10.pep.all.fa.gz    
# 用wget 下载,-c 是断点续传

gunzip Arabidopsis_thaliana.TAIR10.pep.all.fa.gz
# 将下载的数据解压开

4. 每个物种自己的数据库(有些物种是有自己的单独的数据库的比如说拟南芥)

拟南芥有个单独的数据库tair tair

tair
tair

进入之后可以点击download找到需要的数据类型比如蛋白质或者基因组等,然后跳转到相应的下载界面,之后就可以下载(但是听说这样得不到需要的数据,然后听人劝吃饱饭我就放弃这个方法)

tair
tair

5.已经发表的文章

直接搜索相应的文章然后去到文章里面找数据下载(今日份学到有时候文章可以直接在百度中搜索,这样的话还可以直接打开全文)

还有就是可以去到plaBiPD里面去查找下载数据,该网站分为三大板块Published plant genomesProtein function annotationPlant genome project,可以根据自己需要下载的数据类型去到相应的板块查找

plaBiPD
plaBiPD

一些其他可能会用到的数据库

  1. 杨树综合数据库 popgenie
  2. 蔷薇科数据库 GDR
  3. 被子植物基因组数据 GDA:Genome Database for Angiosperms
  4. 胡桃科数据库(强推!!!课题组师兄做的)PJU

基因组数据库汇总推文

偶然在公众号发现了这篇推文蚂蚁生信: 部分植物基因组数据库,简直太优秀了,赶紧收藏整理分享起来哈哈哈,我就是个友情的搬运机器

里面除了一些综合的数据库之外,还有很多的单个物种的数据库,比如说水稻、马铃薯、百脉根、棉花、菠萝等

谢大飞

2021/08/06  阅读:49  主题:默认主题

作者介绍

谢大飞