宏基因组(Metagenome)是目前世界科研最热门的研究领域之一,又称环境基因组、元基因组,通过直接从环境样品中提取全部微生物DNA,构建宏基因组文库,利用基因组学研究策略, 研究环境样品所包含的全部微生物遗传组成及其群落功能。
宏基因组是依赖测序技术而发展起来的,主要分为扩增子测序、全基因组测序、宏转录组、宏病毒组、宏表观组、宏蛋白组和宏代谢组几大类。其中扩增子测序和全基因组测序应用最为广范,本文主要介绍扩增子分析。
扩增子测序——以环境中微生物为研究对象,使用PCR扩增微生物共有的标记(marker)基因,利用新一代测序技术获取标记基因,分析环境样本中微生物群落的组成与丰度。常用的有基于16S rRNA基因测序研究细菌古菌的组成(即人们常说的16S测序)、ITS/18S测序研究真菌和原生动物等真核生物组成、nifH基因测序研究固氮相关微生物群体等。扩增子测序优点是简单快速、成本低、分析方法成熟,受到很多微生物研究者的青睐。目前常用的测序平台有Illumina Hiseq2500和MiSeq等仪器。
目前扩增子数据分析的主要流程如下图所示,这些分析已经相当成熟,主要包括数据预处理(双端序列合并或拼接、数据质控、嵌合体去除)、OTU序列聚类、α多样性分析、β 多样性分析等。当然这些分析并不是一成不变的,好多生信分析实验室或公司都有自己的一套分析流程,每个文章的分析也都有自己的重点所在,感兴趣的读者甚至可以构建自己的分析流程。
着测序技术的不断发展,会产生越来越多的微生物序列数据,如何高效快速进行数据分析变得尤为重要。基于此,研究者开发了一系列的分析算法和软件,但大多数都是基于某个具体过程,如序列合并(merge)或拼接这一过程有FLASH、SeqPrep、PEAR等相关算法。在OTU聚类这一过程中有各种序列聚类算法如CD-HIT、DBH、UCLUST、ESPRIT等。在嵌合体去除阶段有UCHIME、DECIPHER、Chimera Slayer等各种方法。绝大多数都是开发的算法文章,对于数据分析者或者微生物学家而言他们更需要从都到尾的分析软件,而不是一个一个找算法进行组合。
所以整套分析平台将更受欢迎,正是在此需求下,扩增子分析分析平台应运而生,目前主流的三大分析平台有mothur(2009)、QIIME(2010)和usearch(2010),当然还有其他的分析平台如RDPipeline(2007),但RDPipeline分析功能较少,其亮点主要在微生物序列分类(RDP Classifier),但其引用率丝毫不亚于usearch。所以本文也捎带把RDPPipeline分析平台讲一下。
下图是四个平台的最新谷歌学术引用率(截止日期:2018.08.30),可以看出QIIME平台一家独大,引用次数接近1.2万次,远高于其他三个分析平台。QIIME是一个方法集成者,即里面的方法几乎全是将已经发表的方法或软件进行组装,写成Python脚本,供研究人员直接运行。最大程度降低了研究人员学习运行原始算法的时间成本,因此更受欢迎。
由于算法姐是一名苦逼的算法开发者,所以在算法姐来看,usearch、RDPPipeline、mothur都有自己开发出的核心算法,值得算法姐仔细学习。
各平台简介
按照时间顺序说吧。
RDP分析平台
RDP数据库全称“Ribosomal Database Project”,是目前世界上最大的核糖体序列数据库之一,由密歇根州立大学开发维护的在线工具,由美国科学院院士James Tiedje教授创建,目前James Cole教授作为RDP实验室主任来维护,也是目前国际上最负盛名的微生物多样性研究平台之一,包括数据库和分析工具两部分。分析工具最早是用于一代测序产生的16S数据分析,其后逐步拓展了在28S、ITS、功能基因的分析功能,并支持二代测序平台产生的数据,而数据库部分则提供高质量、已注释的细菌、古菌16S rRNA基因和真菌28S rRNA基因序列。目前其数据库最新版本为RDP Release 11.5,于2016年9月30日更新。该数据库提供质控、比对、注释的细菌、古菌16S rRNA基因和真菌28S rRNA基因序列。目前其数据库最新版本的数据库包含3,356,809条比对、注释的原核16S rRNA基因序列和125,525条真菌28S rRNA基因序列。
RDP是目前较常用的rRNA基因高通量测序后作为比对、注释的参考数据库。此外,还可用于平时菌种鉴定时,对少量rRNA基因测序后的物种进行分类鉴定,此时主要用其Classifier功能,可非常方便地确定某条rRNA基因序列从门到属/种水平的分类信息并给出各水平相应的置信度。使用mothur分析的用户对它应该比较熟悉,更新也算比较频繁。usearch之前推荐使用RDP数据库用于去嵌合,现在又推荐Sliva数据库了。
RDP安装步骤(linux下):
(1)git clone https://github.com/rdpstaff/RDPTools.git
(2)初始化:git submodule init
git submodule update
(3)输入 make并回车
(4)试运行:
参考网址:
https://github.com/rdpstaff/RDPTools
mothur简介
mothur是一个用于生物信息学数据处理的开源软件包,由密歇根大学的Patrick Schloss教授团队开发,目前mothur能够处理各种测序平台产生的序列数据,包括454个焦磷酸测序,Illumina公司的HiSeq和MiSeq,Sanger测序法,以及PacBio和IonTorrent等代表的三代测序技术。 mothur是一个架构非常好的生物信息学软件,把大量的工具和模块整合到了一起,并且将输入和输出标准化,非常简单易学。在高通量测序数据处理中特别有用。Mothur可用于距离的计算、多样性计算,非常适合微生物生态学和种群结构的研究。
mothur目前最新版本是1.40.45,包含命令总个数为146个,直接下载Linux版(https://github.com/mothur/mothur/releases/tag/v1.40.5)后输入mothur即可直接运行相关命令。
usearch简介
usearch是速度超快(ultra-fast)的序列分析软件,由Robert Edgar开发,首要瞄准的就是序列搜索速度这一块,开发的软件速度就是快、快、快!其后Edgar对其软件进行功能扩增,提出好多序列分析经典算法,大多数都是以U开头,如序列聚类UCLUST、UPARSE算法、序列质控算法UNOISE和嵌合体去除UCHIME算法。目前usearch软件在序列质控、嵌合体去除、序列搜索、OTU聚类等过程都有相关命令,被广泛应用。
Edgar大神之前是研究理论物理的,后来转行到生物信息学,从2004年的多序列比对软件MUSCLE开始,到现在发表了一系列经典高效的微生物序列分析软件和算法,其主要牛在这些算法的文章都是自己一个人,确实令算法姐佩服!如下图所示,更有一篇(UPARSE)以一己之力发在Nature methods期刊上,有谁不服!更让算法姐可怕的是,其在usearch官方网站上每隔一两个月就通知说有新文章发表,不但paper有量,而且有质啊。。。
usearch软件无需编译,直接下载即可运行,主要优点:
快速序列搜索与聚类:搜索速度是BLAST的10-1250倍,聚类速度是CD-HIT的1-1000倍;
极速安装;无依赖关系且已编译好,下载完后即可直接运行;
超高集成,各种命令随你使用
目前useaech免费版只有32位,64位版收费,32位下载安装步骤:
进入官网:http://www.drive5.com/usearch/download.html
在下载页面中:
勾选同意许可协议
选择下载版本(目前最新版本v11)
选择软件使用平台,建议在Linux下运行
输入自己的邮件地址
最后点击”Submit”申请,随后下载链接会发送到邮箱即可下载
QIIME分析平台
最后介绍QIIME,其全称是“Quantitative Insights Into Microbial Ecology”,是一个集大成者,是一个专门针对微生物群落分析的平台,可以进行OTU聚类,以及微生物多样性分析等,拥有处理16s rRNA所需要的软件并呈现相应的处理结果。但需要安装QIIME自己的虚拟器,里面集成了所有命令,都写成了Python脚本,方便运行,目前QIIME总共命令约有151个。由于QIIME是集成软件,因此安装起来比较麻烦。
算法姐一开始接触微生物序列分析时,用的就是QIIME软件,当时一窍不通,想想都是泪。。。
目前QIIME有两种安装方法,一种是下载QIIME专用虚拟机环境VirtualBox和虚拟镜像软件,类似于一个集成了各种命令和数据库的一个虚拟软件,如下图所示。这种安装方法前提是自己电脑里没有安装过虚拟机,如果已安装,可参考下面第二种安装方法。
VirtuaBox安装方法:
下载VirtuaBox
(https://www.virtualbox.org/wiki/Downloads)
下载QIIME镜像软件
(http://qiime.org/home_static/dataFiles.html)
最后按照一般虚拟机安装在VirtualBox里加载QIIME镜像软件即可,如下图所示,即可启动运行
虚拟机Ubuntu命令式安装方法:
直接运行sudo pip install qiime 即可,超级方便吧
虽然现在QIIME2已开发出来,据说是个独立于QIIME1的软件,而且几乎不兼容,暂且不讲。。。
综上所述,以上四个分析平台中,RDP主要特色是微生物序列数据库和分类器(classifier),mothur是一个从序列质控到多样性的综合分析软件,usearch主要特点在其超快的运行速度,QIIME是一个打包好的序列分析综合平台,里面有usearch、mothur、RDP的方法。只要这些平台跟随目前主流的分析步骤,不断更新,增加新的分析方法,给研究者带来分析便利,就会一直受欢迎!
作为一个算法开发者,一方面需要针对特定问题开发自己的算法,另一方面也需将自己算法的输入输出格式标准化,最好直接与以上平台的输入输出相匹配,也会得到越来越多分析者的欢迎,毕竟大家愿意用一个“更好用”的工具。
参考文献
Wang Q, Garrity G M, Tiedje J M, et al. Naive Bayesian classifier for rapid assignment of rRNA sequences into the new bacterial taxonomy. Applied and environmental microbiology, 2007, 73(16): 5261-5267.
Schloss P D, Westcott S L, Ryabin T, et al. Introducing mothur: open-source, platform-independent, community-supported software for describing and comparing microbial communities. Applied and environmental microbiology, 2009, 75(23): 7537-7541.
Edgar R C. Search and clustering orders of magnitude faster than BLAST. Bioinformatics, 2010, 26(19): 2460-2461.
Caporaso J G, Kuczynski J, Stombaugh J, et al. QIIME allows analysis of high-throughput community sequencing data. Nature methods, 2010, 7(5): 335.
关注生信算法|掌握分析利器
联系客服