打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
KTU:K-mer 分类单元提高了扩增子序列变异微生物群数据的生物学相关性
userphoto

2022.05.22 江苏

关注

摘要

扩增子测序在微生物群相关研究中被广泛实施。近年来,微生物生态学家已经改用新的算法进行分类鉴定和量化。扩增子序列变异(ASV)去噪算法的无偏序列挑选已经取代了OTU聚类方法。ASV可用于检测和区分生物变异到物种OTU水平(≥97%的相似度)。然而,样品之间的ASV量化是稀疏的,在同一批样品中也不太普遍

在此,我们提出了一种基于k-mer的无对齐算法KTU'(K-mer分类单元)--将ASVs迭代地重新聚集成最佳的生物分类单元

KTU'算法包括四个部分:(a)K-mer频率调用是通过DNA序列两端的四核苷酸频率的滑动窗口来计算的。(b) 序列之间的k-mer频率的相似性用余弦差值来衡量。(c) 用余弦异同矩阵检测KTU,使用围绕中间物的分区(PAM)聚类算法。迭代的PAM-KTU检测过程根据最大剪影系数来搜索KTU收敛集群的数量。(d) 最后,ASVs被聚集到相应的KTU中。

KTU每1.38-4.53个ASVs重新聚类为一个特征,平均序列相似度>99%,每个KTU的余弦分歧为1%。此外,重新聚类的程序改善了对临床和环境因素的相关性和意义的生物学解释

(KTU re-clustered every 1.38–4.53 ASVs into a feature with >99% sequence similarity on average and 1% cosine divergence for each KTU.)

引言

高通量测序(HTS)技术为十年来大规模的环境微生物组调查,甚至是宿主与微生物的相互作用奠定了基础。现在,微生物学家仍然遵循卡尔-沃斯的策略,即比较普遍保守的成分来推断进化关系。基于分子钟假说,核糖体RNA(rRNA)基因可作为良好的分子分类学标记,因为它们在功能上是保守的,并且有恒定的进化变化率。因此,小亚单位rRNA基因(16S和18S)序列成为独立于培养的微生物分类的基础。Stackebrandt和Goebel(1994)首先将16S rRNA基因序列的身份阈值定义为97%,作为 "物种 "操作分类单位(OTU)。

随后开发了聚类方法,利用基于排列的算法构建16S rRNA基因的OTU。尽管聚类方法善于管理大量的HTS序列,但如果原始输入数据(包括reads数量和样本数量)发生变化,它们就不能再现相同的聚类。此外,聚类方法容易高估由PCR扩增偏差引起的OTU多样性。去噪算法--例如DADA2、Deblur和UNOISE3--正在取代OTU聚类方法来处理扩增子序列。这些去噪方法可以保留准确的序列变体(也叫扩增子序列变体,ASVs),这些变体可能被聚类所隐藏,并产生精细的分辨率和可重复的特征。

去噪方法被推荐用于基于扩增子的微生物相关研究,并被设置为QIIME2管道中的默认算法。然而,细分辨率的序列特征(即ASVs)使特征(ASV)表过于稀疏(太多的零)琐碎的特征也低估了微生物组和相关因素之间的关联,如环境数据和宿主表型。在本文中,我们提出了一种算法-KTU(K-mer Taxonomic Unit),用于重新对ASV进行聚类,提高与环境/临床因素相关的微生物组的生物相关性。KTU算法是作为一个R软件包开发的(可在https://github.com/poyul iu/KTU),可在R环境中执行。KTU算法的核心包括四个步骤,整合为一个步骤的函数(图1)。

算法

KTU包的主要算法--聚类(klustering)--被执行来重新聚类有代表性的ASV序列(fasta格式),这些序列是用去噪过程(例如嵌入QIIME2管道的DADA2插件;也支持其他去噪管道)生成的。在重新聚类过程后,可以将ASV特征表组装起来,创建一个聚合的KTU表。 

方法

为了验证KTU算法提高了基于扩增子的分析的生物学相关性,我们从EMBL-EBI ENA和NCBI SRA数据库中检索了四个先前发表的扩增子数据集。这些数据集包括一项对酸面团起动器中简单细菌组成的研究、一项临床肠道微生物组关联研究、一项野生动物肠道微生物组研究和一项时间序列生物反应器实验研究。酸面团微生物组数据集被用来评估重新聚类的功效,包括KTU算法的可重复性(见支持信息文本)、系统发育关系的正确性、KTU内分类学的一致性和阿尔法多样性估计(观察特征、香农指数和菲斯系统发育多样性)。相关的元数据从原始论文中检索出来,或者通过与作者的私下沟通。进行了相关分析,以评估KTU和环境或临床因素之间的生物相关性(相关系数作为效果大小的衡量标准)。扩增子序列使用辅助信息方法中描述的QIIME2管道进行处理。然后将ASV特征表导入R环境中。预先加载的特征表和ASV代表序列fasta文件使用klustering功能进行了重新聚类。随后的KTU微生物组关联分析用R软件包MARco进行并可视化。Faith的系统发育多样性(PD)是用picante包中的'pd'函数计算的。 

结果

验证KTU的生物学意义。灵活的序列特征聚合反映了系统发育的异质性差异

为了验证KTU重新聚类算法的功效和生物学意义,我们重新分析了来自酸面团起动器的细菌群落数据集。酸面团起动器中的复合微生物可以提高面团的酸度和面包的味道。这些以酵母和乳酸菌为主的自然发生的微生物群落来自于原料和面包师的手。Reese等人(2020年)对18个酸面包起动器(每个都由不同的面包师制作)的真菌和细菌组成进行了表征。这些酸面团起动器的细菌群落主要由乳酸菌ASVs组成。这些群落很简单,足以单独描述每种微生物的特征。在这里,我们只检索了18个起动器的细菌数据集,以重新分析和评估KTU重新聚类的功效,并纠正其分类(即揭示KTU的真正生物学意义)。

有186个ASVs被识别并聚类到135个KTU(平均每个KTU有1.38个ASVs被聚类;KTU内平均序列同一性为99.79%,平均余弦分歧为0.01;图S1a;表S4)。我们绘制了18个酸面包起动器的细菌组成与KTU(图2a)。总的来说,23个KTU构成了18个酸包起动器中99.9%的细菌;最丰富的属--平均丰度大于1%--包括乳球菌、白球菌、小球菌和乳酸杆菌,与Reese等人的结果一致。然而,Huang等人(2018年)表示,由于组内相似度高(>99%),各种乳酸菌的群体(如L. buchneri、L. casei、L. plantarum和L. sakei)是无法区分的。对酸面团起动器的主要KTU的ASVs(由52个ASVs聚合而成)的系统发育分析表明,KTU能够将乳酸菌ASVs聚类到其相似度超过99%的接近的亚系中(图2b;表S1)。这表明KTU不仅能够将特定的乳酸菌物种聚集到相同的分类单位中,而且还能聚集到相同的系统发育线中。

应用SILVA 132、NCBI 16S rRNA和非冗余(nr)数据库来验证分类法的一致性(表S1)。总的来说,23个KTU中的21个被归入各自的属,甚至种,都是一致的。此外,22个乳酸菌ASVs被重新聚类到7个不同的乳酸菌KTU中,并保持一致或与 "最接近谱系 "的物种一致。该结果与2个乳酸菌属和23个新属的乳酸菌的最新分类一致(Zheng等,2020)。我们的结果表明,KTU算法将ASVs重新聚类到原核生物的属甚至种和菌株级别然而,该算法受到16S扩增子的属级分辨率的限制。另一方面,23个KTU中的2个在集群内被分配了不同的属名--一个是潘多拉菌属+Erwinia,另一个是肠杆菌属+未分类的肠杆菌属。根据系统发育分析(图2b)和与NCBI数据库的交叉验证,这些KTU是由部分16S序列(如V4区100%相同)无法区分的模糊分类群组成。

阿尔法多样性是另一个与评估重新聚类功效有关的生物学问题。琐碎的ASVs容易高估阿尔法多样性相反,重新聚类方法(KTU和基于排列的方法)允许聚类内的核苷酸变体反映生物现实。据估计,ASVs的丰富度(观察到的OTU)和香农指数的值都很高,KTU估计的α多样性指数值在97%和99%的OTU聚类。然而,ASV、KTU和基于排列的聚类方法产生了相同的系统发育成分(Faith的系统发育多样性;图S2)。

案例1:血浆三甲胺-N-氧化物(TMAO)浓度与人类肠道微生物群失调相关联

Wu等人(2019年)对56名健康人实施了口服肉碱挑战试验(OCCT),以筛选产生TMAO的高性能肠道微生物群组成,TMAO是一种与心血管疾病(CVD)相关的微生物代谢产物。一项为期1个月的OCCT试验表明,杂食者或素食者的肠道微生物群有产生TMAO的风险。在OCCT试验的56个个体中,总共确定了1637个OTU中的39个,然后由50名CVD患者验证,随机森林(RF)分类模型的AUROC为0.8(该参考文献使用QIIME1聚类管道;Wu等人,2020)。在此,我们使用QIIME2与DADA2去噪管道和KTU重新聚类过程重新分析了OCCT试验数据集。有3811个ASVs被识别并聚类为1192个KTU平均每个KTU有3.2个ASVs被聚类;KTU内平均序列一致性为99.34%,平均余弦分歧为0.01;图1b和表S4)。在KTU重新聚类后,数据解释功效得到改善,用于PCoA排序的β多样性、TMAO浓度与微生物组成的相关性和随机森林分类模型(图3;图S3)。

由于KTU算法将琐碎的ASV聚集成较少的分类单元,前两个轴解释的β多样性的百分比从13.83%(ASV;图3b)增加到20.38%(KTU;图3a);它也改善了ADONIS模型的方差解释(R2)。与原始ASV数据(|r| = 0.21,p = 0.028;图3d)相比,KTU重新聚类的数据显示血浆TMAO浓度与微生物组成之间有更好的相关性(|r| = 0.33,p < 0.001;图3c)

我们对两个数据集都使用了RF分类模型,并遵循原论文的标准,使用TMAO相关的前2.5%的OTU进行训练模型。与TMAO相关的前2.5%的KTU和ASV在诊断RF分类模型中分别达到0.84和0.83的AUROC;但是,KTU RF模型仅用29个特征进行训练(图S3a,b),而ASV RF模型为61个(图S3c,d)。

结论

KTU重新聚类算法被设计用来对去噪管道中的rRNA基因扩增子序列进行后处理。使用重新聚类的特征(称为 "KTU")可以改善解释方差(β多样性排序)和生物相关性(相关分析),因为KTU算法聚集了琐碎的ASV特征,使数据分布更加连续。KTU倾向于允许聚合特征内的序列差异。聚合过程没有确切的序列相似性截止点;相反,KTU算法的围绕中间物的分区聚类方法在余弦异同空间中搜索收敛的聚类。

我们使用来自酸面团起动器、临床研究、野生动物肠道微生物组调查和人工生物反应器监测的数据集应用该算法。我们算法的结果显示 KTU重新聚类程序集中了琐碎的ASV特征,并提高了研究中感兴趣区域的统计学意义和与生物/生物因素的生物学相关性(即p值和相关系数,分别为Martínez-Abraín,2008)。基于系统发育分析和跨数据库验证,我们论证了KTU的聚集不是人为的伪装;此外,KTU精确地将具有高相似性的类群,如乳酸菌属类群聚集起来。这一功效与使用多个单拷贝基因的蛋白质序列的分类群识别方法一致(Zheng等,2020)。

此外,两种重新聚类方法(KTU和OTU by Vsearch聚类;Bokulich等人,2018)都合理地降低了对阿尔法多样性(丰富度和香农指数)的估计,但不改变系统发育的构成(Faith's PD指数)。KTU算法,一个无对齐和无单值截止的程序,更合理地聚类了最佳的分类单位数量(由于原核生物之间16S的异速系统发育分歧)。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
mothur QIIME usearch,三足鼎立,谁主沉浮?
5分钟讲清楚怎样把微生物多样性的数据用到文章里
环境微生物生态问题集合答疑-总结
QIIME 2用户文档. 2插件工作流程概述(2018.11)
一篇医学微生物组16S测序文章必备的六张图
扩增子分析神器USEARCH简介
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服