NBT | 刘勇勤/骆迎峰等发布冰川微生物组的基因组和基因集
题目: A genome and gene catalog of glacier microbiomes 发表杂志: Nature Biotechnology 研究团队: 兰州大学泛第三极环境中心生物地球化学循环团队,中科院青藏高原研究所,中科院微生物所 , 澳大利亚昆士兰大学和丹麦奥胡斯大学 DOI : 10.1038/s41587-022-01367-2 原文链接: https://www.nature.com/articles/s41587-022-01367-2 冰川 有着 丰富的微生物遗传多样性。青藏高原拥有面积最大的低纬度冰川,特别容易受到全球变暖的影响。通过对来自 21 个西藏冰川的 85 个宏基因组和 883 个培养的分离物进行测序, 包括 环境中的雪、冰和冰粒,我们提供了一个专门的冰川微生物基因组和基因 数据集, 体现冰川基因组和功能的多样性。这个全面的西藏冰川基因组和基因 (TG2G) 数据集 包括 883 个基因组和 2,358 个宏基因组组装的基因组,代表了 30 个门的 968 个候选物种。该数据集还包含超过 2500 万个非冗余蛋白质编码基因,通过探索次生代谢物生物合成潜力、毒力因子鉴定和全球冰川宏基因组比较来研究其作用。 TG2G 数据集有助于加深对西藏冰川微生物组的结构和功能的理解。 冰川历来被认为是极端环境,在有限的碳资源、低温、频繁的冻融等方面对生命体构成挑战 。2 022 年6 月2 7 日, 兰州大学泛第三极环境中心、中国科学院青藏高原研究所及中国科学院微生物所 等团队 提出了我们所知的第一个专门用于冰川生态系统的 微生物 基因组和基因 数据集TG2G ,包括来自 85个西藏冰川 宏 基因组和 883个 基于 培养的 细菌分离株 的 3241个 冰川细菌和古菌 基因组。 其中, 88.33-100% 的微生物被鉴定为潜在新种。这项研究 展示了 冰川的 微生物和功能多样性 , 填补了对冰川生态系统中微生物多样性和功能理解的重大知识空白。 作者 对 85个西藏冰川宏基因组进行了组装和分箱,得到了 2358个宏基因组组装的基因组( MAGs;图 1b和补充表 2)。这些 MAGs与 883个培养的分离 株 的基因组相结合(补充表 3),生成 TG2G数据集的基因组部分( n=3,241)。这些西藏冰川基因组( TGGs)的基因组大小 在 0.42Mb到 10.48Mb 之间 , GC%在 30%到 77% 之间 。它们都达到或超过了 宏 基因组组装的最低信息( MIMAG)标准的中等质量水平( 完整度 ≥50%,污染 率 ≤5%),平均 完整度 为 87%( ±14.23%),平均污染 率 为 1.5%( ±1.35%)(图 1c)。此外, 47%的基因组至少有部分 16S核糖体 RNA( rRNA)基因片段被鉴定(平均长度 =1296±373bp)(补充表 2)。 使用 95%的 ANI阈值和 30%的 比对 分数阈值, 3241个 TGGs被聚类为 968个操作分类单元( OTU)(补充表 2),其中 分别有 75%和 23%由 MAG和分离基因组代表,而全部 MAG中只有 2%同时由 MAG 和分离基因组代表(图 2a)。 在 968个物种水平的 O TU 中, 88.33-100%的 OTU与大型环境细菌和藻类基因组数据库的基因组表现出低序列同一性, 即 极地海洋( 99.9%)、北冰洋( 100%)、地球微生物组数据库( 97.42%)和基因组分类学数据库( GTDB)( 88.33%)(表 1)。这反映了与其他生态系统相比,冰川 微生物有 新 的 微生物和代谢组成。超过 15%( n=138)的 TGGs在所有的冰川表面 环境 类型中都得到了鉴定, 50%的 TGGs只从三种 环境 中的一种得到(图 2a)。大约 11%( n=108)的 OTU在单一冰川中被鉴定出来,相反, 10%( n=100)的 OTU几乎无处不在(从 70%以上的采样冰川中鉴定出来)(图 2b)。 OTU的数量随着 流行率 的增加而明显减少( Pearson相关性, P<0.001),表明 TGGs由地方性物种而不是世界性物种 构成 。因此,冰川微生物组可能特别容易受到气候变化引起的冰川融化的影响。 根据 GTDB( R06-RS202版本)的分类注释, TGGs代表 30个 门、 69个纲 、 129个 目、 221个 科和 475个 属(图 2c和补充表 2)。 TGG数据集以 Proteobacteria, Bacteroidota, Actinobacteriota和 Firmicutes 为 主,而 Chloroflexota、 Deinococcota和 Myxococcawere被 鉴定 为 罕 见的门。此外, 3个纲 、 14个 目、 31个 科、 174个 属和 798种目前在 GTDB中没有(补充图 1),因此代表了潜在的 新种 。仅由培养的分离 株 组成的 OTU属于 4个门(即 Actinobacteriota, Proteobacteria, Bacteroidota, Firmicutes),包括 4个新属和 121个新种。相比之下,由 MAGs和培养分离物组成的 OTU仅属于 3个门(即 Actinobacteriota, Proteobacteria, Firmicutes), 且只鉴定出 6个新种。 图1 . 宏基因组- 组装基因组样本的地理分布。 a. 宏基因组的地理分布。 b.从 85个测序的 宏 基因组和 883个 基于培养的分离株中共得到 3241个 TGGs。所有的 TGGs完整度 ≥50%,污染度 ≤5%。 c. MAGs和 基于培养的分离株基因组中的质量 分布( n = 3,241),显示最小值、第一四分位数、中位数、第三四分位数和最大值。 图 2 .TGGs揭示了冰川生态系统中微生物组的独特性。 a.每个分类组 中的培养和不可培养基因组的比例。灰条表示每个分类组(上)或栖息地(下)中 每个基因组的 OTU的百分比。 b.OTU的数量与频率图。 c.根据 连接排列的 120个普遍 存在 的细菌单拷贝基因,为 961个 OTU建立了系统发育树。 TG2G数据集中的基因部分是由已 分箱 和未 分箱 的 contigs 构建的, 从而得到 整个微生物群的功能。 36,021,651个 contigs 的平均长度为 1.29kb, N50为 1.47kb。自 比对 率(即 reads 被 比对 到其对应的 宏 基因组的 contigs 上)从 13.3%到 95.6%不等(平均 68±20%;补充表 4)。然而,当整个数据集中的 contigs 作为参考基因组时,平均 比对 率增加到 85±20%( 37.7-98.7%),代表平均 比对 率增加 17%。因此,该数据集可以作为未来冰川 宏 基因组分析的参考 基因组 ,以提高组装率。 共 有 1,844,347( 5.6%)个 contigs 来源于真核生物,占总 reads 的 12%。具体来说, 71,754个 contigs 被 鉴定为 Chlorophyta 和 Rhodophyta,它们是冰川生态系统中最主要的藻类,占总 reads 的 0.045%。 共预测了 40,066,799个开放阅读框架( ORFs),然后使用 80%的 比对 分数阈值和 95%的 ANI阈值将其去重 到 25,320,330个基因 簇 。根据 Prodigal的预测,超过 50%的基因簇( 13,558,765, 54%)是完整的,平均长度为 690bp。非冗余基因的数量随着 抽样 深度的增加而 逐渐 上升,即使使用 50%的核苷酸同一性阈值,也没有达到一个 稳定状态 (图 3a)。这表明西藏冰川蕴藏着 丰富 的基因多样性,需要 进一步 测序以全面 了解 功能多样性。我们使用 NR、 Swiss-Prot和 UniRef50数据库来注释 已经去重复的 基因簇的功能,发现 N R数据库 能 注释(不包括假蛋白) 16,560,331( 65.4%) 个 基因,而 Swiss-Prot和 UniRef50数据库 能 注释 38%和 78%的基因 。 我们 探讨 了 TG2G数据集中 合成 次级代谢物的 能力 ,以 研究 其在发现新型生物活性化合物方面的作用。次 级 代谢物对在干旱、营养匮乏的生态系统中的微生物的生存起着重要作用,从而 有利于 新型代谢物的生物 研究 。我们使用 AntiSMASH( 5.1版)从 3241个 TGGs中确定了 15954个 假定 的次级代谢物生物合成基因簇( BGCs)。这比人工整理的最小生物合成基因 簇 ( MIBig) 数据 库中已知功能的 BGCs的规模大 8倍,表明西藏冰川微生物组中 BGCs的多样性。只有 8.4%的 TG2G BGCs存在于 最新的 GTDB版本( R06-RS202)中,这进一步证实了 TG2G数据库 包含大量功能新颖 的次级代谢产物 ,与观察到的 新颖的分类 相一致。 预测的次级代谢物被分为八组(图 3b)。其中,合成萜类 化合物 的 BGCs是最多样的,有 4105个独特的序列被鉴定出来,占鉴定的 BGCs总多样性的 25.7%。它们也是大多数门 水平的细菌 中最丰富的 BGCs(图 3c,补充图 3和补充表 5)。这可能是由于萜类色素(如类胡萝卜素)在细菌中广泛存在,它们 能捕获 光能以中和氧化剂 以及作为毒力因子 。此外,从 18个门中共鉴定出 2731个( 17.1%)非核糖体 多 肽合成酶( NRPS)基因簇,从 11个门中鉴定出 268个( 1.7%) I型 聚酮合酶( PKS) 基因 簇,从 12个门中鉴定出 319个( 2.0%) PKS - NRPS 复合蛋白 基因簇 ,从 14个门中鉴定出 348个( 2.2%)核糖体合成和翻译后修饰肽( RiPP) 基因 簇。 Proteobacteria是 TG2G数据集中最有 潜力 的抗生素 研究的对象 ,共鉴定出 529个 PKS 、 1095个 NPRS 和 133个 PKS - NRPS 复合蛋白 基因簇 (补充表 5)。此外, 每个基因组中 Myxococcota门鉴定的 BGCs数量最多,这与来自地球微生物组( GEM) 数据集 的 结果 一致。虽然许多 基因簇 是 片段化 的,但我们识别出长度超过 50kb的 478个( 3.0%) BGC, 另外 2,934个( 18.4%) BGCs的长度超过 30kb。 从A ureimonas属(补充图 2a)和 Flavobacterium属(补充图 2b)的 MAG中 分别 鉴定 出 两个 NPRS 基因簇,长度 分别是 128,754bp和 106,171bp。在 Aureimonas基因组中发现的 NPRS 基因簇( B307-4)包括 14个核心 模块 ,与 Stappiaindica的 sesbanimide生物合成基因簇相关( 75%的氨基酸同源性( AAI)), 除此之外还 有一个额外的 Arylpolyene生物合成模块。 Flavobacterium( DSR2-3-3)编码了一个由 11个核心模块组成的 NRPS基因簇,与 Pseudomonas fluorescens SS101 的抗生素 马塞脱 内酯生物合成基因簇最为相似( 44% AAI)。因此, TG2G数据集是一个丰富的新型 BGCs来源,为探索极端环境下的 BGC进化提供了重要资源。此外,约 40%的 NRPS、 7%的 I型 PKS和 14%的 PKS-NRPS基因簇在培养分离 株 的基因组中被鉴定出来(图 3b),因此, 该数据集可 随时用于生物活性化合物的纯化和结构 分析 。 图 3 .TG2G数据集 的 功 能 研究 。 a. 基 因簇的数量随着 reads的增加而稳步增加。 b. BGC在 MAG和分离 株 基因组中的相对频率。 c. BGC在各优势门中的相对频率 。 BGC基因 簇 主要在 Proteobacteria, Firmicutes, Bacteroidota 和 Actinobacteriota中发现, 并且不同门有很大的变化。 基于毒力因子 数据库( VFDB), TG2G 数据集鉴定了2 7267个潜在的毒力因子,但只有 14301个( 52%)与 GEM数据库中确定的毒力因子 有 实质的相似性( 基于 70%的覆盖率和 80%的 AAI 的阈值 ;补充表 6)。这揭示了 TGGs中潜在 新颖的 毒力因子,这些因子主要与 移动 ( 24%)、粘附性( 13%)、效应传递系统( 11%)和生物膜( 11%)有关。此外, 预测出 1%的毒力因子 和毒素的产生相关 ,这可能与冰川融化期间人类和野生动物的健康有关(图 4a)。 在 459个 TGGs中 有鉴定出 毒力因子, 其中 每个基因组 包括 1 ~ 374个 毒力 因子(补充图 4a)。这些基因的丰度 是每百万有 5876个转录本(补充图 4b),它们主要( 约 90%)来自 Proteobacteria, Firmicutes 和 Actinobacteriota(图 4b)。将每个 TGG的毒力因子数量与其他生境的基因组进行比较,发现 其 平均数量( 12.7)大大高于陆地和水生生态系统(分别为 3.5和 2.4),但低于人类肠道( 18.2)(补充图 5)。 使用 PathoFact流程 在 396个 OTU中 ( 包括 29个分离物基因组和 367个 MAG) 鉴定 出可移动元件 (噬菌体或质粒)和毒素基因。这些 OTU占鉴定的总 OTU的 41%(补充表 7)。在 鉴定 的 1,539个 可 移动毒力因子中, 86%和 12%分别由质粒和噬菌体序列携带,而其余 2%的 载体 无法确认(补充图 6a)。此外, 40%和 60%的潜在移动毒素基因分别编码分泌型和非分泌型致病因子(补充图 6b)。 Proteobacteria含有最多的 可 移动毒素基因,其次是 Actinobacteriota、 Cyanobacteria和 Bacteroidota(图 4c)。 图4 .T GG s 有 多种多样的潜在致病因子。 a. 基于VFDB 鉴定的的多样性的致病因子。 b. 主 要细菌门中致病因子类型的相对频率(左)和每个门所代表的总多样性的百分比(右)。 c.TGGs中带有 可移动元件的毒力基因的分布。移动元件包括噬菌体、质粒以及尚未明确区分的元件(可能是噬菌体或质粒)。 TG2G 数据集 提供了一个在全球范围内 鉴定 和比较冰川微生物功能的平台。 在此研究中, 通过在 TG2G数据集 中增加 120个非西藏细菌分离 株 基因组和 45个来自阿尔卑斯山( n=4)和北极地区( n=41)的冰川 宏 基因组,证明了这种能力。几乎所有的基因组都是从冰 粒 石样本中获得的,只有 4个来自冰层。这些 宏 基因组的处理方法与 TG2G数据集 相同,产生了 405个额外的 MAGs。这些 MAGs按 95%的 ANI进行了去重,代表了 215个额外的物种(补充表 8)。 青藏高原( 0.045±0.11%;补充图 8)和北极冰川( 0.016±0.017%;单因素方差分析 和Dun n’s post hoc 分 析, P>0.05)的藻类序列的相对丰度相似,它们都明显低于阿尔卑斯山冰川( 0.117±0.124%; P<0.05)。相比之下,西藏冰川不同生境中的藻类序列的相对 丰度 没有明显的差异( P=0.256)。对于 门水平 的细菌和古细菌,北半球的冰川相关样本主要按地理位置聚类(方差分析 , P<0.001),而不是按生境聚类( P<0.001), 细菌在 八个门 水平 的差异 解释度超过 80%(图 5a)。雪和冰中的微生物组表现出高度的相似性( P=0.78),并且都与冰 粒 中的微生物组有明显不同( P<0.001)。冰 粒 样品按地理位置主要分为两组,青藏高原和阿尔卑斯山为一组,帕隆冰川和北极为另一组(补充图 7)。青藏高原和阿尔卑斯山的冰 粒 富含 Cyanobacteria 和 Proteobacteria,而北极的冰 粒有较高丰度的 Actinobacteriota, Acidobacteriota, Armatimonadota, Chloroflexota, Myxococcota 和 Eremiobacterota。 从功能上看,三个北极冰面的微生物组与青藏高原的微生物组相似,而青藏高原、阿尔卑斯山和北极地区的冰 粒 微生物组则不同(图 5b)。冰 粒 微生物组 多富集在在 核苷酸和脂质代谢有关的功能,而冰 和 雪微生物组则 富集在与 次级代谢物、萜类和聚酮类的合成以及辅因子和维生素的代谢 相关 的功能。 图 5.西藏、阿尔卑斯山和北极冰川微生物群落的主成分分析图。 a.群落组成的变化, 重点关注了生境类型和门水平 之间的差异(箭头)。 b.不同的生境类型在功能方面有明显的区分。富集在冰和雪样品中的功能主要 包括:( 1)其他氨基酸的代谢;( 2)辅因子和维生素的代谢;( 3)异型生物质的生物降解和代谢;( 4)萜类和聚酮类的代谢;( 5)其他次级 产物的生物合成。 作者提出了首个专门用于冰川生态系统的基因组和基因集,包括基于 培养的 883个 冰川 细菌基因组和来自 21个西藏冰川的 85个宏基因组 样本 ,涵盖了不同的生境,包括雪、冰和冰 粒 。 本文展示了 细菌和古细菌的 TG2G数据集,其中包括基因组和基因水平上的数据。该数据集包括 968个候选的可定义的细菌和古细菌物种(平均核苷酸一致性 ≥95%)和超过 2500万个基因簇, 为冰川微生物在基因组和基因水平上的分析提供了一个数据库和平台。 从而 有助于对 全球和本地冰川微生物多样性、功能和进化方面的研究,以及 评估 冰川融化的潜在健康风险。 参考文献: Liu, Y., Ji, M., Yu, T. et al. A genome and gene catalog of glacier microbiomes. Nat Biotechnol (2022). 姚檀栋,中国科学院院士,美国地球物理学联合会会士,第二次青藏高原综合科学考察研究队队长,现任 “第三极环境( TPE) ”国际计划主席、中国青藏高原研究会理事长、中国第四纪研究会副理事长等职务。现任中国科学院青藏高原研究所研究员、名誉所长、学术委员会主任。 刘勇勤,中国科学院青藏高原研究所研究员。从事青藏高原和南北极冰雪湖泊微生物与气候环境关系的研究。以第一和通讯作者在 “Nature B iotechnology ” , “Environmental Microbiology”, “FEMS Microbiology Ecology”, “Science of the Total Environment”, “Journal of Glaciology” 等期刊发表论文 80余篇。 骆迎峰 ,中国科学院微生物所 副研究员 , 中国科学院青年创新促进会会员 。 研究方向 为 生物信息学,基因组解析 ,宏基因组学 及其应用 。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请
点击举报 。