在今天的地球上,被子植物是植物界里的统治者,它们进化程度最高,种类最多,分布最广,适应能力也最强,然而,最原始的被子植物究竟应该长成什么样子?它们最早是什么时候出现的?又是在哪里出现的?古被子植物的系统发育和基因进化一直是一个有趣的话题,今天和大家一起探讨一下一个特别的植物无油樟。
The Amborella Genome and the Evolution of Flowering Plants
2013年发于Science
无油樟(学名:Amborella trichopoda),自成一目、一科、一属,只生长在新喀里多尼亚,是一种孑遗植物。无油樟是现存被子植物中已知最早和其它被子植物分开演化的,因而倍受植物学家注目。就像鸭嘴兽基因组对哺乳动物的出现提供参考一样,无油樟为人类了解开花植物或被子植物,甚至裸子植物的演变打开了一扇窗。
当今植物分子系统学的研究把无油樟放在了被子植物生命树的基部,使其成为其它所有被子植物的姊妹群,这也让这种植物身上的一些原始特征有了更好地解释,也让科学家们离未知的、最原始的被子植物更加贴近了一步。
无油樟组装使用鸟枪法组装结合了23G来之不通测序平台的single和paired-end数据(30X)。组装结果中含有5,745条scaffold 706M,通过整合了BAC、BAC-base的物理图谱,体外荧光原位杂交,全基因组光学图谱的方法来评估基因组的质量。对比当今Hi-C等技术,只组装到scaffold level显然有点不太完美,但这个方法在当时2012年还是很先进的。总体还行,不知道近年来会不会有其他人去改进这个基因组的组装结果。
基因和重复序列的注释使用的 DAWGPAWS-EVM 的pipeline,使用EVM糅合不同的evidences,这方法到现在还一直被不同的研究者使用着。无油樟的基因数目与拟南芥相似。通过Evidence Modeler整合注释结果,得到了26,846个基因,其中20,301(76%)基因有转录组数据支持。其中有17,089个基因有一个或多个内含子,86.9%的剪接位点有转录本支持。对比葡萄,拟南芥,还有桃子,无油樟有着更长的intron。 bisulfite sequence mapping表明无油樟中普遍存在基因体甲基化,表明它是开花植物最近的共同祖先中发现的祖先特征。
研究者将来自无油樟的scaffold水平的信息与来自葡萄(V. vinifera),桃(Prunus persica)和可可(Theobroma cacao)的染色体水平数据重建假定的七个推断的六倍体前染色体的结构 在核心双子叶植物的祖先。
无油樟基因组结构没有显示全基因组复制的证据,因为这个谱系与被子植物的其余部分至少分离160 Ma。然而,分析表明,在所有活的被子植物多样化之前不久,与全基因复制相关的复合基因拷贝就是复制的结果。 这个事件代表了植物中已知的最古老的全基因组复制,其结构证据依然存在。 无油樟基因组因此为阐明现存被子植物的MRCA中的基因组含量和结构以及解决WGD和单基因损失和增益的时间提供了独特的进化参考,这有助于被子植物的多样化
为了评估使用无油樟基因作为参照物去研究的被子植物基因的起源和历史的可行性,研究者将来自22个测序的陆生植物基因组的蛋白质编码基因聚类为53136个正交群(狭义定义的基因谱系,由相关的pfam提供注释 领域和完整的基因GO term包含在这些集群中的基因)。对被子植物衍生正交基因GO注释的分析揭示了正交群的起源,其功能与定义开花植物进化枝有重要关系。研究者发现,在这组正交群中被过度表达的GO注释,与生殖有关的(花发育,生殖发育过程,授粉和类似术语)。这些观察结果表明,大多数花卉基因的直向同源物早在它们在开花中确立特定作用之前就已存在,并且它们后来被选作为花功能。在被子植物起源之后,新基因起源于或被招募来改进或更狭窄地解析与花发育相关的功能。功能类别的富集模式在祖先种子植物和祖先被子植物中相似,包括参与生殖,调节和发育过程的新基因谱系。
MADS-Box基因, 糖原合成激酶3基因(GSK3), 种子存储的球蛋白, 萜类物质的合成基因,细胞壁和木质素基因都出现在无油樟的基因扩增中。以无油樟为参考,研究者研究了被子植物进化过程中基因家族多样化的模式,通常与被子植物谱系之间的表型分歧有关。
下面选取其中一个讲一讲:
GSK3基因编码信号转导蛋白,在真核生物的各种生物学过程中起作用。 与其在动物中的低拷贝数相反,GSK3基因在陆地植物中很多,并且具有不同的功能,包括被子植物中的花发育。祖先被子植物中存在的五个GSK3基因座随后在主要被子植物谱系中多样化,但仅在无油樟中检测到第六个祖先基因座。因此,在开花植物中,无油樟单独可能含有在现存被子植物起源之前出现的所有GSK3基因谱系,这凸显了无油樟重建祖先被子植物基因组的重要性。
无油樟中的转座子比其他被子植物晚,LTR插入时间大约在40百万年,末端重复序列显示至少80%的分歧度才能鉴定LTR家族,而无油樟仅仅只有10%的LTR显示出高的差异度,因此通过一个聚类的方法来鉴定LTR的家族。内源病毒占基因组的2.4%,TEs和内源病毒代表57.2%的基因组序列,仅仅只有四种DNA TEs被鉴定,CACTA和TC1/Mariner 类型没有出现。大多数DNA TEs高度降解,具有高度不同的序列并缺失末端反向重复序列,这再次表明数百万年以来可识别元素的持续存在。 无油樟基因组中最近缺乏转座子活性可能是由于非常有效的沉默或活性转座酶的丢失。
无油樟在新喀里多尼亚潮湿热带森林生长,通过重测序12来之已知群体的个体,遗传多样性(θω=0.0017, π= 0.0021),与毛果杨相似,平均的Tajima ’s D across是0.8137,可能代表平衡选择。然而,通过snp calling,基因组在等位基因变异中显示出显着的locus和scaffold的差异。例如scaffold 1,是高度多样性的,其他一些区域就接近没有这跟selective sweeps and/or a mixed mating system都有关。
这是一篇很牛的文章杂合了多组学的分析,借助很多文章和资料也是弄懂了其中一二。
核心信息:
无油樟和其它被子植物比较,帮助了核心双子叶植物最近共同祖先中祖先被子植物基因内容和顺序的重建。我们鉴定了新的基因家族,基因复制和第一次出现在祖先被子植物开花蛋白的互作。无油樟的转座元件古老且高度分化,并且没有近期的转座子扩增。新喀里多尼亚以内的无油樟群体分析表明无油樟近期的遗传瓶颈和地理结构的保守性。
有兴趣的朋友也可以通过原文链接查看该文献的原文。
还有更多文章,请移步公众号阅读
联系客服