打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
系统发育分析学习心得

系统发育分析学习心得

这个春节期间,新冠肺炎就蔓延全国,武汉封城,湖北戒严,全国进入疫情防控阶段,所以春节假期一再“充值”,假期一再延长。帝都现在还处在防疫阶段,单位回不去,家里不让外出,宅到底吧。
看了点近期新冠病毒的文章,这学术圈的故事也都能拍电视剧了...... 言归正传,因为我既不做病毒也不从事临床医学,所以就从这些文章中的进化树联系到前几年我的系统发育分析入门过程,当时的资料比较少,也是一路的手忙脚乱,幸好有不少热心同行给与的帮助,才算完成了课题。今天就介绍一下画系统发育树的大致流程和部分工具平台。
在这里要感谢福建农林大学的高芳銮老师,高老师无私奉献,现在网络上很多系统发育的教程和资料都是高老师整理公开的,我也是受教颇多。
  • 传统的物种鉴定分析中会利用物种的性状构建矩阵然后绘制系统发育树。随着分子生物学的发展,尤其是测序技术的进展,利用Marker序列进行同源序列比对,之后可以计算遗传距离矩阵,绘制系统发育树,通过分子钟计算进化速率,计算进化选择压力等等。
  • 系统发育分析最原始的数据是序列信息,可以是核酸序列也可以是蛋白序列。这些序列可以是自己测序获得,例如原来的EST序列,基因序列;也可以是公共数据库(GenBank,EBI,Swissprot等)来源的已发表数据。现在也有利用SNP,基因排列顺序与间距等信息进行系统发育分析的。
  • 获得序列后要进行多序列比对,有多种工具都可以完成:MEGA,Bioedit,Clustal,MAFFT,MUSCLE等。构建系统发育树可以是单基因建树也可以是多基因建树,现在转录组测序和基因组测序已经非常普遍,所以多基因建树是越来越多,因为单基因的序列信息比较少很容易造成偏差。在多基因建树的时候,序列文件建议保存为.fasta文件,按每个基因一个文件保存,在每个文件中按相同的物种顺序保存fasta格式的序列,物种名的ID要特别注意,因为部分软件只识别前十个字符,当物种名是拉丁名的话,结果能让你哭死。多序列比对推荐使用MAFFT,它的精度和速度都是比较好的,而且命令行操作,批量处理很容易。
  • 序列比对完后可以进行序列保守性选择(Gblock),替换饱和性检验(PAUP麻烦要自己作图,DAMBE)等分析,检测序列是否适合用来构建系统发育树。
  • 序列处理完后,就可以用来建树了,构建系统发育的方法主要有邻接法(NJ,Neighbor Joining)最大简约法(MP,Maximum Parsimony),最大似然法(ML,Maximum Likelihood)和贝叶斯法(BI,Bayesian inference)。NJ法比较好做,MEGA可以直接做了,Phylip也可以,不过分步做的巨麻烦;MP树现在用的比较少,当时用过PAUP,这个还收费,跑的慢的怀疑人生;ML和BI树是现在接受比较多的,也是做的比较麻烦,树计算的时候需要提前进行模型计算和选择(ModelGenerator,MrModelTest,MrMTgui,ModelTest,ProtTest),其中ML树的工具比较多PhyML,RaxML,IQtree,FastTree都可以,最开始用的PhyML里面一堆参数要一步步输入比较麻烦,后来RaxML可以在服务器上用脚本直接运行,计算资源丰富的话速度很快,IQtree做了进一步的整合,把进化模型计算和进化树构建合并,简化了步骤,速度也提升,FastTree我没有使用过;BI用Mrbayes构建,需要迭代1000000~2000000等,非常耗费计算资源。
  • 像病毒,菌类的进化树构建往往物种比较多,这时候的计算量会非常大,在PC机上计算时间往往按天计算,甚至周和月。有个师兄说过他们当时在台式机上计算了一周快出结果了,然后停电了!停电了!停电了!!!不只是构建系统树,进化模型选择都需要较大的计算资源,如果有服务器或者工作站还好,台式机或笔记本风扇疯狂转然后机子卡死直让人想砸电脑。现在有一个在线的工具CIPRES Science Gateway Web (https://cushion3.sdsc.edu/portal2/login!input.action),是由UC San Diego搭建的网页版平台,注册账号后可以在线提交自己的数据利用他们的超算完成BEAST2,PhyloBayes,RAxML,MrBayes和IQtree等等的计算,现有的系统发育分析中大部分的计算都可以在这个平台上完成,节省自己的计算资源。
  • 建树完成后只是完成了一半工作,后续需要进行系统发育树结构调整和美化。可以对物种进行删减,分支合并,上色,添加背景等。相应的工具有:MEGA,Figtree,PPT,iTOL,ggtree等。
系统发育分析如果深入挖掘还真是一个特别细致和繁琐的学科分支,需要花大把的精力和时间学习的。在这里只是简单介绍了系统发育树构建的流程和常见的部分工具,每个工具的使用教程网络上都有大把的资源,我在这就不详细展示了。许多系统发育分析的软件对用户十分不友好,而且不同软件之间衔接很有问题。福建农林大学的高芳銮老师和中科院水生所的张东等人开发了EasyCodeML和PhyloSuite等软件将很多工具和步骤整合到了一起,解放了大家的手脚,而且现在他们都很活跃和友善,有问题可以直接和他们交流。最后,给大家介绍陕西师范大学黄原老师的《分子系统发生学》,在这本书里详细的讲解了多数的工具使用和计算原理,是一本非常详尽的工具书,值得细细学习。很惭愧,这本书到手很长时间了,一直没系统学习,只是翻看了部分。前人说的好“书非借不能读也”!!!

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
一文读懂进化树
系统进化树的这些知识,你都Get了吗?
比较叶绿体基因组提供海草适应性进化新见解
Nature Reviews Genetics | 基因组时代的系统发育树的构建
16S测序结果解读2—物种丰度统计和系统发育树
群体遗传专题:系统发育基础知识介绍
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服