上期我们把基因组de novo的选材问题搞定了,要开始基因组测序和分析了,在获取物种的全基因组碱基序列后,你可能会问到:如何进行下一步分析,分析后又会得到怎样的结果,这些结果又能说明什么问题呢?这些问题的答案都是有迹可循,菲沙基因呈上五个基因组分析流程要点,让你认清基因组套路。
从近年来的基因组de novo文章来看,基因组分析流程基本上已经稳定,可以具体分为以下几个部分:
说人话就是,基因组survey是在做基因组de novo项目前,对该物种基因组做的前期调查,确定物种基因组大小、杂合度、重复序列等信息,再根据这些信息制定后续测序策略,可谓“磨刀不误砍材工”
常用套路:基于Illumina测序平台,构建350bp PE文库,测序量为基因组大小的50~100×。
做过大基因组项目的老师都知道,这个可谓是基因组项目最为重要的一步,测序烧的钱都是为了这一步,组装得到高质量的参考基因组,因此,如何选择高性价比的测序策略尤为重要。
1. 基于PacBio平台进行三代测序,构建基因组组装主体,测序量建议80~100×,获得高质量contig序列;
2. 构建Hi-C文库,测序量建议100×,构建全基因组互作图谱,进行染色体级别的scaffolding;
3. 基于BioNano平台构建光学酶切图谱,测序量建议100×,基于进行长片段scaffolding;
4. 基于10×Genomics平台构建长片段linked-reads,测序量建议100×,进行序列scaffolding;
5. 基于Illumina平台构建350bp PE文库,测序量建议50~100×,该数据可用于对组装结果进行polishing和补洞。
基于菲沙基因已完成的大量大基因组项目经验,推荐PacBio+BioNano+Hi-C技术结合,获得高连续性的Contig,同时将基因组构建到染色体级别。
你以为你得到的Contig,Scaffold够长,就能说明基因组组装质量高吗?可能那些年你被带偏了,基因组质量需要Contig,Scaffold N50及基因完整性等来综合评估。
1. Contig N50和Scaffold N50指标;
2. 利用EST或RNA-seq数据评估Scaffold上组装出的基因完整性;
3.利用CEGMA或BUSCO分析,以验证保守核基因的完整性。
联系客服