打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
一作解读 | Phasebook: 专注二倍体基因组,长 reads 从头组装单倍型

kang弟弟是我多年基友。个人对他的认知:优秀。得知他们(他室友和他还有他导师)的文稿被GB接收时,我即邀请他写个介绍推文。没想到,文稿见刊比他的推文来稿早了很多。当然,还有国内的不少微信公众号跟进速度甚至比他们团队知道文章见刊的时间还早。不影响,我仍然要来他亲笔的稿件,因为往往只有软件开发者,文章主要作者能够最为准确的解读他们的工作成果。话不多说,与大伙共读 

- CJ - 陈程杰


前言介绍

单倍型(Haplotype):以人类为例,正常体细胞当中,染色体是成对出现。每一对染色体中,一条来自父方,另一条来自母方。在遗传重组的时候,分布在同一条染色体上面的多个基因正常情况下会捆绑在一起遗传给子代。换句话说,在遗传学上是指在同一条染色体上进行共同遗传的多个基因座上等位基因的组合。单倍体基因型(单倍型)是考虑单个染色体而不是染色体对的基因型。 

https://www.genome.gov/genetics-glossary/Diploid

单倍型组装在基因组学、精准医学以及许多其他方向的研究中有重要作用。比如通过区分不同亲本染色体的遗传信息,深入了解单条染色体或特定单染色体区域不同遗传位点的组合及遗传模式,在植物育种方面可以更为深入地研究杂种优势的潜在机制;在医学研究上可以更深层次地研究复杂遗传疾病的发病机制,并为疾病的早期诊断和治疗提供可能。因此组装出高分辨率的单倍型,在研究上具有重要的理论意义和实用价值。

然而,现有的单倍型组装方法大多基于参考基因组组装,容易引入误差并且丢失不同单倍型中特有的基因突变。本文将介绍 Phasebook 如何利用长readsPacBioHiFiPacBio CLR 和 OxfordNanopore readsde novo 组装出单倍型。其组装出来的 contigs 在单倍型覆盖率,错误率和连续性等方面远优于其他方法。

算法流程图 1

方法

Phasebook 组装过程大体上可以分为3个步骤:首先根据reads之间的重叠区域长度和一致性进行聚类然后在每个组分里面根据SNP的信息进行分型,接着基于 overlap graph 组装。在此进行简要概述,具体请参考原文。

第一步进行聚类:先对长 reads 进行校正然后利用 minimap2 比对所有 readsall reads vs all reads),接着根据 reads 之间的重叠区域的长度和一致性进行聚类。第二步是在这些聚类出来的小组分中进行第一次初步组装,组装出来的长片段作为临时的参考基因组进行 SNP calling。然后再基于 SNPs 信息将这些小组分里面的reads再一分为二(代表不同单倍型来源)接着分别将这两个组分,分别组装出高精度的长片段(图2)。最后一个步骤是将所有的长片段(super reads)收集起来,再根据overlap graph进一步延伸,对于一些有冲突比如四条长片段都有overlap的,Phasebook 选择断开不对它们进一步连接和延伸。

算法流程图 2

结果

本文所展示的是作者提交的第一版的结果。相较于最终版,它更为简洁清晰方便读者理解。最终版里面补充了人类和拟南芥全基因组装结果也很值得一读(参考GB正式文稿)。下述benchmarks结果,利用 Quast 对组装结果进行评估,这里的错误率(Error rate)代表错配(mismatches)加上插入缺失的错误(indels),Ambiguous bases代表N的数量。利用Phasebook 组装了人类MHCMajor Histocompatibility Complex)区域和6号染色体。其中MHC用的是模拟数据而6号染色体用的是真实的测序数据。

首先组装的是Nanopore数据(图3)。在MHC区域中Phasebook可以覆盖97%单倍型区域(Haplotype coverage),比其他软件至少高出20.5%(最高的是wtdbg2 76.5%)而且错误率也是最低的只有0.092%Misassembled contigs(一条contigs只有部分区域能比对到参考基因组上)也比其他方法低了一个数量级(只有2.8%)。在真实的数据中,六号染色体的组装结果,也表现出类似的优势。比如Phasebook可以覆盖更多的单倍型区域(84%)以及较低的misassembled contigs9.6%)。

图 3 Nanopore 测序数据评估

PacBio 数据的组装结果类似(图4)。组装出来的contigs可以覆盖95.2%MHC单倍型区域和92.9%的六号染色体。

图 4 Pacbio CLR 测序数据评估

最后比较不同软件组装PacBio HiFi的数据的结果,Phasebook的优势并不是那么明显。在MHC区域和六号染色体的组装结果中,Phasebook的错误率和misassembledcontigsHifiasm低,并且在MHC区域Phasebook的单倍体区域的覆盖度会稍微高于Hifiasm,但是在六号染色体上面Hifiasm反而比较高。

图 5 Pacbio Hifi 测序数据评估

写在最后

Emmm,kang弟弟估计是第一次写推文,没给个总结。我补充一下。从上述介绍,我们可以得出一个结论:phasebook 是二倍体基因组单倍型组装的最优软件,尤其从覆盖率和准确性说。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
T2T基因组测序的那些事儿
瞬息全碱基:泛基因组日臻成熟 |《自然》长文
原创解读 | PC:面包小麦的起源与演化(中)
【最新成果】—双峰驼基因组染色体精细图谱的绘制及免疫基因研究
CNVnator原理简介
基因印记(Genomic imprinting)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服