六步教会你基因组组装！

序列组装是宏基因组测序分析中的一个重要模块，也是较复杂的部分。不同于一般的基因组组装，其组装出来的是多个微生物基因组序列，这也增加了其复杂度。接下来两期我们将从基因组组装原理和操作方法两个部分为大家全面讲解这部分内容。

基因组组装一般有基于OLC（先重叠后扩展）和基于De Brujin图（DBG）两种组装算法，基于OLC的组装方法适合长序列组装，运行依赖的数据结构需要消耗大量的内存，且运行速度比较慢，错误率高，而DBG组装方法内存消耗相对较低，运算速度快，且准确率高，本期我们主要介绍基于DBG基因组组装算法的基本原理。

基于DBG的基因组组装方法一般分为以下六个步骤：

A. 序列k-mer化：对插入片段进行建库测序，下机reads经质控后，对clean reads进行k-mer化，即将reads 逐个碱基开始切分为长度为K的子串；

B. 构建de Brujin图：将上一步得到的所有长度为k的子串即k-mer作为de Brujin图的节点，根据相邻两个K-mer重叠k-1个碱基的原则将该两个顶点（k-mer）有方向的连接起来，构建de Brujin图，如下图所示:

C. DBG简化：去掉无法继续连接和低覆盖度的分支，通常有如下几种情况：

1）直接删除由于测序错误形成的低频K-mer；

2）通过短序列将一些很短的重复解开；

3）如果Kmer1和Kmer2有很高的相似性，将形成的泡状结构合并；

D. 解图获得一致性序列：在简化图的基础上，仍然会因有很多分叉位点无法确定真正的连接关系，因此接下来的每个分叉位点将序列截断，得到contigs；

E. 构建scaffold: 将质控后的reads比对回上一步得到的congtigs，利用reads之间的连接关系和插入片段大小信息，将contigs连接成scaffolds；

F. Gap Close: 通过PE reads来填补scaffolds内部的Gap，经过Gap填补后，如果还有含N的Gap，则将该条scaffold在Gap处打断，并去掉N，形成最后的scaftigs；

本期讲解的是序列组装的理论部分，大家可以好好消化一下这部分内容，下期将为大家带来具体操作软件及方法，敬请关注！

供稿：微生物事业部韩娜

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。