打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
中国生物器材网--DNA测序技术的现状和发展(中)


2. 用于处理新一代测序技术数据的软件和标准

各种新一代测序仪的飞速发展面临着一个极其重要的问题,那就是生物信息学问题,这些问题包括序列质量评分(sequence quality scoring)问题、序列比对问题、序列组装问题、数据发布问题等。下面将逐个进行讨论。

2.1 序列质量问题

目前,序列质量评分问题是受到广泛关注的一个问题。造成这种现象的原因主要是因为所有新一代测序仪的测序质量都不高,而且不同的序列情况都有各自的误差率。随着新一代测序仪产品的不断成熟,在临床及科研工作中的应用范围越来越广,它们的测序质量也就变得重要起来,而且我们也需要对各个测序仪的测序质量有一个清晰的、可靠的评价标准。由于这个问题还只是刚刚出现,所以我们有机会设立一个全球统一的、标准化的评价体系对目前现有的以及将来即将出现的测序仪进行评价。我们希望避免再次发生类似过去几个芯片厂家之间进行数据比较的尴尬局面。对于测序仪的应用范围进行标准化的质量评价也是有好处的。比如评价从头测序的质量、评价测序结果与参考序列的相似度、评价测序仪发现突变以及多态性的能力以及对测序仪在进行大规模测序项目研究时的质量可靠性进行评价等。表7列出了几项应该被重点评价的项目。

这些质量数据都应该以一种简单、标准化的方式包含在测序结果中。现在所有的测序仪器生产商也都在他们的测序报告中加入了测序质量信息,消费者可以借此对数据进行交叉比较,甚至还有可能各取所长,将不同测序仪的测序结果整合起来,获得最佳的测序结果。目前,旨在从短片段测序结果中发现多态性以及突变位点的重测序项目经常会依靠“主要投票机制(majority voting scheme)”。该方法易于操作,但是容易出错,假阴性率较高。诸如Brockman小组和Quinlan小组开发的,更多更好的用于发现单核苷酸多态 性的方法是将误差率与单个碱基信号联系起来,即误差率与测序质量和序列内容相关,这样就能获得更准确的结果。我们估计,像phred样质量值之类的评价体 系以及“第三方”算法的不断发展,最终一定会诞生一个很好的发现多态性的工具。

2.2 用于分析数据的软件以及生物信息学工具

虽然这些软件和工具都还没有完全商业化,但我们还是能获得一些软件用来分析新一代测序仪的测序结果(表8)。这些软件和工具的功能主要集中在4个方面(表9)。

序列比对和组装是一个颇受关注的问题。虽然BLAST和BLAT等序列比对工具对于长片段的序列比对来说非常有用,但是它们不适合新一代测序仪获得的短片段序列。因此,有大量的针对短测序片段的比对工具出现,这些工具中允许错配或者空隙出现。这些工具中有些借鉴了非常成熟的序列比对算法,例如 Smith-Waterman算法等,不过还是有很多新的专门针对短序列片段的算法出现。比如SOAP就是这样一种新型算法,这个软件包能非常有效地进行 有空隙或者无空隙的序列比对。该软件包使用了一种内存密集种子(memory-intensive seed)算法和查表格(look-up table)算法来加快比对速度,同时能够对最容易出错的3’端序列进行反复调整。

其它用来加速比对过程的方法还包括“字节编码(bit encoding)”技术。该技术能将序列信息压缩成计算机信息,这样更利于计算机管理和分析。越来越多的比对软件在进行比对时开始考虑数据质量,比如能 处理Solexa测序仪测序结果和SOLiD测序仪测序结果的MAQ软件,以及能用最新的“字符空隙转化成彩色空隙(color-space to letter-space)”的Smith-Waterman算法对SOLiD测序仪的双碱基编码测序结果进行分析的SHRiMP 工具(http://compbio.cs.toronto.edu/shrimp/)。

和序列比对算法的进展情况不同,如何将相对低质量的短片段序列从头组装起来还是一大难题。不过,已经有好几种组装工具开始投入使用了。对于这种短片段序列的从头组装工作来说,配对序列对于整个工作的成功与否影响最大,因此已经有人开始利用配对序列设计新的组装工具了。

2.3序列数据出版、发行、组织存档原则

目前对于如何组织、存档以及发布这些新一代测序仪产生的短片段序列结果正处于热烈的讨论之中,人们希望制定一个类似芯片试验 (microarray  experiments,

http://uhts.lbl.gov/)时制定的MIAME(Minimum  Information About a Microarray Experiment)规则。这些早期的工作经验在如何处理包括生物学注释信息、临床原始数据、关键试验细节(比如样品特征、样品处理方法)在内的元数据,以及如何处理、出版发行这些数据等方面给了我们良好的建议。如何对这些新一代测序仪的测序结果数据进行公共管理也是一个需要探讨的问题。NCBI最近专门为短片段序列建立了数据库Short  Read  Archive(SRA),并同步制定数据提交格式。SRA数据库不仅会收集包括实验注释信息、试验参数等信息的数据,而且还会被整合到Entrez查询系统当中。目前的工作主要包括开发线上搜索工具、数据图形化工具,这些工作有望在近期完成。

3. 新一代测序技术的前景

在2007年6月,James Watson的基因组序列登录到了GenBank数据库当中,这是第一次使用非Sanger测序法获得了人类个体基因组序列,并且第一次将个人基因组序列公之于众。整个测序过程在两个月之内就完成了,花费不到100万美元,这只占耗时10年之久的人类基因组计划使用经费的千分之一,同时还是2007年5月 在网上公布结果的Venter基因组计划费用的百分之一。我们比较了454测序仪最初的技术参数(每次可以获得两千万碱基序列,测序长度100bp,准确 率96%)和用于对James Watson进行测序时的技术参数(每次可以获得一亿碱基序列,测序长度250bp,准确率超过99%),结果发现摩尔定律真的适用于基因组测序领域。

454测序仪和其它的新一代测序仪(图7)一起,展示出了小型化技术和并行处理技术的威力,它们提高了处理通量,降低了测序费用。除了引领新一代测 序技术的发展之外,454公司的研发团队还开发了体外DNA文库构建、模板扩增等技术,而且这些技术现在都已经被市场上其它新一代测序仪所广泛使用。很快,随着计算机技术的飞速发展,个体基因组测序的费用将会由100,000美元降低到10,000美元,继而降低到1,000美元甚至更低。个人基因组时代马上就要到来了!

从费用角度、适用范围和限制性来说,传统测序仪和新一代测序仪之间具有明显的差距。因此,对于每一个具体的项目来说,都需要仔细考虑,选择出最合适 的测序仪。传统的Sanger测序法适用于对kb~mb长度的DNA片段进行的小规模的测序项目。Sanger测序法相比新一代测序法而言具有极大的“间隔尺寸(granularity)”,既能用于大型项目也能用于小型项目。虽然与传统测序仪相比,新一代测序仪在某些方面很明显地处于劣势,比如在测序长 度和准确率方面,但即便如此,在处理大规模的测序项目时大家还是倾向于选择新一代测序仪。

看看新一代测序仪对以往使用传统测序仪进行的生殖细胞突变和体细胞突变研究的帮助就可以认识到它们的作用有多么强大。在这项研究里,使用 Sanger测序法除了试剂这一项费用之外,其它的费用也远远高过了使用其它新一代测序仪。这些其它费用包括在96孔板或384孔板中处理样品的费用、电泳费用、大量的生物信息学处理费用以及设备维护人工费用等。研究人员最近对100份样品中的100个基因使用传统测序方法究竟需要花费多少费用进行了一次非正式的调查,假设每个基因平均由10个外显子组成,结果发现整体费用在30万美元至100万美元不等,价格依据测序单位是非盈利的基因组测序中心还是商 业化的测序服务机构而不同。很显然,这么高昂的费用对于任何一个实验室来说都是难以承受的。新一代测序仪除了能将测序费用降低好几个数量级之外,它们还具 有所需仪器设备少的优点,不过新一代测序仪在后续数据处理方面会碰到问题。

各款新一代测序仪之间也有非常明显的差异(表10),它们都有各自“拿手”的绝活(表11)。有一些测序项目,比如重测序 (resequencing)对于测序仪的测序长度要求就没有从头测序的要求高。对于需要依靠标签计数(tag counting)的测序项目,例如在定量分析蛋白质与DNA之间的相互作用时,我们就会更加需要能将待测片段分割成尽量多、尽量小片段的测序方法。测序 的准确度和各自相对拿手的项目,比如是善于发现插入、缺失突变还是善于发现碱基替换突变也是需要着重考虑的问题。另外,在进行从头测序或发现结构性变异的 研究时使用的配对测序法已经广泛应用于各种新一代测序仪当中。这时,这些配对的模板片段在芯片上的分布情况,比如相互之间的距离远近等就是需要重点考虑的问题了。

注:DNA测序领域的快速发展使得对各类测序方法的价格及读长的评估在很短时间内便失去意义。Roche Applied Science、Illumina及Applied Biosystems公司目前都在不断推出新的产品。表中列出的测序费用只是对使用的反应试剂费用的一个估算。测序长度指的是单链长度。

最后,需要考虑的当然是价格因素,各个新一代测序仪的费用都不相同,作为消费者,当然希望各个测序仪生产厂家之间的竞争更加激烈一点。单纯比较每个碱基的测序费用是一个不错的选择方法,不过有时这也会误导我们,比如准确率更高的方法当然费用会高一些。

5. 总结

过去几年间,新一代测序技术获得了突飞猛进的进展,同时有好几款使用大规模平行循环芯片测序技术的测序仪得到了广泛的应用。这几款测序仪虽然使用的 技术有所差异,但是在测序数据的质量和数量方面都有着同样的特征,因此也都面临着同样的试验设计、数据分析和注释的问题。不过,这些新一代测序仪将以往的测序费用降低了好几个数量级。鉴于此,以前只有大型测序中心才能够开展的项目,现在在小型实验室里也能顺利进行了。由于新一代测序仪的出现,测序研究领域 也开始升温,有些研究团队正在努力开发新的测序技术希望能够取代现有的新一代测序仪。按照目前的发展速度,我们很难估计几年之后的情况。不过,能够预计的 是,下、下一代或者说是第三代测序仪一定会像十年前的芯片技术一样,迅速地普及开来,从而成为常规的技术。希望人们不仅关注测序技术本身的发展,更加关注 如何利用测序技术来揭开生物学和医学上的众多谜团。

原文检索:
Jay Shendure & Hanlee Ji. (2008) Next-generation DNA sequencing. Nature Biotechnology, 26(10):1135-1145.
Jonathan M Rothberg & John H Leamon. (2008) The development and impact of 454 sequencing. Nature Biotechnology, 26(10): 1117-1124.

四、新型纳米孔测序技术

新型纳米孔测序法(nanopore sequencing)是采用电泳技术,借助电泳驱动单个分子逐一通过纳米孔来实现测序的。由于纳米孔的直径非常细小,仅允许单个核酸聚合物通过,因而可 以在此基础上使用多种方法来进行高通量检测。此外,纳米级别的孔径保证了检测具有良好的持续性,所以测序的准确度非常高。对于长达1,000个碱基的单链 DNA分子、RNA分子或者更短的核酸分子而言,根本无需进行扩增或标记就可以使用纳米孔测序法进行检测,这使得便宜、快速地进行DNA测序成为可能。如 果对现有纳米孔测序法进行进一步发展和改进,那么它将有望成为第三代测序技术(也可称为下、下一代测序技术),从而帮助人们实现24小时内只花费 1,000美元完成二倍体哺乳动物基因组测序这一目标。

一个盛满电解质溶液的容器被一纳米孔膜隔成两半,如果施以比较小的电压,如约100mV电压,就能使用标准的电生理检测手段测量通过纳米孔的电流大小。很多生物电通道的开关都是靠小肽段分子是否堵塞通道来实现的。基于这个事实,加州大学圣克鲁兹分校(University of California Santa Cruz, UCSC)的Deamer和哈佛大学(Harvard University)的George Church都不约而同地提出一个构想:如果DNA分子或者RNA分子也能堵塞某个通道,那么应该可以运用上述方法来检测电流。接下来,Deamer和 Branton等人证明了单链DNA和RNA分子能通过蛋白质组成的孔道,并且能检测到它们通过这种纳米级孔道时所造成的电流改变(图8a)。他们使用的孔道蛋白是金黄色葡萄球菌α溶血素(Staphylococcus aureus toxin,α-hemolysin)。这种蛋白以前曾被Bayley小组用作生物传感器。Bayley小组发现,α溶血素蛋白非常稳定,即使在接近100℃的情况下也能维持正常的功能。Deamer和Branton等人发现,因为α溶血素蛋白孔径非常小,简直与单链核苷酸的直径相差无几,所以可以将 折叠卷曲的核苷酸链解开,并仅允许它以单链的形式通过蛋白孔道。单链核苷酸分子穿过蛋白孔道时会造成局部电流改变,即相比没有分子穿过时的电流强度有所减 小。基于这个现象,Deamer和Branton等人猜测,如果核酸分子中每一个核苷酸通过孔道时都能出现一种特定形式的电流改变,那么通过分析电流改变 的情况不就能知道核酸的序列了吗?

为了验证这个想法,Deamer小组、Meller和Branton小组使用好几种不同的RNA分子和单链DNA分子进行了研究,以观察它们对电流 的影响。结果发现,polyC RNA分子引起的电流强度下降比polyA RNA分子要强得多。此外,他们还发现,由30个A和70个C组成的RNA分子在序列从A转变成C时电流强度也会发生改变。不过不幸的是,这种嘌呤和嘧啶之间的明显差异没能在脱氧核糖核苷酸试验中发现。实际上,在RNA试验中观察到的polyA和polyC引起不同形式的电流改变是由碱基堆积(base stacking)和二级结构上的差异造成的。随后,使用不同DNA同聚物(DNA homopolymer)进行试验发现,脱氧嘌呤寡聚物(deoxypurine oligomer)和脱氧嘧啶寡聚物(deoxypyrimidine oligomer)引起的电流改变差别并不大,只有不足5%。而且这种电流改变差异是由10~15个核苷酸(占据了α溶血素蛋白的跨膜区)引起的,它无法 区别单个核苷酸引起的电流改变之间的差异(图8a)。

虽然这些最初的纳米孔实验并没有获得预期结果,但它们至少显示出纳米孔在单分子技术方面的应用优势,例如高度的敏感性,同时也带动了纳米孔核酸分析技术的研究热潮,并在理论及实验方面取得了一些成果。自从发现在电场力作用下,长达1000个碱基的单链DNA分子也能通过纳米孔之后,人们就更加坚信, 廉价的纳米孔测序技术一定会成为现实。与此同时,与纳米孔有关的研究更是大大增加。曾有人使用液态双分子层(lipid bilayer)构建蛋白质孔道,最近还出现了固态材料或塑料材料的纳米孔道。事实上,一直为10年内完成1,000美元检测个人基因组这一目标努力的美国国家人类基因组研究所(NHGRI),已经给纳米孔测序研究提供了好几笔经费了(详见http://grants.nih.gov/grants /guide/rfa-files/RFA-HG-04-003.html,图9)。

尽管纳米孔技术是好几项单分子应用技术的基础,但DNA链具有的长度还是成为采用纳米孔技术进行测序的一个障碍。此外,随着目前合成测序法 (sequencing by synthesis, SBS)技术正在不断发展,并且费用越来越低,那是否还有必要继续研究纳米孔测序技术呢?这也正是目前大家对纳米孔测序技术的一个疑问,人们希望更多领域的科学家和研究人员可以共同参与讨论,提出合理的解决方法。

1. 纳米孔测序技术的特点

纳米孔测序技术一个最突出的优势就是便宜,尤其是在样品准备阶段几乎不需要耗费什么试剂,而且也不需要像别的测序方法那样使用核苷酸、聚合酶或连接 酶等等。因此,纳米孔测序技术要比传统的直接测序(direct strand sequencing)、Sanger合成测序法或其它方法的费用低得多,也比最近开发出的大型高通量测序仪,如罗氏公司的454、Illumina公司 的Solexa、Applied Biosystems公司的SOLiD、Helicos公司的HelioScope等要便宜。与上述所有技术都不同,纳米孔测序技术根本无需纯化的荧光素试剂,也无需进行DNA扩增,因此不仅省去了试剂的费用,还省去了克隆、扩增的时间,真正做到了省时又省钱。

一台理想的使用电检测技术的商业化测序仪需要由以下两个部分组成:一次性的检测芯片(disposable detector chip),该芯片整合有纳米孔芯片、微流体系统、电子探针系统等;以及一套可以控制试验操作并分析试验数据的便携式工作系统。假设一个芯片能对一个人的 全基因组进行测序,那么这一次检测的费用就只包括制备DNA样品的费用、设备使用费和一次性芯片的费用。

理论上说,使用纳米孔测序仪只需要用不到1μg(即从不到106个细胞中提取的不到106个基因组拷贝)的基因组DNA样品就可以获得六倍的序列覆盖量。不过,在实际操作过程中可能需要108个基因组拷贝,这样才能保证在25μl~50μl的操作体系中达到足够的检测浓度。

人类108个基因组拷贝大约相当于700μg人类二倍体基因组组织,这点DNA可以用商业化的试剂盒直接从血液等组织中抽提出来,抽提一次的费用只需要不到40美元。

在纳米孔测序过程中,长约6×109的二倍体哺乳动物基因组会被分割成长约50,000碱基的单链DNA分子分别进行测序。这种一次检测50,000个碱基的能力大大方便了后续序列拼接阶段的工作。如果纳米孔测序技术真的能够只需要一点点样品,同时还不需要对样品进行标记等操作的话,那么检测一次的费用就只包括芯片的费用和仪器使用费,这绝对不会超过1,000美元。不过,要实现这一美好的目标,目前还存在几个问题需要克服。

2. 发展纳米孔测序技术可能会碰到的问题

现在,基于纳米孔技术已经发展出了好几种检测碱基的方法。下面将列举几种,目的不是介绍测序方法,而是为了详细说明纳米孔测序技术会碰到的主要问题。

当单链DNA穿过生物纳米孔道或固态纳米孔道时检测电流。尽管如上所述,已经有试验清楚证明了可以通过检测电流强度改变的情况来区分不同的多聚核苷酸分子,但到目前为止,还没有一种生物纳米孔或人工纳米孔能有一个非常合适的几何学结构,可以让人们在多聚核苷酸分子穿过纳米孔时检测单个核苷酸造成的电 流改变。人们目前可用的这些纳米孔都太长,没有一个长度短于5nm,而太长的纳米孔通道会造成一次有10~15个碱基的单链DNA分子穿过,所以无法对单个碱基分子进行检测。即使“无限短”的通道也无法达到所需的分辨率,这是由于电场区域决定了通道电子读出的区域,电场区域会向通道两侧各扩展大约一个通道 直径的长度。因为纳米孔的直径要能允许单链DNA分子(直径约1.5nm)通过,而电流的分辨率只能达到3nm,这就决定了只检测电流强度的变化无法达到 “空间”上的分辨率要求。而且单链核苷多聚物在150mV的电场中,以大约1个核苷酸/μs的速度通过纳米孔。但是要达到在皮安(pA)电流水平上检测单 个核苷酸的精度就需要延缓单链核酸分子通过纳米孔的速度,至少要超过1msec以上。

虽然使用纳米孔无法区分DNA链中相隔仅0.4nm的相邻核苷酸,但如果纳米孔技术和杂交测序技术结合起来,那么测得的粗略的电流改变信息就能用于核酸分子测序。所谓杂交测序,就是通过大量已知序列的探针与待测样品杂交,然后根据产生的杂交图谱排列出靶DNA的序列。不过在杂交测序时,与待测样品结 合的探针的位置和数量都必须弄清楚,但是仅靠杂交测序是不能得到这些信息的。而纳米孔测序技术就很容易区分单链DNA和双链DNA了,所以也就能很好地判 断被探针杂交的位置和数目。因此,如果能将这两种技术结合起来,就能实现准确的测序了。实际上,这也正是杂交辅助纳米孔道测序技术 (hybridization-assisted nanopore sequencing, HANS)的原理。不过,目前HANS技术还存在两大问题(表12)。

依次从DNA链末端切割碱基,以检测这些碱基逐个通过纳米孔道时引起的电流变化,用这种新方法来测序。Keller等人当初认识到可以使用核酸外切 酶逐次水解DNA末端的脱氧单磷酸核苷(deoxynucleoside monophosphate, dNMP),然后逐个识别这些dNMP,这样就可以对DNA链进行测序了。但当时苦于没有好的办法确认这些未被标记的dNMP,所以阻碍了这种测序技术的 发展。现在,纳米孔技术的发展给这种测序技术带来了重生的曙光。研究发现,α溶血素与一个氨基化环糊精配体(aminocyclodextrin adaptor)结合之后(即在α溶血素孔道内共价结合上一个环糊精),就可以识别未被标记的碱基了。基于这项研究成果,英国牛津纳米孔技术公司 (Oxford Nanopore Technologies)最近成功地将一个氨基化环糊精配体共价结合到了α溶血素孔道内(图8b)。当一个dNMP通过固定于脂质双分子层中的α溶血素 氨基化环糊精孔道时,跨孔电流强度会发生四种改变,即每一种dNMP通过纳米孔道时都会引起一种特定形式的电流强度改变,因此,可以通过测量电流强度的改变来判断究竟是哪一种碱基(A、T、G、C)通过了纳米孔。另外,由于电流强度的改变非常明显(因为碱基堵塞纳米孔和未堵塞之间,电流强度差异特别大), 所以也就可以准确的判断出有多少个碱基通过纳米孔了。现在,对于这种纳米孔测序技术来说,最重要的是如何保证被核酸外切酶依次切下来的碱基能100%依次 通过纳米孔。由于该方法采用纳米孔来识别释放的dNMP,而不是通过对完整的DNA链上的碱基进行鉴别,因此,这种逐次“阅读”碱基的方式能否如实反映 DNA链中碱基的真实顺序就显得尤其重要了。最后,选择哪种核酸外切酶也是很重要的一步。可以采用将核酸酶和α溶血素基因剪接在一起的重组片段,或者采用 化学方法将核酸酶与α溶血素结合在一起,从而确保释放的dNMP能够通过纳米孔。这种核酸外切酶应该具有可持续性、检测时低噪音,以及同时能在高盐环境下工作的特性。最好这种核酸外切酶能够切割基因组双链DNA,而且易于操作。

纳米孔测序技术使用了信号转换技术和光学读出技术。纳米孔测序技术还有另一个发展方向,就是将DNA序列信息转换成两种颜色的图形信息,然后再通过 光学读出技术进行检测、分析。然而,要将荧光探针标记到DNA链中的每一个碱基上是非常困难的工作。于是人们开发出了一种新的方法,用两种不同的12碱基 寡聚体(12-mer oligos)——A和B,按照四种不同的组合方式(AB、BA、AA、BB)将A、B组合起来(图8c),这样就可以对DNA链中的每一个核苷酸进行替换了。因为单个核苷酸通过纳米孔的速度实在是太快了,完全无法进行检测,所以将单核苷酸替换成这种长一点的寡聚体,可以减缓通过速度,方便检测。同时,通 过这种信号转化还将DNA链中原本的四种信号A、T、G、C简化成了A、B两种信号。

挪威Lingvitae公司(

http://www.lingvitae.com/DPTutorial.php)已经成功开发出了一种自动化的、 大规模并行处理方法。该方法可以在24小时内将一个人类基因组序列转化成由24bp寡聚体序列组成的“新”序列。现在,他们还在继续努力,希望能开发出更 便宜、出错率更低、寡聚体片段更长,同时耗时更短的信号转化方法。进行这种信号转化看起来是增加了一个步骤,这好像与纳米孔测序的初衷(不需要进行标记等 额外操作步骤)相悖,但实际情况是,由于增加了这个步骤极大地简化了后续的信号(序列)读取工作,而这点恰恰是令其它测序方法头疼不已的大麻烦。

使用两种能分别与A、B互补的12bp长的“分子信标”(molecular beacon)(详见

http://www.molecular-beacons.org/Introduction.html,杂交过程见图10)与经 过上述信号转化之后形成的新DNA链杂交。分子信标由于自我猝灭(self-quenching)机制的作用,在溶液中的荧光背景信号极低(图8c)。

同样,当分子信标与新DNA链杂交之后,由于临近信标间存在相互猝灭作用,所以荧光信号依然很弱(图8c)。但当杂交链通过直径不到2nm的纳米孔 时,与新DNA链互补结合的寡聚体会脱落,并释放出荧光信号,只需依次检测这些荧光信号就能对原始DNA链进行测序。将高密度纳米孔芯片技术、光学读取技 术、高分辨率电子倍增电荷偶联摄像技术(high resolution electron-multiplying charge-coupled device camera)结合起来,就可以同时并行处理大量数据,大大提高测序速度。由于纳米孔不需要借助电子吸附(electrical contact)、表面修饰(urface modification)或转位过程(translocation process)等步骤就可以装载到芯片上,因此可以得到极高密度的纳米孔芯片。现在的纳米加工技术(nanofabrication)已经可以达到上述 要求了。不过,目前要生产出直径在1.7nm~2.0nm的高密度纳米孔芯片还存在一定困难。

当单链DNA通过嵌有探针的固态纳米孔时检测横向隧穿电流或电容。有这样一种理论认为,当单链DNA通过嵌有探针的固态纳米孔时,通过每一个碱基的 横向电流都各不相同,故根据电流情况判断出是哪种碱基通过,也就能对ssDNA进行测序了(图8d)。这种方法与前面所述的因为每种碱基堵塞了纳米孔道导 致电流减小的幅度不同来对碱基进行判断的方法不同,它是检测横向装载在纳米孔道中的一对电极对通过纳米孔的碱基施加的横向电流来判断究竟是哪种碱基通过 的。虽然在试验中该方法的效果很不错,但是还是要介绍一下有关该方法的几种不同观点。

与在扫描隧道显微镜(scanning tunneling microscope, STM)中一样,使用合适的探针(电极),可以得到纳安级(nano-ampere)的电子隧穿电流。使用这种纳安级的电流检测碱基的速度比在直径不到 3nm的纳米孔中使用皮安级的电流检测要快得多。虽然这种方法只需使用纳米孔和电流检测设备,并有望成为最便宜、最快速的测序技术,但它也面临着四种主要的挑战(表13)。

不过,现在使用单壁碳纳米管(single-walled carbon nanotube)就有望解决上述第二和第三个挑战,如果对碳纳米管进行合适的改造甚至还能解决第一个挑战。纳米管能以一种独特的方式和方向与碱基结合, 而且每一个碱基的结合活化焓(binding activation enthalpie)为了便于控制DNA链通过纳米管的速度,也都处于可被温度、离子强度或偏置电压调控的范围之内。

要借助横向隧穿电流来分辨碱基还有一种方法,就是在化学修饰的金属电极和待测碱基之间形成碱基特异性的氢键。Ohshiro和Umezawa发现, 在STM中如果金属探针(电极)被A、G、C、U的硫氢基(thiol)修饰之后,电极和碱基之间的隧穿电流会被极大地放大。他们发现,使用经胞嘧啶修饰 过的探针(电极),可以区分出序列TTTTTTTTGTTTTTTTTT和序列TTTTTTTGGTTTTTTTTT。基于Ohshiro和 Umezawa的工作,Lindsay等人猜想,是否可以使用经两种不同化学修饰方法加工过的电极,令其中一组电极能结合核苷酸的磷酸基团,而另一对电极能结合核苷酸的碱基基团(图11)。这样,在每一个核苷酸通过纳米孔中的“阅读器(电极)”时就会通过“电流距离”(current-distance) 而不是通过静态的“隧穿电流”而被检测出来。A、C、G、T四种“阅读器”中的每一种都会借助上面的功能基团与通过纳米孔的同一种碱基形成氢键。将这四种 阅读器链接在一起形成“DNA链”就可以对dsDNA链进行测序了。不过,要同时将四条dsDNA链穿过四个阅读器还是一大难题。

还有人提出可以将金属氧化硅电容和纳米孔技术结合在一起通过对DNA进行静电检测以达到测序的目的。透射电镜(transmission electron microscope, TEM)发射的电子束可以将纳米孔固定到两层掺杂硅构成的膜上(中间被厚约5nm的SiO2绝缘层隔开)。当有DNA链穿过纳米孔时,可以检测到两层硅膜间电容的静电势和电压发生了改变。仿真结果表明,A、C、G、T都有其各自独特的电容信号,因此从理论上来说也可以通过这种方法进行测序。在早期的一次试验中发现能够检测到DNA链通过纳米孔时引起的电压变化,但是由于时间太短,还无法区分出单个的碱基。目前,该方法面临的主要问题也是如何控制碱基通过纳米孔时的速度和方向。

3. 获取较长的测序长度

纳米孔测序技术还有一个非常吸引人的优势,那就是测序距离长。因为纳米孔测序仪对通过的每个碱基进行测序,与前后的测序结果都无关。因此从原则上来说,使用纳米孔测序技术,只要DNA链不发生断裂,并且能一直通过纳米孔,就可以一直检测下去。到目前为止,人们已经证明,长达25kb的ssDNA能够一次性通过生物纳米孔,长达5.4kb的ssDNA能够一次性通过固态纳米孔。因此,如果检测技术能得到进一步的改善(能检测快速通过纳米孔的碱基),纳米孔测序技术还是具有非常好的应用前景的。虽然现在还无法确切获悉纳米孔测序技术的准确度有多高,但可以确定插入、缺失等序列错误不会影响片段的读出长度,因为相移在独立的单分子读序中并不是一个问题。只要所测序列是随机的,而不是系统的或具有位点依赖性的,那么足够高的序列覆盖率便可以保证任何水平的准确度。

此外,虽然目前的第二代测序仪的测序长度较短,但它们具有高通量的优势,因此可以将纳米孔测序技术和这些第二代测序技术结合起来,以弥补第二代测序仪在测序长度方面的不足。

考虑到在未来的测序技术发展趋势中,测序长度是至关重要的一个指标,因此还需要进一步研究,以弄清纳米孔测序技术在检测ssDNA时测序的极限长度 是多少。纳米孔测序技术在检测单链寡聚物(不到50个碱基)时可以进行高通量检测,此时核酸链通过α溶血素纳米孔的速度大约是5.8个低聚物/sec μM。因为核酸链大分子穿过纳米孔的速度与其在溶液中的摩尔浓度有关,而摩尔浓度又不能太高以免溶液太粘稠,因此还需要进行试验验证50kb长的ssDNA是否能以一个合适的速度通过纳米孔。已经有几篇论文报道指出,使用直径约3nm~6nm的纳米孔能够检测长约3kb~10kb的ssDNA及 dsDNA片段(核酸分子的浓度在10nM~20nM之间),不过文章中都没有提及核酸分子通过纳米孔的速度。此外,虽然Branton等人已经证实了48kb的λ-DNA可以通过纳米孔,但是使用最新的纳米孔捕获及再捕获技术对长基因片段进行测序时的效率更高。纳米孔捕获及再捕获技术对于提高测序质量 非常重要,因为借助这种技术就可以对同一个碱基进行反复测序。当碱基初次通过纳米孔时,如果检测信号质量不高,实时监测软件就会“命令”该碱基再次通过纳 米孔并重新接受检测,直至获得满意的信号为止,而不需要重新准备样品,从头再测一次。

4. 控制DNA通过纳米孔

DNA高速通过纳米孔的特性使得高速测序成为可能,但同时这种高速度也正是很多纳米孔测序技术的“阿喀琉斯之踵(‘Achilles’ heel,意即弱点)”。因为速度太快,检测的信号质量就不高,甚至很多小的信号根本就检测不到。在120mV的条件下,DNA会以每个碱基 /1μs~20μs的速度通过α溶血素纳米孔。这就需要探测器的检测带宽达到MHz级,才能检测到皮安级的电流强度。

当DNA在电泳作用下通过纳米孔时,由于扩散作用的影响,降低了测序的质量。由于DNA分子的随机运动使得它通过纳米孔的时间,即通过时间 (transit time)的跨度非常大(这一点从理论上和试验上都已经证实了),因此,人们无法判断有多少碱基通过了纳米孔。而且,由于跨孔DNA分子与纳米孔表面间存在的非特异性的相互作用还会受到非连续性的粘滑现象(discontinuous stick-slip phenomena)影响,所以相互作用会发生改变。这种相互作用改变的本质和频率会引起“逃避时间(escape time,解离时间)”发生非泊松分布(non-Poisson distribution),于是,同一种碱基分子通过纳米孔时的通过时间也会不同。而且,如果碱基分子通过纳米孔的时间小于平均通过时间,那么它极有可能被漏检。

鉴于此,对于纳米孔测序技术来说,最为重要的一点就是如何控制并减慢DNA分子通过纳米孔的速度,同时尽量消除由于纳米孔表面相互作用给DNA分子 跨孔动力学上造成的波动现象。降温和增加溶液的粘稠度可以在一定程度上减慢DNA分子通过纳米孔的速度,但这两种方法都不能消除因纳米孔表面相互作用造成 的跨孔动力学波动现象。真正能降低DNA跨孔速度的方法见表14。

上述这些限速步骤所达到的速度都在每个碱基/数毫秒级,同时还都会受到离子强度、温度以及跨孔偏置电压的影响。

最理想的状态是,如果能发现一种电信号来代表碱基间的“空隙”,那就能清楚地知道有多少个碱基通过了纳米孔了。这种信号对于分析跨孔动力学和碱基孔 内停留时间等都具有很高的使用价值,而且可以据此来决定测序仪的检测带宽和其它参数。但在该信号出现之前,人们还需弄清楚DNA的跨孔动力学,同时还要开 发出控制DNA跨孔速度的办法。纳米孔制造技术的发展使得我们能够制造出特殊的纳米孔,这些纳米孔的背景噪声很低,而且能够调控DNA与纳米孔表面的相互 作用。最终,将DNA跨孔速度控制技术、高带宽技术、低噪声检测技术结合在一起,就能制造出高速纳米孔测序仪了。

5. 生物纳米孔的稳定性问题和固态纳米孔的制造问题

溶血素七聚体(hemolysin heptamer)是最常用于在脂质双分子层中制造生物纳米孔的材料,它性质非常稳定。但脂质双分子层的性质却不那么稳定,尤其是液态脂质双分子层,制造起来极难且费时。

Bayley等人发现包裹在两层薄琼脂糖中的装载有α溶血素纳米孔的双分子层非常稳定,可以被装到特氟隆薄膜(Teflon film)中储存数周之久。同时他们还发现,α溶血素纳米孔可以被顶端是琼脂糖的塑料或玻璃探针装载到上述双分子层组成的芯片上。另一种稳定双分子层的方 法是使用纳米级的孔径而不是微米级的孔径。试验证明,在玻璃毛细管末端的直径为100nm~1,000nm的双分子层在包被有特殊硅烷化剂 (silanizing agent)的条件下能保持稳定达两周以上。

使用离子束雕刻(ion beam sculpting)、电子束钻孔(e-beam drilling)和原子层沉积(atomic layer deposition)等方法可以在氮化硅、氧化硅或其它金属氧化物等介质上“制作出”稳定的、有功能的固态纳米孔,不过要得到直径在 1.5nm~2.0nm的纳米孔芯片还是一件非常困难的工作。现在,人们已经可以制作出装载有用于检测隧穿电流探针的纳米孔,但是目前的纳米孔制作工艺非 常繁琐,速度慢又耗费人力,而且制作出的产品还常常无法达到应用的要求。毫无疑问,随着纳米电子学领域的不断发展,人们一定会制造出高质量的纳米孔芯片。但是,直到纳米孔测序技术被证明是可行的那一天为止,纳米孔测序研究领域的科学家都会一直面临一个问题,那就是只能使用科研设备,而不可能使用大量生产的商业化设备。

对于某些纳米孔测序技术来说,最稳定的纳米孔可能是固态纳米孔和α溶血素纳米孔的“杂交体”,即在氮化硅之类的人工膜上做出5nm左右的纳米孔,同时也装载上α溶血素纳米孔。如果这种方法可行,那么该杂交纳米孔就既有高度的重复性又有无限的稳定性。

6. 结论

如果纳米孔测序技术能够成功,那么它将是非常好的一种新的测序技术,因为它具有以下优点(表15)。

因此,一个成功的纳米孔测序仪其测序费用应该非常低廉,极有可能达到NIH设定的只用1,000美元就能完成个人基因组测序的目标。同时,纳米孔测序仪本身不会太贵。如果能在一个测序芯片上整合100个纳米孔以及相应的微流体系统和电子探针系统,那么对一个人类基因组进行六倍覆盖率的测序也只需要一天的时间。不过,纳米孔测序技术还是面临着很大的问题。短期内的一个主要问题就是如何减慢DNA通过纳米孔的速度,使每一个碱基通过纳米孔的时间从微秒级上升至毫秒级。

最近,有研究结果表明DNA酶处理能起到减缓的作用。如果纳米孔测序仪用到了溶血素七聚体,那么就还需要与之相配套的稳定载体。目前,这方面的工作 也取得了一定的进展。不过从长远来说,人工合成的固态纳米孔似乎更适合商用。人们可以通过监测隧穿电流或电容的改变来“读取”每一个通过纳米孔的碱基,不 过这种方法是否切实可行还需要进一步验证。还有一个一直存在的问题是:不论用哪种检测方法,DNA分子在通过纳米孔时发生的随机运动都会增加背景噪声。

综上所述,纳米孔测序技术具有非常诱人的应用前景,因此我们还得继续努力研究下去。而且随着研究的深入,我们越来越坚信,纳米孔测序技术一定会成功的。

原文检索:Daniel Branton, David W Deamer, Andre Marziali et al. (2009) The potential and challenges of nanopore sequencing. Nature Biotechnology26(10): 1146-1153.

五、更多阅读

1. 核糖体印记与深度测序技术

将核糖体图谱(ribosome profiling)和深度测序(deep sequencing)相结合,研究人员可以从基因组水平监测蛋白质的翻译状况。

深度测序的强大功能对生物学研究的各个领域都产生了极大的影响。在诸如全基因组测序等方面,新技术的高效性和经济性使人们得以以一种以前无法想象的方式进行试验研究。而在另一些情况下,例如RNA测序时,借助深度测序可以进行更多的定量分析,获得更大的动态范围。在另一些研究中,例如最近由美国加州大学(University of California)的Jonathan Weissman小组发表的有关翻译图谱(translational profiling)的研究中报道的那样,深度测序不仅是一个有效的定量手段,同时还能提供很多有用的新信息。

使用核酸酶消化mRNA时,在翻译过程中发挥作用的核糖体结合并保护了大约30bp 的mRNA片段。Weissman等人将细胞中这些被保护的mRNA片段构建成DNA文库,再使用Illumina公司的测序仪对文库中所有的片段进行测序,最终得到了一幅有关细胞中蛋白质翻译情况的完整“画卷”。

这种方法可以应用于很多方面。首先,它能广泛地用于蛋白质组研究当中。正如 Weissman说道的那样,“对于像人类一样复杂的基因组,你真的无法解释清楚细胞表达出来的多肽是什么。而这种新方法刚好给了你一个客观的、全面的机 会去弄清楚这些多肽。”现在,Weissman等人正在使用这种新方法研究酵母,因为酵母比较简单,同时也被研究得比较透彻,因此相对来说比较容易研究。 但是从理论上来说,该方法是可以应用到其它任何一种物种中的。另外,将该技术与标记有抗原表位的核糖体(epitope-tagged ribosomes)结合使用,还有可能用于研究组织特异性的蛋白质翻译(tissue-specific translation)。Weissman说道:“我认为该技术会将分子神经解剖学(molecular neuroanatomy)一类的学科引向新的纪元。”

其次,在检测蛋白质表达情况时,使用核糖体图谱技术相比检测mRNA丰度来说更准 确。研究人员借助核糖体图谱技术为胞内数千种mRNA构建了核糖体印记密度图谱,并通过这些数据获得了蛋白质翻译表达速度方面的数据。据这些研究人员报道,使用蛋白质翻译表达速度方面的数据来判断蛋白质丰度要比用mRNA丰度来预测准确得多。Weissman说道:“对我们来说,定量蛋白质组学 (quantitative proteomics)最大的好处就是能客观评价人们的工作究竟做得好不好。”实际上,如果对结合在mRNA链5’ 端的核糖体数目进行进一步的修正,就能更准确地预测出蛋白质的丰度。

核糖体图谱还可以用于翻译控制(translational control)分析。Weissman等人正在使用该技术对饥饿酵母胞内的翻译反应(translational response)进行研究。毫无疑问,该方法也可以用于高等生物应激或疾病状态下的蛋白质合成反应控制情况。

核糖体图谱技术还具有很高的空间准确性(spatial precision),能准确地反映出究竟是哪一个阅读框被翻译了。因此,可以使用该技术研究程序性框移(programmed frameshift)和终止密码子通读(stop-codon readthrough)等现象。Weissman等人最近在酵母中的工作还发现,该技术可以发现mRNA 5’ 端非编码区的异常翻译情况。

正如Weissman对核糖体图谱技术的总结一样,“我们现在能直接得到全面的、高质量的蛋白质翻译速度方面的数据。通过这些数据我们可以知道哪种蛋白质表达了以及表达了多少。同时,我们还能很方便地对翻译过程本身进行研究。”

原文检索:Natalie de Souza. (2009) Deep sequencing of ribosome footprints. Nature Methods 6(4): 244-245.

2. 如何将数十亿的短片段测序结果定位到庞大的基因组序列当中

随着新一代测序仪的出现,人们获得了大量的短片段序列,如何对这些短片段作图就成了一个大问题。现在有什么办法可以解决这个问题呢?上述办法又是基于何种原理工作的呢?

新一代测序仪可以以极快的速度以及极其低廉的价格获得大量的序列,这已经改变了基因组学的面貌。这些新测序仪一经出现,马上就成为了全基因组测序的主力军,广泛应用于各种测序相关的实验检测,包括基因表达谱检测、DNA与蛋白质相互作用 检测和RNA剪切研究等。例如,它们可用于对RNA进行测序,即先通过逆转录将其变成cDNA,然后再对cDNA进行测序,这样就能发现一些未知的基因, 并据此发现新的RNA剪切方式。也可以将测序技术应用于ChIP,弄清楚与蛋白质共沉淀的DNA片段的序列。这种方法能用于研究转录因子与DNA调控元件之间的相互作用。此外,对肿瘤细胞全基因组测序也能发现一些新的致癌突变。

但在新一代测序仪带来方便的同时也带来了问题,即被称为“阅读片段作图(‘read mapping’)”的问题。美国Illumina公司、Applied Biosystems(ABI)公司和Helicos公司等开发的测序仪在测序时产生的都是长约25bp~100bp左右的小片段序列,即“read”。 这些小片段都是待测样品大片段的某一部分。与对未知的全基因组进行测序,即与将所有小片段组装成一个完整基因组的工作相比,人们现在大部分的工作实际都可以参照“参考基因组”(也称“模式基因组”,小词典1)进行。因此,要了解小片段“read”的作用,首先要知道它们在参考基因组中的确切位置,而对这些 小片段进行定位的过程就称作“作图”(mapping),或 “定位”(aligning)到参考基因组中。在作图中,有一个问题需要注意,那就是进行定位(本文将在后面的“短片段作图软件”一节中对此做详细介绍) 时不能出现大的“间隙”。而在对RNA进行测序时,因为存在内含子的缘故,这一点就显得尤为突出。因此,对RNA进行测序时就允许有较大的间隙出现(这将 在下文“剪切后的短片段作图软件包”一节进行详细讨论)。

当然,上述问题都不是伴随新一代测序仪的出现而出现的新问题,即使在经典的 Sanger毛细电泳测序法中也有与之相应的专门用来处理定位问题的程序。不过,这些程序既不能处理短片段测序仪获得的大量序列数据,也不能定位长度较短的短片段序列。使用传统的BLAST或BLAT软件分析ChIP或RNA测序结果,可能会花上几百甚至几千个小时。幸运的是,人们现在有了新的分析软件。在选择一款分析软件之前,要先弄清楚,为什么用计算机处理作图问题会出现问题?人们现在已经解决了其中的哪些问题?还存在哪些问题?还有没有其它机遇?

2.1 短片段作图

2.1.1 对短小片段作图存在哪些问题?

问题1:实际操作。如果参考基因组很大,而我们手上又有数十亿计的短片段序列,那么 该如何处理这么庞大的数据呢?如何将每一条短片段定位到参考基因组中相应的位置上?序列比对是生物信息学中的一个传统问题,有大量的文献著作介绍了各种不 同的比对方法,既有精确严格的方法也有不那么严格的方法。不过,从实际应用的角度出发,要将数十亿的短小片段定位到哺乳动物基因组大小级别的参考基因组中 需要借助效率非常高的算法进行处理才有可能办到。

问题2:处理策略。如果某个短小片段属于参考基因组里的一个重复元件,那么就应该弄 清楚它来自重复元件中的哪一个拷贝。但这是不太可能实现的,所以分析程序一般都只能给出该短片段可能属于参考基因组中哪几个位点。同时,由于测序错误或者 检测样品间以及检测样品和参考基因组间出现变异等情况,使上述问题变得更加严重。同样,在RNA剪切体作图中也存在上述问题,而且由于内含子的问题使得情况更为复杂。

Illumina、ABI、Roche、Helicos以及其它众多测序仪生产厂家 开发的测序仪每一轮测序都能获得百万计的短片段序列,不过要对一个基因组进行完全测序则需要进行好几轮检测,这也就意味着要想获得一份完整的全基因组图谱 必须对数百万甚至是数十亿的短小片段进行作图、定位和拼接。比如,最近由Ley小组做出的癌症基因组序列就是通过132轮测序,对80亿条短小片段进行作图后得到的结果。使用BLAST或BLAT比对法,借助大型的超级计算机只需要几天就能获得这个癌症的基因组序列结果,但这并非人人都能享有。为了能让更多的人用更廉价的计算机也能进行类似的作图分析,人们开发了一套新的比对定位程序,使用这种新程序即使在普通的台式机上也能对数亿计的短小片段进行作图分 析。测序仪器生产厂商也会提供一些专门的作图软件,例如Illumina公司开发的ELAND程序等。本文将着重探讨第三方开发的软件,这些软件中很大一 部分都是开放源代码的免费程序。这些软件主要都是建立在这样一种算法之上,即充分利用短小DNA序列的特点来作图,而不需要依靠计算机强大的处理能力、内存容量等条件。

2.1.2 短片段作图软件

Maq和Bowtie(见表16)都属于上述提及的程序。它们使用的是一种称作“建立索引(indexing)”的策略。同时,人们也对大量的DNA序列建立了一份索引,借助这份索引就能快速地找到其中的短DNA片段了。Maq软件是基于一种直接的但是很有效的策略——空位种子片段索引法(spaced seed indexing)(图12a)。它将一个短片段(read)分成了4条长度相等的更短的片段——种子片段(seed)。如果整段短小片段(read)可以与参考基因组序列完全配对,那么很显然所有的种子片段(seed)也理所应当地应该与参考基因组序列完全配对。但如果其中有一处错配,例如SNP,那么肯定有一条种子片段无法与参考基因组序列完全匹配。依次类推,如果出现了两处错配就会导致一条或两条种子片段无法与参考基因组序列完全匹配。因此,对所有种子片段两两组合后的片段(共有6种组合方式)进行比对,就有可能找出该短小片段在基因组中最有可能的位点。Maq软件采用的这种“空位种子片段索引法 ”(spaced seed indexing)作图时的效率非常高。

Bowtie软件采用的则是另一种完全不同的策略,该策略借鉴了Burrows- Wheeler转换(Burrows-Wheeler transform)这种数据压缩算法技术,将完整的人类基因组序列索引压缩到不到2GB大小(这是当前主流台式机甚至是笔记本电脑都能达到的水平),而空位种子片段索引法至少需要50GB。Bowtie每次都只把一段短片段序列中的一个碱基与经Burrows-Wheeler转换压缩过的参考基因组序列进行比对(图12b)。经过这种连续的比对,最终也能找出这段短片段在参考基因组中的定位。如果Bowtie软件发现短片段中的某个碱基在参考基因组中没 有很好地配对,那么软件就会退回到上一个碱基重新进行比对。实际上,Burrows-Wheeler转换使得Bowtie软件通过碱基逐个比对,直至完成全长短序列比对的方法解决了短序列作图的问题。从本质上来说,Bowtie软件使用的算法要比Maq采用的复杂得多,但Bowtie软件却比Maq软件分析的速度快30倍。

Bowtie软件和Maq软件的默认模式中至多都只会允许两个错配位点,不过有时有 些用户需要允许更多的错配位点存在。Bowtie软件和Maq软件能够分析的短序列长度范围在20bp~40bp之间,它们都经过优化设计以使其适合用于人类基因组再测序计划(human resequencing project)。不过,现在Illumina公司最新的测序仪已经能够获得长约100bp的“短”片段序列,还有一些测序项目,例如细菌或真菌基因组测 序项目等获得的片段序列与目前已经测得的类似物种全基因组序列之间存在着较大的差异。再加之随着新测序仪的不断涌现,测序结果的质量也在不断提高,但这些 测序结果却极易受到各种因素的影响,例如样品文库的准备、测序操作步骤、甚至是放置测序仪器实验室的温度等等。鉴于此,面对上述这些新出现的“问题”,人 们也应该采取相应的措施,调整Maq软件和Bowtie软件的各种参数使之适应这些新情况。

表16列出的是几种新的开放源代码的短片段序列作图软件,它们的安装和使用都很简单。

Bowtie软件包中包括预置的大肠杆菌基因组索引和部分大肠杆菌短片段序列。要使用该软件分析数据只需输入下面的命令就会生成一个表格式的报告,给出每一个匹配短序列的编号、在参考基因组中的位置、以及发生错配的位点个数和具体位置。

bowtie e_coli reads/e_coli_1000.fq

在Maq软件中输入以下命令也会得到同样的结果。

maq.pl easyrun -d outdir
reference.fasta reads.fastq

对于一次实验来说,短序列片段能否与参考基因组相匹配实际上取决于很多因素。假设被测序的DNA片段中几乎没有错配位点,大多数作图软件也只能定位 出70%~75%的短片段序列。这个结果和使用Sanger测序法获得的80%的结果比起来低得令人吃惊,说明现在第二代测序技术还不成熟。这提示人们,很多短片段都需要与参考基因组中的多个位点进行比对,而大部分的作图软件都只会给出短片段在参考基因组中的一个匹配位点。

有了序列定位的软件,接下来就可以了解这些短片段具体在参考基因组中的什么位置了,同时也可知道SNP都位于基因组中的什么地方。SAM软件包能满 足这些要求。SAM软件包(

http://samtools.sourceforge.net)包括一体化的碱基调用和浏览器(base caller and viewer),它能使用Maq和Bowtie两种分析软件。

实际上,大部分短片段作图软件设计的初衷都是为了服务于人类全基因组再测序工作,但是调整软件参数之后,它们也能应用于其它方面。Maq和 Bowtie这两种分析软件的操作手册都写得非常详细,它们给出的备选方案多到“吓人”的程度。现在还出现了越来越多的短片段作图软件(表16),不过每一款软件都无法达到十全十美的境界,而且各有偏重,这就给人们选择软件及其配置参数带来了麻烦。幸运的是,人们能够得到帮助。SeqAnswers message board(http://www.seqanswers.com,图13)就是一个非常好的论坛,它是一个短片段作图软件开发人员经常光顾的论坛。最流行的SeqAnswers线程一般都包括目前用于初步分析的软件和短序列数据可视化处理的软件一览表。

 


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
测序简史
高通量测序(一文读透!)
Nature子刊:新一代DNA测序技术原理获证实
三分钟了解4代基因测序技术
[首藏作品](4433)人类基因组草图再添细节 X染色体被无死角解码
Nat. Biotechnol综述 | 纳米孔测序技术、生物信息学及应用
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服