打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
高通量测序在临床分子诊断中的应用与展望
高通量测序在临床分子诊断中的应用与展望

高通量测序在临床分子诊断中的应用与展望

姜晓峰

(哈尔滨医科大学附属第四医院检验科,黑龙江 哈尔滨 150001)

摘要:高通量测序又称下一代测序(NGS),是一种新型的遗传学筛查和诊断技术,它的不断革新加速了人们对遗传学标志物及疾病分子机制的认识,特别是针对复杂遗传性疾病。NGS技术的出现促使临床基因诊断逐渐从单基因时代跨越到多基因时代。随着靶向基因组测序、全外显子组测序以及全基因组测序项目在临床中的广泛应用,医务工作者将逐渐改变对复杂遗传性疾病的管理策略,最终将依据遗传学检测结果对每一位患者进行2次分类并给予精准治疗。另外,生物信息学分析方法的不断更新和便捷的数据分析软件包也使NGS在临床诊断中的应用更加广泛。文章中主要论述了现有NGS的主流平台、现阶段NGS在临床分子诊断中的主要应用策略以及应用NGS检测序列变异的数据分析方法。

关键词:高通量测序;复杂遗传性疾病;临床基因诊断;生物信息学

DNA和RNA测序技术的发展加速了人们对遗传病分子特征的认识。应用高通量测序,即下一代测序(next generation sequencing,NGS)技术检测疾病的遗传学特征已经成为当前精准医学的重要组成部分[1-3]。对于单基因遗传病,以往临床实验室主要借助于Sanger测序、等位基因特异性聚合酶链反应(allele-specific polymerase chain reaction,AS-PCR)、荧光原位杂交、DNA印记杂交等技术进行检验。随着致病基因的不断发现,特别是针对癌症、心血管疾病、肾病、糖尿病等复杂性疾病,传统的遗传学检测方法已经不能满足临床分子诊断对检测技术的需求,而NGS技术以其高效、廉价的特点则恰恰显示出在这个领域的技术优势。简单地说,NGS技术能够通过1次实验对多个基因进行检测,同时具有所需样本量小、总体成本低的特点。因此,NGS技术为疾病的遗传学筛查与诊断提供了便捷的途径。另外,NGS技术在病原微生物的快速鉴定、药物的靶向治疗以及产前筛查等多个领域具有潜在的应用优势[4-5]

1 测序技术的发展及性能比较

1977年,Sanger团队里程碑式地解密了首个噬菌体X174基因组(DNA拼接长度仅5 000多个碱基)[6]。在过去的几十年里,Sanger测序无疑已经成为一种长期而有效的DNA测序方法。尽管如此,该技术自身的低通量和高成本限制了其在复杂遗传病诊断以及大规模基因组测序项目中的广泛应用。

自2000年初开始,测序技术得到了快速的发展。2004年,美国生命科学公司应用焦磷酸测序方法推出了第1台NGS仪。2006年,Illumina公司推出了Solexa测序平台。目前,该公司已经推出了多种型号的测序平台,如MiSeq、HiSeq、NextSeq等系列,其中MiSeq系列适合于小型基因组测序,HiSeq系列适用于大型基因组测序。2007年,美国应用生物系统公司推出SOLiD测序平台。该平台采用五轮测序法以4色荧光标记寡核苷酸的连接合成为基础,测序准确性得以提高。2010年,美国生命科学公司和太平洋生物科学公司分别发布了半导体测序平台和第3代单分子实时(single molecule realtime,SMRT)DNA测序平台。这2种测序技术与以往的基于光学信号的检测技术不同,半导体测序平台通过半导体芯片直接感应在序列合成过程中磷酸二酯键3'OH基团释放的质子;第3代测序仪通过纳米孔技术记录单个聚合酶在不受干扰情况下连续合成,其中PacBio RS II每次运行能够产生60 000×16条序列,每条序列的平均长度达8 500 bp[7]

一般来说,以上每种测序仪在序列读段长度、准确性、测序通量、价格等多个方面存在一定的差异。焦磷酸测序平台测序读段较长,测序通量较低,成本相对较高;Illumina系列平台产生的读段相对较短,测序费用相对较低,应用比较广泛;SOLiD测序平台在通量和准确性方面相对以上2种类型的测序平台有明显改善,但是测序长度更短;半导体测序平台以及SMRT测序平台相比其他测序平台运行时间较短,另外单分子测序平台减少了测序前的扩增准备工作,测序读段较长,但是测序成本和错误率都相对较高[8-10]。一些常用的测序仪的测序原理和性能见表1。

表1 部分常用NGS平台的测序原理和性能概述

平台 扩增方式 测序原理 读段长度(bp) 运行时间(h) 费用/Gb(美元) 错误率(%)454 GS Junior 乳滴PCR 焦磷酸测序 25~700 20 19 540 0.5 IlluminaMiSeq 桥式PCR 合成测序 300~600 21~55 109~996 0.2 Illumina HiSeq2500 桥式PCR 合成测序 125~250 60~144 30~90 0.2 IlluminaHiSeq X Ten 桥式PCR 合成测序 150 72 7 0.2 SOLiD 5500xl 乳滴PCR 链接测序 50~75 144 68 0.1 Ion PGM 乳滴PCR 半导体测序 200~400 2.3~7.3 460~788 1.0 Ion Proton 乳滴PCR 半导体测序 最大200 2~4 11.0~81.6 1.0 PacBio RS II NONE SMRT测序 8 500 4 1 111 15.0

与第1代测序技术相比,NGS技术具有以下几方面的优势:(1)通量高。以HiSeq X Ten为例,每年完成人类全基因组测序的量可达到18 000个左右;(2)速度快。特别是半导体测序仪,每次运行所需时间仅数小时;(3)测序成本低。应用Ion Torrent检测平台对数十个基因的测序成本与应用Sanger技术对单个基因的测序成本大致相当;(4)敏感性高。特别是对于取样不均一的样本,NGS能稳定检测>1%的突变信息,对于检测异质性相对较高的肿瘤样本特别重要;(5)所需样本量少。对DNA样本的要求仅为ng数量级。总之,NGS技术能够一次性对多个靶基因进行准确检测,具有所需样本量小、敏感性高、检测成本低、耗时短等优点。

2 NGS技术在临床诊断中的应用

在NGS技术快速发展的同时也加速了该技术在临床分子诊断中的广泛应用。根据检测目的不同,NGS技术在临床中的应用主要分为以下2种策略:(1)针对已知病因的疾病设计合适的芯片,直接对多个已知的致病基因进行靶向基因组测序;(2)针对未知病因的疾病对外显子组或全基因组进行测序。

在临床应用中以上2种测序方式各有优缺点。靶向基因组测序的优点在于具有较高的测序深度、较低的检测成本,同时减轻了临床医生对高通量数据分析的压力,具有较好的应用前景,特别适合于复杂性疾病的临床分子诊断。缺点是当临床患者实际需要检测的基因数<芯片中包含的基因数量时,会导致资源浪费和检测成本升高。另外,当需要将新的基因添加到芯片中时,需要重新设计芯片并再次通过临床质量验证。而外显子组或全基因组测序技术的优点在于能够发现新的致病基因,但是测序成本相对较高。对于检测到的一些突变信息,有时还需要对患者进行跟踪随访,根据随访信息再确定突变位点是否具有临床应用价值。

目前,靶向基因组测序在临床诊断中最广泛的应用是针对癌症亚型的临床诊断与治疗。如针对遗传性癌症的风险评估,利亚德基因公司针对25个癌基因中的突变位点开发了“MyRisk panel”芯片,专门针对乳腺癌、大肠癌、卵巢癌、子宫内膜癌、胰腺癌、前列腺癌、胃癌及黑色素瘤等8种癌型并结合家系信息进行遗传风险评估和健康管理[11]。针对美国食品与药品监督管理局(U. S. Food and Drug Administration,FDA)批准的临床药物,llumina公司针对26个基因的突变位点开发了“TruSight Tumor panel”芯片,根据实际检测结果针对肺癌、结肠癌、胃癌、宫颈癌进行靶向治疗[12]。另外还有“AmpliSeq Cancer Panel V1”芯片[13]、“Truseq Amplicon cancer panel”芯片[14]等。除此之外,NGS还广泛应用于肾病[15]、糖尿病[16]、心血管疾病[17]等其他复杂疾病的临床诊断中。而外显子组和全基因组测序在临床上广泛应用于筛查潜在致病基因、病原微生物的快速鉴定、产前筛查[18]等方面。目前,在德国采用HiSeq X Ten测序平台完成1个人的全基因组测序项目,测序深度~30X的检测总花费为1 411欧元[19]。因此,测序成本已不再是影响全基因组测序应用于临床的主要障碍,重点在于如何对得到的遗传信息进行有效地解读和实际应用。

尽管以上2种测序方式在临床上具有广泛的应用前景,但是在测序过程中产生的错误依然不容忽视[20-21]。产生错误的原因有文库的制备、人工操作、测序数据质量控制、测序平台存在的偏好性等。因此,严格的数据分析方法和验证方法对避免产生错误的结果至关重要。在当前的临床分子诊断中,针对单个位点的遗传学变异,Sanger测序仍然被认为是分子诊断的金标准。美国医学遗传学会也建议NGS技术与Sanger测序技术二者相结合共同服务于临床遗传学诊断。

3 NGS检测序列变异的数据分析流程

对DNA或RNA的NGS流程主要分为测序前文库制备→样本上机→测序后数据分析3个步骤。对于测序前的准备工作,靶向基因组测序或全外显子测序还需要对特定的基因序列进行纯化富集。富集方法按照原理的不同分为基于寡核苷酸杂交的富集方法和基于多重PCR的富集方法。方法的选择由多种因素决定,包括测序平台的通量、样本类型(新鲜组织、冰冻组织、石蜡包埋组织)及质量等[22]。石蜡包埋的组织样本包含的DNA质量相对较低,因此选择多重PCR的富集方法比较合适。而血液样本、骨髓样本以及新鲜的组织样本包含的DNA质量相对较高,应用2种富集方法都能得到很好的效果。对于全外显子组测序,由于涉及到的基因的数量太多,只能应用基于寡核苷酸杂交的富集方法。

测序工作完成后,如何对得到的高通量数据进行有效分析是临床实验室的又一个工作重点。一般来讲,NGS的数据分析流程主要分为以下几个步骤。

3.1 碱基识别

测序过程经碱基识别将信号转化成FASTA或FASTQ等格式的原始序列数据,随后应用FastQC软件检测数据质量,并去除接头序列和低质量序列,一般认为质量分值<Q20的序列为低质量序列,>Q30的为高质量序列。对于多个样本混合的情况,还需要应用FastqMultx或Fastx-toolkit对读段序列进行重新分类。

3.2 序列比对

选择合适的序列比对工具,如BWA、Bowtie、SOAP2等将得到的序列信息比对到相应的基因组参考序列上,按照SAM格式(序列比对/定位)输出比对结果。这种格式可以被多种变异检测工具处理,提供的信息包括序列读段、序列质量、在参考基因组上的位置、序列读段与参考序列之间的差异。

3.3 识别序列变异

应用GATK等软件识别序列变异,包括单核苷酸变异和插入缺失。运行过程包括序列的局部比对→量分值的重新校准→别变异→列变异过滤等过程。

3.4 变异注释

通过ANNOVAR或VEP等注释工具对检测到的变异进行数据库注释,注释信息包括变异类型、区域信息、在不同群体中的发生频率以及与已知疾病的确切关系等。临床实验室需要结合检测目的选择适当的注释数据库。常用的注释数据库信息见表2。根据美国医学学会的标准[42],实验室需要结合序列是否在OMIM/HGMD中有注释、变异频率、变异类型、既往报道等信息将变异主要分成以下4类:(1)已报道的致病位点;(2)新发现并预测为致病的变异位点;(3)新发现但致病性不明确的变异位点;(4)报道与临床表型相关而致病性不明确的变异位点。最后还需要结合疾病的遗传模式以及患者的实际临床表现进行综合判断。

表2 常用基因组注释数据库信息

数据源 描述RefSeq 由NCBI提供的具有生物学意义的非冗余序列数据库ASAP II 剪切变异体数据库ASPicDB 人类基因剪切模式数据库ASTD 由可变剪切或可变起始或终止位点产生的可变转录物数据库dbSNP NCBI上的变异体目录OMIM 人类遗传疾病及其致病基因数据库SNPeffect 注释单核苷酸多态性影响的数据库Swiss-prot 非冗余的蛋白质序列数据库HGMD 人类基因突变数据库COSMIC 癌症体细胞突变数据库

目前,NGS的数据分析方法已向着便捷化、智能化的方向发现。一些测序公司针对测序数据预处理及变异检测已形成较为成熟的生物信息分析流程和软件包,如美国生命科学公司的Ion Torrent PGM平台随机携带的分析软件包Torrent Suite和变异识别插件Torrent Variant Caller。另外,一些互联网服务公司还形成了云服务等便捷的数据分析方式。这些分析软件和互联网技术的快速发展也将进一步加速NGS技术在临床的广泛应用。

4 问题与展望

NGS技术的不断发展正在推动当前的医疗模式向新的精准医学模式迈进。究其主要原因在于NGS技术的发展深化了人们对遗传性疾病分子特征的认识,同时加速了该技术在临床分子诊断中的应用。目前,尽管NGS技术的临床应用具有广泛的应用前景,但尚处于起步阶段,国内测序技术的临床应用标准尚不完善,需要加速建立更加完善的行业标准。对临床科室而言,随着越来越多的潜在遗传学标志物的出现,有待临床医生提出新的个体化治疗方案,使更多的患者从精准医学中获益。另外,越来越多的NGS数据的出现,对临床实验室也提出了新的要求:临床实验室在能有效处理和分析高通量数据的同时,还应该能对获得的高通量数据进行有效的存储,方便将来再次结合临床数据进行整合分析,从中挖掘更有效的信息以适用于临床诊断。总之,随着NGS技术的持续发展和对高通量数据处理能力的不断提高,必将为临床遗传性疾病的诊断与治疗带来变革。

参考文献:

[1] YANG Y,MUZNY D M,REID J G,et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders[J]. N Engl J Med,2013,369(16):1502-1511.

[2] LEE H,DEIGNAN J L,DORRANI N,et al. Clinical exome sequencing for genetic identification of rare Mendelian disorders[J]. JAMA,2014,312(18):1880-1887.

[3] DEWEY F E,GROVE M E,PAN C,et al. Clinical interpretation and implications of whole-genome sequencing[J]. JAMA,2014,311(10):1035-1045.

[4] PENG L,BIAN X W,LI D K,et al. Large-scale RNA-Seq transcriptome analysis of 4 043 cancers and 548 normal tissue controls across 12 TCGA cancer types[J]. Sci Rep,2015,5:13413.

[5] RENKEMA K Y,STOKMAN M F,GILES R H,et al. Next-generation sequencing for research and diagnostics in kidney disease[J]. Nat Rev Nephrol,2014,10(8):433-444.

[6] SANGER F,AIR G M,BARRELL B G,et al. Nucleotide sequence of bacteriophage phi X174 DNA[J]. Nature,1977,265(5596):687-695.

[7] CHAISSON M J,HUDDLESTON J,DENNIS M Y,et al. Resolving the complexity of the human genome using single-molecule sequencing[J]. Nature,2015,517(7536):608-611.

[8] KILIANSKI A,HAAS J L,CORRIVEAU E J,et al. Bacterial and viral identification and differentiation by amplicon sequencing on the MinION nanopore sequencer[J]. Gigascience,2015,4:12.

[9] VERCOUTERE W,WINTERS-HILT S,OLSEN H,et al. Rapid discrimination among individual DNA hairpin molecules at single-nucleotide resolution using an ion channel[J]. Nat Biotechnol,2001,19(3):248-252.

[10] THOMPSON J F,MILOS P M. The properties and applications of single-molecule DNA sequencing[J]. Genome Biol,2011,12(2):217.

[11] DONG L,WANG W,LI A,et al. Clinical next generation sequencing for precision medicine in cancer[J]. Curr Genomics,2015,16(4):253-263.

[12] QUINN A M,HICKSON N,ADAWAY M,et al. Diagnostic mutation profiling and validation of nonsmall-cell lung cancer small biopsy samples using a high throughput platform[J]. J Thorac Oncol,2015,10(5):784-792.

[13] VELDORE V H,PATIL S,SATHEESH C T,et al. Genomic profiling in a homogeneous molecular subtype of non-small cell lung cancer:an effort to explore new drug targets[J]. Indian J Cancer,2015,52(2):243-248.

[14] WONG S Q,FELLOWES A,DOIG K,et al. Assessing the clinical value of targeted massively parallel sequencing in a longitudinal,prospective population-based study of cancer patients[J]. Br J Cancer,2015,112(8):1411-1420.

[15] TAN A Y,MICHAEEL A,LIU G,et al. Molecular diagnosis of autosomal dominant polycystic kidney disease using next-generation sequencing[J]. J Mol Diagn,2014,16(2):216-228.

[16] ALKORTA-ARANBURU G,SUKHANOVA M,CARMODY D,et al. Improved molecular diagnosis of patients with neonatal diabetes using a combined next-generation sequencing and MS-MLPA approach[J]. J Pediatr Endocrinol Metab,2016,29(5):523-531.

[17] PONINSKA J K,BILINSKA Z T,FRANASZCZYK M,et al. Next-generation sequencing for diagnosis of thoracic aortic aneurysms and dissections:diagnostic yield,novel mutations and genotype phenotype correlations[J]. J Transl Med,2016,14(1):115.

[18] 鲍芸,肖艳群,王华梁. 高通量测序技术在无创产前筛查中的临床应用及研究进展[J]. 检验医学,2016,31(6):541-545.

[19] PL?THNER M,FRANK M,VON DER SCHULENBURG J G. Cost analysis of whole genome sequencing in German clinical practice[J]. Eur J Health Econ,2016. [Epub ahead of print]

[20] REHM H L,BALE S J,BAYRAK-TOYDEMIR P,et al. ACMG clinical laboratory standards for next-generation sequencing[J]. Genet Med,2013,15(9):733-747.

[21] JOHNSTON J J,RUBINSTEIN W S,FACIO F M,et al. Secondary variants in individuals undergoing exome sequencing:screening of 572 individuals identifies high-penetrance mutations in cancer-susceptibility genes[J]. Am J Hum Genet,2012,91(1):97-108.

[22] MAMANOVA L,COFFEY A J,SCOTT C E,et al. Target-enrichment strategies for next-generation sequencing[J]. Nat Methods,2010,7(2):111-118.

Application and prospect of high-throughput sequencing in clinical molecular diagnosis

JIANG Xiaofeng.

Department of Clinical Laboratorythe Fourth Affiliated Hospital of Harbin Medical UniversityHarbin150001,HeilongjiangChina

Abstract:High-throughput sequencing,next generation sequencing(NGS),is a new type of genetic screening technology. Its innovation accelerates the understanding of genetic markers and molecular mechanism,and also promotes clinical gene diagnosis from single gene to multi-genes,especially for complex genetic diseases. As the new sequencing technology used in clinic,doctors will change the management of genetic diseases,and patients will be placed into different groups eventually based on genetic diagnosis. In addition,with the improvement of bioinformatics and package,the application of NGS in clinic will be more routine. This review discusses the major platform and performance of NGS and its application in clinic and the process of NGS analysis of sequence variations.

Key words:High-throughput sequencing;Complex genetic diseases;Clinical gene diagnosis; Bioinformatics

文章编号:1673-8640(2017)04-0250-05

中图分类号::R393

文献标志码::ADOI:10.3969/j.issn.1673-8640.2017.04.002

(收稿日期:2016-09-01)

(本文编辑:范基农)

作者简介:姜晓峰,男,1962年生,博士,主任医师,主要从事哮喘的发病机制、临床分子诊断以及复杂疾病的异质性研究。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
把多个样本混合在一起进行检测,节省时间和成本,可行吗?
三代测序时代的临床科研
元码基因启动肿瘤样本免费三代测序结构变异检测计划
Nature深度综述:下一代基因测序的十年
NGS 检测及其应用
全基因组测序 从头测序(de novo sequencing) 重测序(re
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服