外显子组是指全部外显子区域的集合,该区域对疾病及表型性状起着关键的作用。外显子组测序(Exome)是选择优先关注编码区的信息,运用目标序列捕获技术将全基因组中的全部外显子序列捕获并进行高通量测序的一种基因组分析技术。与全基因组重测序相比,外显子组测序只需针对外显子区域的基因序列测序即可,覆盖度更深、数据准确性更高,更加简便、经济、高效。
目标区域测序是指利用特制的探针对客户感兴趣的蛋白编码区域DNA或某段特定序列进行捕获,富集后进行高通量测序的基因组分析方法。该方法能够获得指定目标区域的遗传信息,极大地提高了基因组中特定目标区域的研究效率,显著降低了研究成本。通过目标区域测序,可以对候选位点或候选基因进行验证,也可以进一步找到候选区域或候选基因内的易感位点,适用于候选基因关联分析等研究。
贝瑞和康公司提供外显子或目标区域从200k-70M的捕获芯片,可以满足不同客户的需求。对于全外显子测序来讲,比较适合基于家系(单基因遗传病)或散样(癌组织及其癌旁组织)的研究;在GWAS的后期研究经常需要对具有极显著的疾病或性状关联的区域进一步进行深度测序验证,以便筛选出与疾病密切关联的SNP位点以及其影响的基因。
将基因组DNA随机打断,选择180-250bp片段进行回收,采用液相杂交的方法对外显子或目标区域进行捕获,构建小片段测序文库,采用100PE的模式测序,经过base calling后,对测序数据进行数据产量统计以及SNP、InDel检测及注释。
测序产生的数据经过质量控制,进入到信息分析阶段,信息分析流程图如下:
横坐标表示单碱基累积测序深度(即大于等于),纵坐标表示特定累积深度的碱基占总数的百分比。
对外显子组等区域重测序是目前为止较为有效的检测符合孟德尔遗传的单基因遗传病的方法。我们基于测序产生序列与基因组参考序列的比对结果,采用samtools、GATK等软件Call snp和indel,然后运用ANNOVAR软件对snp,indel位点进行注释,确定 variant 位点对应的基因信息、同义非同义突变、对氨基酸的影响等信息。最后对注释到 variant 位点的基因进行GO和KEGG富集注释分析。
基于测序产生的序列与基因组参考序列比对的结果,我们采用samtools、GATK等软件检测SNP,然后过滤并筛选出可靠的SNP位点,用ANNOVAR软件对SNP位点进行注释,注释结果格式见下表:
Gao J, Xue J,et al., Whole exome sequencing identifies a novel DFNA9 mutation, C162Y: the first reported DFNA9 mutation in the intervening domain of COCH. Clin Genet. doi: 10.1111/cge.12006(2012)
目前发现的大部分罕见病和孟德尔遗传病致病基因处于外显子区域。因此,发现罕见病和孟德尔遗传病的致病原因,外显子组测序是一种非常有效的方法。本文研究者对一位迟发型耳聋患者的外显子进行测序,发现了DFNA9新的致病位点。
样品选择:一位迟发型耳聋患者的外显子
测序策略:外显子组测序,62Mb区域,每个样本8G数据量
分析过程:
图为:中国家庭大肠癌和急性髓细胞性白细胞家谱
联系客服