2015年7月, Nature Methods杂志发布了一种新的疾病检索工具——Phenolyzer, Phenolyzer可以根据用户输入的疾病或表型信息来区分候选致病基因的优先次序,寻找疾病与基因之间新的关联性,可以用来辅助制定新的生物学假设。该研究由美国南加州大学王凯教授与德国柏林夏里特医学院教授、HPO创始人Peter Robinson共同完成,王凯教授同时也是北京希望组首席科学家。与现有同类型检索工具(Phenomizer,GeneCards,SNPs3d,PosMed和Phevor等)比较,Phenolyzer具有明显优势。
Phenolyzer通过直观的方式来解释用户提供的疾病或表型特征有关的名称,然后查询预编译的数据库,查找和获得相关的”种子基因”;随后根据多种基因-基因关联逻辑将种子基因扩展到包含相关的基因, 这些关联主要有呈现蛋白质-蛋白质相互作用,共享一个生物学途径或基因家族,转录调节或被另一种基因调节等类型;最后,整合这些从”种子基因”及基因和基因关系得到的数据,产生候选基因列表,并附一份利用编译分数追踪来源资料信息的详细说明。具体工作流程如下:
以肌萎缩性侧索硬化(渐冻人)为例,我们看一下Phenolyzer是如何工作的。在网站上输入英文的疾病名称Amyotrophic lateral sclerosis之后,我们能得到如下的基因-表型网络图。该图里面标明了可能与疾病相关的基因,越大的基因其与疾病的相关分值越高。
在点击其中一个基因(例如SOD1)之后,我们可以看到所有与SOD1相关的基因和表型的信息如下图所示。这样可以帮助研究人员快速判断什么基因可能与临床表型相关,还有什么基因与已知的致病基因可能有所联系,也能导致疾病。
Phenolyzer的明显优势
1. Phenolyzer支持用户输入疾病或表型信息的自由关键词来进行检索。最新的Phenolyzer版本甚至直接支持用户输入HPO的名词了,甚至支持用户输入中文的表型信息(利用Translate按钮进行自动翻译)。
2. Phenolyzer能对孟德尔疾病及复杂疾病中的候选致病基因提供更准确的排序,这样帮助研究人员更好的利用基因组或者外显子组测序数据在成百上千个候选基因里面找到致病基因。
3. Phenolyzer能提供全新致病基因的优先次序排列,哪怕这个基因从来没有报道过与该疾病相关。
性能评估(一)
通过输入14个有1-2个致病基因变异产生的孟德尔疾病,对比Phenolyzer,Phenomizer,GeneCards,SNPs3d,PosMed和Phevor分析工具的效果。通过输入疾病表型,输出结果按照基因的致病相关性依次排列,如“Top 1”,“Top10”,“Top20”,如果此基因没有对应的记录,则被分类到“Below top 20”。结果表明,只有Phenolyzer工具可以成功地将所有的致病基因排列到“Top 1”(下图)。 SNPs3d仅失误地将一个基因评定为“Top 3”。PosMed和 Phevor效果很不好。Phenomizer效果很好,能够识别输入是每一种疾病表型,而不仅仅是疾病名称。但总体结果Phenolyzer最好。
性能评估(二)
为了进一步扩大评估的范围,我们对新生儿测序研究中编译的590个遗传性致病基因进行检测和性能评估。由于数据比较大,无法其他工具无法在Web服务器运行。Phenolyzer检测结果发现,81.2%的基因被评为“Top 1”,90.7%的基因被评为“Top 10”。总之,通过Phenolyzer检测,93.4%的基因可以从候选基因的列表中被识别。表明Phenolyzer善于发现已知的孟德尔疾病相关的基因。
性能评估(三)
评估Phenolyzer从复杂疾病中优先排列候选基因的能力。本次测试了4个复杂疾病,通过输入“癌症”,“孤独症”,“类风湿关节炎”和“贫血”,包括在COSMIC肿瘤基因普查中的517个基因,从外显子测序获得的22个与自闭症密切相关的基因(假发现率<0.05),来自RADB(类风湿关节炎的相关的多态性数据库)634个基因和来自与红血细胞表型和贫血相关的75个位点的121个基因。所有报道的基因都作为阳性基因,所有其它基因作为阴性组。分析结果表明,Phenolyzer比其他工具更具优势。例如,检测外显子测序鉴定的孤独症相关基因,Phenolyzer的AUC值在0.85以上,其他工具的AUC值均没有超过0.81。
性能评估(四)
为了获取致病基因,对Phenolyzer优先排列新致病基因的能力进行了评估。通过向Phenolyzer提交55个致病表型,检查是否可以在候选基因的排名列表中找到这些已报道的基因。相比于其他工具,Phenolyzer得到最高的反应效率,接近50%的致病基因被排列到TOP 5%,绝大部分致病基因排列在TOP 50%。 Phevor不擅于区分致病基因,仅有不到25%的致病基因排列在TOP 5%。PosMed的反应效率较低,有25%以上的致病基因没被发现。下图结果明显标明,Phenolyzer相较于其他工具,在优先排列新致病基因方面,具有绝对的优势。
虽然Phenolyzer仅是作为一款表型分析工具而被开发,但它可以直接将表型与NGS数据或CNV数据分析中的功能注释软件联系在一起,同时,为了方便用户使用测序数据,Phenolyzer团队还提供了运用ANNOVAR服务器的Phenolyzer自动分析流程。随着日益增多的人类疾病测序数据的研究,Phenolyzer将帮助用户利用已有的生物知识和表型信息,加快科学发现。
参考文献:
Hui Yang, Peter N Robinson & Kai Wang. Phenolyzer: phenotype-based prioritization of candidate genes for human diseases. Nature Methods(2015)
联系客服