打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Quinlan大神nature genetics新作 De novo变异预测好工具CCR

Quinlan大神nature genetics新作

De novo变异预测好工具CCR

好的工具,让复杂遗传病易于被诊断

如果觉得内容对您有用,欢迎分享

如果有不同观点或建议,欢迎留言



1

二战小故事

战斗机的致命位置到底在哪

二战时期 

空战进行的异常激烈

战场双方飞机的损耗量都非常惊人

为了减少损失

美国专门成立了研究小组(1942–1945)

研究飞机的受损情况

即统计飞机受到攻击的部位


研究小组统计了飞机受损情况

发现飞机不同位置受损情况并不一样

一些部位弹孔密集

另一些部位则看起来很少受损

研究小组认为这些部位更容易收到攻击

所以初步决定加固这些认为容易受损的部分


但小组中一位成员

统计学家Abraham Wald提出不同意见

因为现在研究的飞机

都是成功在战场上存活的

而那些被击落的飞机

很可能就是这些看起来不容易受损的地方

遭受了攻击

导致飞机坠毁

所以他认为:

需要加固的不是看起来容易受损的地方

而是看起来不怎么受损的部分


这就是著名的理论

the principles of survival bias

飞机经过改进后

被击落的概率显著降低

Wald也成为了著名的幕后英雄


2

Quinlan大神的CCR工具与

the principles of survival bias的关系

受到这个理论的启发

Quinlan大神思考

“人类基因组上是否也存在这样的脆弱区域”

如果假设正确

那么在正常人群的基因组上

会存在一些观察不到变异的区域

而这些区域出现变异的人群

会患上严重的遗传疾病而不能进入正常人群

恰好正值著名的gnomAD数据库发布

Quinlan便得到了一个非常好的正常人群数据


拿到数据库后

要如何分析呢

是不是需要设计一个很复杂分析模型?

但Quinlan大神设计了一个

非常非常非常粗暴的模型

直接计算gnomAD数据库中相邻变异的距离(同时用测序数据质控和CpG比例引起的变异倾向性做修正)

相对距离越长说明功能越重要

红色区域就是基因的CCR区域

这些区域在gnomAD数据库中

从未出现任何引起蛋白改变的变异

(长度远大于变异间距的期望值7bp)

因此被判定为非常重要的区域

上方红色数字

是clinvar数据库中报道致病变异的次数


有效性的clinvar验证

虽然分析的思路看起来很简单

但结果却出乎意料的优秀

因为通过clinvar数据库验证

CCR分值高的部分

显著聚集了

大量clinvar明确标记pathogenic的变异


保守性与功能域验证

clinvar亲测有效后

Quinlan大神又比较了

CCR与保守性/功能域的一致性

通过与GERP++预测软件和Pfam数据库做比较

发现

高权重的CCR大部分都位于高保守与已知的重要结构域上

而低权重的CCR结论相反


和同类预测软件比较

通过与pLI与MPC软件比较

发现CCR比pLI和MPC找到了更多的区域

而这些多找到的区域

多数通过了clinvar的数据检验


实际数据验证效果

通过对严重的神经性疾病患者数据进行分析

测试数据为5620名患严重神经发育疾病

对照数据为2078名自闭症患者的正常兄弟

这些数据已经由遗传专家

确认致病和良性的de novo变异

比较CCR和其他多个预测软件的结果

发现CCR在预测效果上要明显好于其他软件


3

软件的缺点和局限性

和其他预测软件一样

CCR也不是完美的

也存在缺陷和适用范围

除了要知道

会存在潜在的假阳性和假阴性结果之外

一定要注意使用范围:

只适用于分析早发的严重AD遗传疾病

分析其他类型疾病的效果可能会非常差

因为CCR的思想是

基因组上绝对不能出问题的区域

因此隐性遗传甚至有不完全外显的疾病都不适用


4

个人对文章的看法

Quinlan大神的这个思路

真是非常巧妙

虽然模型看起来非常简单

甚至还不如一个常用的机器学习模型复杂

但却得到了非常好的结果

这足以说明Quinlan大神基因组学功底的深厚

重要的不是模型多复杂

而是对具体问题的理解

同时我觉得也离不开他现所在

yandel实验室的深厚积淀

要知道

这个实验室

可是genome burden test的重要发源地之一

Gemini和VAAST软件便出自此实验室


5

最后

Quinlan大神在文章中说

他会继续改进这个方法

更好的作为遗传学分析的工具


什么?!

你居然不知道Quinlan大神是谁

bedtools了解一下


如果对文章内容有评价或不同看法,

欢迎到行业大咖顾大夫创建的论坛中讨论


NGS基因诊断率能力提高之路径

多维度、多学科、多角度,合共同之力解决问题。


『广告时间』

bpvast(上海幂普智能科技有限公司)的基因检测智能操作系统(g-TIES),是由多年单基因遗传病领域的资深从业人士领衔,整合国内最优秀的生物信息学和生产运营管理团队,并与业内专家反复沟通交流,最终开发出的适合大规模应用的单基因遗传病检测支持系统。详细请见:基因检测智能操作系统(g-TIES)

上海瀚垚生物全国独家代理,如有试用和购买需要请联系 info@56dna.cn,或在公众号留言


上海瀚垚生物  (www.56dna.cn)

我们为您提供优质的基因检测服务:

A、低成本即可获得最高质量的基因测序和数据解读服务,对于初期客户,可以提供低成本的试错机会,未来业务证明可以做大,可以无缝衔接到Turn key服务模块。

B、团队多年从事遗传类疾病检测服务,可以帮客户完成最复杂的数据解读环节,客户可以做到零参与或只参与审核。

C、快速的实验周期,大部分项目20个工作日可完成报告。


感谢CHPO组织及各位专家在HPO工具汉化和应用中所做的卓越贡献,为下游应用和开发工具提供了很好的基础设施!

赶紧关注,让我们与您一起对话基因

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
临床相关突变查询数据库
一起学NGS数据分析之基因位点注释
NCBI的ClinVar数据库及其在基因检测医学中的应用
NCBI临床资源(GTR,Clinvar以及MedGen)将如何整合利用 | 清涟基因
想要测序结果更好?测序前你得知道这几点......
2021第一篇干货,基因-疾病数据库/工具大集合
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服