打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
一起学NGS数据分析之基因位点注释
    在通过各种方式去除低质量的位点以及不符合遗传模式的位点后,下一步就是要对这些位点进行注释,比如说这个变异位点是在外显子上吗?有没有改变氨基酸啊?在千人基因组数据库中的频率怎么样啊?今天我们就来介绍一下Annovar软件的使用。这个软件非常容易上手,在这里游侠主要介绍两种方式:


第一种
      第一种是网站的方式,非常方便简单,不需要任何生物信息学技能,具体操作如下:
1.       Bing搜索wAnnovar,打开第一个搜索结果,或者直接在浏览器里输入http://wannovar.usc.edu/;
2.       在email里输入自己的邮箱地址,在Sample Identifier输入样本名称;
3.       点击Iuput File选择自己的vcf文件
4.       过几分钟后就可以点击链接地址,看到TXT file右击另存为,保存在本地电脑上。

第二种
     第二种方式是在本地(linux操作系统)安装annovar软件,下载相应的多个数据库,具体操作如下:
1.       Bing搜索Annovar,打开第一个搜索结果,或者直接在浏览器里输入http://annovar.openbioinformatics.org/en/latest/;
2.       注册账户,填写教育网邮箱;
3.       根据邮箱里的链接下载最新版annovar软件,下载后无需安装,直接使用;
4.       下载annovar网站相应的数据库,命令如下:./annotate_variation.pl -buildver hg19 -downdb  -webfrom annovar dbnsfp30a humandb/hg19;常用数据库都需要下载,总大小在二三十G左右;
5.   现在就可以使用annovar注释vcf文件了,table_annovar.pl test.vcf /humandb/hg19/ -buildver hg19 -out test -remove -protocol refGene,genomicSuperDups,phastConsElements46way,esp6500siv2_all,exac03,1000g2014oct_all,avsnp142,clinvar_20140929,scsnv,cosmic68wgs,ljb26_all -operation g,r,r,f,f,f,f,f,f,f,f,f -nastring . –vcfinput

各数据库解释
    Annovar输出的结果是可以在EXCEL或Calc(linux下的EXCEL)中打开的,简单介绍一下每一列的大体意思。
Chr:变异位点所在染色体编号
Start:变异位点开始位置
End:变异位点终止位置,对于SNP来说start与end位置是相同的;
Ref:参考基因组碱基
Alt:检测样本变异碱基
Func.refGene: 变异位点所在功能区,主要有外显子区、内含子区、剪切位点区、启动子区、UTR区,基因间区等;
Gene.refGene:变异位点所在基因名称;
GeneDetail.refGene:变异位点具体名称,如NM_001160184:c.*518G>A,NM_032129:c.*518G>A;
ExonicFunc.refGene:外显子区功能改变,主要有错义突变、同义突变、无义突变、缺失移码突变、插入移码突变、缺失非移码突变、插入非移码突变等;
AAChange.refGene:氨基酸改变,如AGRN:NM_198576:exon9:c.G1660A:p.V554M;
genomicSuperDups:变异位点是否位于基因组重复区,如果是则有Score=0.977993;Name=chr8:240489类似提示,则变异位点可能为假阳性,筛选位点需慎重,如果不是,则提示为0或点号;
phastConsElements46way:变异位点保守性,如果处于保守区则突变致病的可能性比较大,不保守提示为0或点号,保守则显示分值;
下面几列为变异位点在数据库中的频率,如esp6500代表6500人的外显子数据库,ExAC为65000人的外显子数据库,ExAC_EAS为东亚人群的ExAC数据库,1000g2014oct_all为千人基因组数据库,需要提示的是内含子的变异要看千人基因组数据库,其他2个数据库没有内含子变异信息;
avsnp142:变异位点在dpSNP数据中的命名,如rs28561399;
clinvar_20140929:变异位点在NCBI网站clinvar数据库中的记录,这对于寻找遗传病致病位点非常重要,如果有经济实力的机构最好购买HGMD专业版数据库;
再下面几列表示各种软件预测变异位点的致病危害性,如avsift,Polyphen2,LRT,MutationTaster,FATHMM,RadialSVM,LR等,D代表有害,T,B,P等可以容忍,整体上来说,目前的预测软件还不够特异,希望人工智能能够在这一块有所突破,游侠推荐RadialSVM软件预测结果,经实例验证比较靠谱,其他比较靠谱的预测软件还有Alumut,不过是商业化的需要收费;
再下面几列也是标注位点保守性的,一般不常用,
最后会有样本检测的基因分型信息,如0/1:76,76:152:99:1754,0,1839,0/1表示为杂合子,1/1代表纯合子,76,76分别代表野生型位点的reads数与突变型位点的reads数,152代表覆盖该变异位点的总reads,也就是depth测序深度,99代表基因分型的可信度,1754,0,1839表示具体的分型数值。



本文由微信公众号“基因检测与解读”(ID:gene_test2016)授权转载。如需转载请联系原作者取得授权。关注'基因检测与解读'微信,学习生物信息学技术与方法,寻找与自己有共同遗传家系资源研究者。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
肿瘤基因检测的解读流程
肿瘤突变负荷(TumorMutationBurden,TMB)
把maf格式的somatic突变数据导入annovar去除人群频率变异
人类遗传学知识库的重大修正
Nature:空前的罕见病诊断工具
利用同一个数据库,Nature同日发表4篇文章,揭示人类遗传变异的“秘密”!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服