打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
GATK BQSR的意义与作用

BQSR 全称叫做 Base Quality Score Recalibration, 可以理解为碱基质量校正。对于变异位点的鉴定,碱基质量是非常重要的。比如测序识别到的一个位点,其碱基和参考基因组上的碱基不同,但是其质量值特别低,此时可以认为是一个测序错误,而不是一个SNP位点。

在测序的原始数据中,本身就提供了每个碱基对应的质量值,但是GATK官方认为测序仪提供的碱基质量值,是不准确的,存在误差的。

某个位点前后的碱基的种类,称之为上下文环境,会对这个碱基的质量值产生影响。对于A,T,C,G 4种碱基,共有4 x 4 =16 种上下文环境,左侧的图是利用fastq文件中测序仪给出的碱基质量值做的图,可以看到,对于不同的上下文环境,碱基质量值分布不同;右图为经过BQSR校正之后,不同上下文环境中碱基质量的分布。可以看到,校正之后,不同的上下文环境的碱基质量分布基本相同。也就是说,BQSR消除了上下文环境对碱基质量的影响。

在碱基质量校正时,主要考虑下列3个因素:

  1. 碱基在reads中的位置

  2. 碱基的上下文环境

  3. 碱基原始的质量值

根据这3这个因素,首先计算出原始碱基质量中错误的分布模型,然后利用这个模型对碱基质量校正,生成新的碱基质量值。

执行BQSR分析包含以下三步

1. 根据原始bam文件中的碱基质量值计算出系统误差的分布

命令如下

gatk BaseRecalibrator    -R ${ref_fasta}    -I ${input_bam}    --use-original-qualities    -O ${recalibration_report_filename}    --known-sites ${dbSNP_vcf}    --known-sites ${sep=" --known-sites " known_indels_sites_VCFs}

在计算的过程中, 不考虑已知的变异位点的碱基质量,--known-sites指定已知变异位点对应的vcf文件。这一步对单个样本进行操作,每个样本生成一个错误模型文件。

2.  综合多个样本的模型,生成一个总的模型

命令如下

gatk GatherBQSRReports    -I ${sep=' -I ' input_bqsr_reports}    -O ${output_report_filename}

3. 根据之前计算的模型对碱基质量进行校正

命令如下:

gatk ApplyBQSR    -R ${ref_fasta}    -I ${input_bam}    -O ${output_bam_basename}.bam    -bqsr ${recalibration_report}    --static-quantized-quals 10 --static-quantized-quals 20 --static-quantized-quals 30    --add-output-sam-program-record    --create-output-bam-md5    --use-original-qualities

BQSR会对输入的bam文件中的碱基质量值进行替换,替换为校正之后的质量值,而原先的质量值保存在OQtag 中,示意图如下

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
深入理解snp-calling(一):比对与数据预处理部分
CNGBdb动手实验室 | 癌症分析【第3课】测序下机数据处理(下)
价值999的全外显子教学视频
bam格式文件处理大全(五)
6 GATK4完整流程
从零开始完整学习全基因组测序(WGS)数据分析:第4节 构建WGS主流程 | Public Library of Bioinformatics
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服