打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
GWAS中的genotype imputation简介

GWAS用于寻找与疾病或者特定性状相关联的SNP位点,为了更加有效的挖掘信息,GWAS需要大样本量和高密度的SNP分型结果,最佳的分型方案当然是全基因组测序,然而成百上千个样本的全基因组测序其成本依然是巨大的,目前更加经济有效的方案是GWAS芯片,针对特定人群,利用tag SNP的思想设计探针,覆盖的SNP位点在几十M的数量级。

相比全基因组测序,GWAS芯片确实更加经济,但是其缺点也是显而易见的,只能够分析挖掘已知的SNP位点,而且位点数据量相对较少,要知道一个全基因组测序分析得到的SNP位点在几百M左右。为了解决这个问题,科学家提出了基因型填充的思想。

genotype imputation,称之为基因型填充,基本思想是利用单倍型来推断芯片未覆盖到的SNP位点的分型结果,在家系数据和独立样本的分析中都适用。家系样本基因型填充的过程示意如下

部分样本具有较为完整的SNP分型结果,依据这些样本的分型结果构建在家系样本中共享的单倍型,对应图中方框标记的完整分型结果,针对基因型缺失的样本,根据亲缘关系推断该样本可能的单倍型,对于基因型缺失的位点,直接使用对应单倍型中的分型结果进行填充。

独立样本的基因型填充过程示意如下

首先需要有一个参照的单倍型,根据样本已有的分型结果,与参照的单倍型进行比较,确定其可能所属的单倍型,然后进行填充。

以上示意图来自下列文献

Genotype Imputation
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2925172/

从以上示意图可以看出,基因型填充有两个必要条件,第一个条件就是参照的单倍型,对于独立样本,可以采用hapmap或者1000G等项目的单倍型作为参照,第二个条件就是已知分型结果位点的比例和分布,对于需要填充的样本,要保证一定密度的分型结果,需要根据已有的分型结果来推断该样本可能的单倍型,分型结果已知的位点越多,其单倍型推断的准确性越高,填充的准确性才会越高,根据这个条件来看,GWAS芯片最适合进行基因型填充,因为其覆盖的SNP位点的数量和分布更有助于推测样本的单倍型。

目前已经有很多用于基因型填充的软件,部分列表如下

  1. Beagle

  2. IMPUTE2

  3. MACH

后续会详细介绍各自的用法。

·end·

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
GWAS的基因型填充是怎么回事?
Genotype-Imputation从原理到操作
GWAS | 原理和流程 | 全基因组关联分析 | Linkage disequilibrium (LD)连锁不平衡 | 曼哈顿图 Manhattan
GWAS | 原理和流程 | 全基因组关联分析 曼哈顿图 Manhattan_plot | QQ p...
NGS数据分析实践:03. 涉及的常用数据格式[5] - vcf格式
【直播】我的基因组58:用R包SNPRelate来对我的基因型跟hapmap计划数据比较
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服