和甲基化有关的。
可以先了解下甲基化:
450k甲基化基础
450K甲基化芯片数据处理传送门
450k甲基化芯片常用工具包:ChAMP和minfi等。
甲基化的一些预备知识
甲基化程度的量化
DMP(或DML,差异甲基化位点)与 DMR(差异甲基化区域)的关系。如何定义DMR?
一般来说,DMR是通过统计bump来计算出来的,可以参考:ChAMP 分析甲基化芯片数据-差异分析下篇
一般来说,我们还会关注两个方面的信息:DMR与CpG岛的关系,DMR与基因的关系。
DMR与CpG岛的关系:图片来自ShengXinRen
关于DMR或DMP与基因的关系(笔者特别关注甲基化位点的功能注释),简要总结如下。
一般而言,启动子区域的甲基化程度影响基因的转录(但也有报道说第一外显子等位置的甲基化也与基因的转录相关)。如何描述一个基因的转录相关的甲基化程度呢?
有个论坛上是这么说的(ShengXinRen):
有两种方式,看具体情况具体分析
一、该基因上所有cpg位点的平均值
二、该基因启动子区域cpg位点的平均值
也有人总结如下:
于某个区域的甲基化水平计算方法,不同的方法会得到不同的结果。
1)区域甲基化水平计算方法1-Fraction of methylated cytosines
即:甲基化C占区域内所有覆盖到的C位点的比例
对于图片中的a:区域甲基化水平=10/12;b)甲基化水平=11/12
2)区域甲基化水平计算方法2-Mean methylation level
即:所有C位点的平均甲基化水平,区域内所有甲基化的C的单个位点甲基化水平之和/区域内所有覆盖到的C位点的个数
3)区域甲基化水平计算方法3-Weighted methylation level
即:加权甲基化水平,区域内所有甲基化C位点总的reads数/区域内总的覆盖度
以及这种说法(https://www.biostars.org/p/168142/):
Genes do not have methylation levels, but you can certainly summarize the methylation around a gene (average, median, min, max; 2kb upstream, gene body, first intron). You will need to determine how best to summarize your own data, though (or if summarizing even makes sense for your questions).
另外,补充一个知识(“启动子预测”技能):
启动子是位于结构基因5'端上游的DNA序列,能活化RNA聚合酶,使之与模板DNA准确的结合并具有转录起始的特性。常规启动子以二型为主,核心序列包含TATA box和CAAT box,这两部分组成的序列含有基础转录活性,也就是具备启动子特征,但是表达水平很低,此序列紧挨着转录起始位点TSS,一般位于编码基因5UTR(不是ATG哦)上游的300bp之内。
研究启动子,其实不是研究核心启动子,而是研究启动子在细胞不同状态下表达活性的差异性,这种差异由启动子临近基序调控,研究较多的是增强子、甲基化、转录因子,这些基序位于核心启动子上游居多,所以,常规取包含核心启动子及其上游共计2kb进行研究。
image.png
感觉暂时并没有统一的标准。
可以自己尝试各种界定标准:
1、 TSS上游1500bp、2000bp、5000bp内的甲基化位点的平均值;
2、 TSS上游及下游1500bp、2000bp、5000bp内的甲基化位点的平均值;
3、 TSS上游1500bp、2000bp、5000bp内或5-UTR或第一外显子的甲基化位点平均值。
考虑5000是因为CpG岛的加上两边的Shore一般可达到6kb左右。注意到,5-UTR是第一外显子的一部分。有时候甚至还可以加上是否为CpG岛(或Shore)这个限定。
下图来自:彻底搞清楚promoter, exon, intron, and UTR
3.4分,简单的肠癌甲基化分析。主要涉及差异分析、关联分析、功能注释。
解读:如何从甲基化入手,轻松整篇预后标志物的文章
1、数据质控:共485,577个基因座的DNA甲基化数据,在预处理数据和质量控制后,保留了467,971个探针。
2、差异筛选:minfi包筛选DMR(差异化甲基化区域),这一步类似于RNA-Seq的筛选差异基因。结果:最终得到675个差异甲基化区域,其中654个上调。
3、注释和功能
3-1 DMR的注释:这些DMR区域与基因的关系是什么呢?我们利用這些差异甲基化区域的位置与基因的各个元件位置的关系,观察這些差异甲基化区域主要分布在基因的哪些位置上。结果:上调的甲基化区域大多数位于基因的第一外显子,5'UTR,TSS200,TSS150和基因体中,而只有少数UMR位于基因间和3'UTR中区域,同样的下调的甲基化区域也有相同的现象。
3-2 DMR与CpG岛的关系:差异甲基化区域与CpG岛的关系如图,从中可以看出上调的差异甲基化区域主要聚集在CpG岛区域,而下调的差异甲基化区域主要聚集在低CpG岛密度区域。
总结:
在本研究中,在大量COAD样品中进行了DNA甲基化谱的综合分析,以研究COAD中存在的改变的DNA甲基化模式。COAD样品和邻近组织样品之间的DNA甲基化谱的比较揭示了COAD样品中异常的DNA甲基化变化,并导致675个DMR的鉴定,包括654个高甲基化和21个低甲基化DMR。这些结果与先前的研究结果一致,即DNA高甲基化是结直肠癌的常见特征。
此外,这些DMR可用于有效区分COAD样品和相邻组织样品,这表明DMR可能在COAD的形成中具有致病作用。基因组分析显示,DMR主要位于启动子区域(包括第1 外显子,5'UTR和TSS)和体区,这与之前在其他类型癌症中的观察结果一致。在基因间和 3'UTR 区域中仅发现了一小部分DMR。此外,大多数高甲基化DMR位于CpG岛中,而大多数低甲基化DMR不位于CpG岛或注释基因中。
联系客服