题目:Comparative Molecular Analysis of Gastrointestinal Adenocarcinomas
胃肠腺癌的分子比较分析
1.SUMMARY
2.文献背景
胃肠道腺癌具有相似的内胚层发育起源,因此本文试图评估胃肠道腺癌区别于其他腺癌的分子特征,以深入了解其发病机制;
早在2014年TCGA就在Nature上发表了一项研究,鉴定出4种胃癌分子亚型:EBV+肿瘤(较高频率的PIK3CA基因突变和DNA超甲基化 )、微卫星不稳定型(MSI)、染色体不稳定型(CIN)、以及基因稳定型(GS),所以这篇研究也算是之前研究的延续。
3. 结果及讨论
3.1 胃肠道腺癌共享的特征
为了找到区分胃肠道腺癌于其他来源腺癌的分子特征,本文主要从以下四个水平进行分析。
首先突变分析,数据来自TCGA中的MAF文件,使用MutSig2CV评估显著突变的基因。结果展示在图1A。图1A中x、y轴分别表示胃肠道腺癌和非胃肠道腺癌的q值水平,q< 0.1被认为是显著的,也就是这里q值取负的log10为底要大于1。这里评估到的非胃肠道腺癌囊括了大部分常见的腺癌类型,比如乳腺腺癌、子宫内膜腺癌等等。结果发现,与非胃肠道腺癌相比,胃肠道腺癌中突变显著的基因,包括FBXW7、SMAD2、SOX9、PCBP1。
进一步将GIACs分层为上、下消化道腺癌,评估显著突变的基因,图中绿点表示在上下消化道都发生了显著突变的基因(频率> 0.02),红点表示其中未被报道过的基因。结果发现ATM、PZP、CACNA1C和FBN3基因有显著的突变,并且先前没有报道(图S1D)。
评估体细胞拷贝数变异水平,数据来自SNP6.0芯片,使用GISTIC 2.0识别拷贝数变异(从segment数据中),结果展示在图1B。图1B 中左图是扩增,右图是缺失,q值小于0.1被认为是显著的。结果发现与non-GIACs相比,胃肠道腺癌中体细胞拷贝数的扩增和缺失都更常见。
并且发现染色体13q臂水平的扩增是胃肠道腺癌独有的。通过查阅文献发现:13号染色体短臂上有两个编码转录因子的基因:CDX2(13q12.2)和KLF5 (13q22.1),这两个基因编码的转录因子被发现可能促进了胃肠道腺癌的发病机制。其次,这个区域还包含了肿瘤抑制因子Rb1,而且被发现在非胃肠道腺癌中经常缺失。这两个发现和这里得到的结果是一致的(SFig 1F)。
在DNA甲基化水平,是基于启动子CPG位点分析了921个胃肠道腺癌和2828个非胃肠道腺癌的DNA甲基化水平,β值大于等于0.3定义DNA甲基化阳性。图1 C展示了胃肠道腺癌和非胃肠道腺癌在DNA高甲基化频率、突变密度、非整倍性分数的比较,结果发现:GIACs中,CpG岛高甲基化频率、体细胞突变的平均密度都高于非GIACs。
对于基因表达水平,鉴定了GIAC和非GIAC差异表达的基因,在此之前,使用到了GTEx数据库中正常非胃肠道组织的RNA seq,剔除了正常胃肠道与正常非胃肠道组织之间差异表达的基因。剔除后得到GIACs与非GIACs 有553个差异基因,利用正交偏最小二乘判别分析,发现553个基因中有51个基因在GIACs中有显著表达,包括一些在胃肠道干细胞生物学中有作用的基因(如OLFM4、CD44和KLF4)以及与EGFR信号通路相关的基因(补充图1G)。
文章还探究了这些显著突变的基因是否编码重要的转录因子,对此,本文收集了139个在胃肠道发育中起着重要作用的转录因子,基于基因表达特征的分析发现,与非GIACs相比,GIACs中出现了明显的功能获得或丧失事件,有33个转录因子基因至少在一种GIAC中发生超过5%的GOF或LOF事件。其中,包括之前补充图1F提到的13号染色体短臂上的两个基因,CDX2在食管、结直肠腺癌中扩增,而在胃腺癌中缺失,KLF5在所有的GIACs中均有扩增(fig1D)。
因为KLF5是在胃肠道干细胞生物学中有重要作用的基因,本文还使用了单类逻辑回归推导出基于来自PCBC数据集的胚胎和分化细胞的基因表达特征的干性指数,将其应用于GIAC样本,发现KLF5仅在食管腺癌中与stemness增加相关(sfig1H)。
补充图1 ABC分别是对GIAC和非GIAC的DNA甲基化谱、mRNA表达、反向蛋白的无监督聚类,验证了GIACs可以通过DNA高甲基化谱、mRNA以及RPPA聚类,说明GIACs确实可以作为一个独特的组。但是也发现,使用mRNA、miRNA或RPPA数据的无监督聚类会受到组织类型的强烈影响。相比之下,对突变、拷贝数变异和DNA甲基化模式的评估得到了跨越组织边界的肿瘤亚型,这也就决定了本文的分析主要基于这三种数据类型。
3.2 胃肠道腺癌的分子亚型
确定了胃肠道腺癌具有独特的分子特征后,本文接着探究它的分子分型。这里用到的亚型与先前研究确定的一致。图2A展示了分子分型的流程图,921例样本中有30例为EB病毒高负荷,并且只在胃腺癌中发现。剩下的891例基于突变密度一分为二,高突变密度组又分为HM-SNV单核苷酸高突变型和MSI微卫星不稳定型,而低突变密度组又分为CIN染色体不稳定型和GS基因组稳定型。
突变密度是mutsig2CV 测的,将GIAC样本按突变密度排序,突变密度>10 每Mb定义为高突变肿瘤(补充图2A)。
对于高突变密度组,使用MSI-单二核苷酸分析方法对DNA样本进行MSI评估,这种方法是通过检测4个单核苷酸重复位点和3个二核苷酸重复位点来评估,剩下的高突变样本归为单核苷酸高突变型 (n = 19)。接着文章通过评估缺失密度和单核苷酸变异密度刻画了这两种高突变亚型的特征,补充图2B的二维散点图,左图,结果发现当缺失密度>1每Mb, indel/SNV突变密度的比值>1/150的高突变样本基本上包括了所有的MSI亚型。
而低突变密度组通过计算克隆缺失评分,分为染色体不稳定型和基因组稳定型。染色体不稳定型肿瘤会表现出明显的非整倍性,广泛的体细胞拷贝数变异事件。这里引入了量化非整倍性的评分,也就是非整倍性分数,它是根据拷贝数事件的长度和大小进行量化的。而另一个评分:克隆缺失分数(CDS,Clonal Deletion Score)是本研究开发用来识别染色体不稳定型肿瘤的。它量化了每个肿瘤基因组中无性缺失的基因组区域的数量。利用肿瘤基因组片段的绝对等位基因拷贝数来计算。比如,对于每个基因片段s,用q1和q2分别表示为拷贝数较低和较高的两个等位基因的绝对拷贝数,即,q1<q2,。既然是克隆缺失,就应该满足两个条件,(1)片段是一个缺失,即, q1 + q2<t,其中t为平均肿瘤倍性;(2)该缺失是克隆的,即,q1为ABSOLUTE计算的克隆拷贝数;那么该片段的克隆缺失效应(CDE)为: CDE = 2(1 -(q1 + q2)/t) 克隆缺失分数CDS是所有片段CDE的加权平均值,权重是节段的长度。在这里,本文取CDS> 0.0249,定义为CIN肿瘤(n = 625),其余低突变样本则归为基因组稳定型肿瘤。补充图2C中CDS以 0.0249为界,发现CDS评分高的CIN亚型中存在广泛的体细胞拷贝数变异事件,验证了可以根据是否存在广泛的体细胞拷贝数变异事件SCNAs来区分CIN和GS亚型。
图2B是五种亚型根据单核苷酸变异密度、缺失密度和克隆缺失分数(CDS)绘制的3D图。右上角标记了肿瘤的上下消化道和不同亚型。把5种亚型的区分做了较好的可视化,比如可以发现CIN集中在CDS分数较高的上部分,而GS集中在CDS较低的下部分。说明本文的分子分型是有效的。
为了增加本文分子分型的可信度,还评估了本研究的分子亚型和共识的分子亚型(CMSs,consensus molecular subtypes)之间的关系,发现两组之间存在显著的相关性,并且CMS系统在很大程度上无法进一步区分高突变SNV和MSI亚型,或者是CIN和GS亚型(图S2D)。
接着,本文还探究了分子分型与GIACs免疫功能的相关性。先前的研究发现EBV+肿瘤中CD8+ T细胞、m1 -巨噬细胞和IFN-γ特征的基因表达得分最高。本文对此进行了相关验证,图2 C验证了EBV+肿瘤中CD8+ T细胞、IFN-γ特征的基因表达得分最高;并且发现MSI亚型的IFN-γ特征排在第二。sFig 2.E验证了EBV+亚型中白细胞分数、m1 -巨噬细胞的基因表达得分最高。
除了以上的5中分子分型,本文还根据甲基化水平进行了分型。分析了921个胃肠道腺癌和76例组织学上正常的癌旁组织标本的DNA甲基化谱,在正常组织和白细胞中,有2845个基因启动子位点未甲基化,其β值均< 0.2,而对GIAC的DNA甲基化谱的无监督聚类,β的阈值设定为0.3,选的共识的cluster=7,主要关注4个簇,cluster1:低甲基化的胃食管腺癌GEA CIMP-L;cluster4:高甲基化的EBV+胃腺癌(EBV- CIMP);cluster5:起源于胃和结肠的MSI型肿瘤(归为CIMP-H);cluster6:低甲基化的结直肠腺癌CRC CIMP-L(Fig 2.D)。
最后文章对不同分型的分布做了个小总结,图2E是5种分子亚型,发现高突变的肿瘤主要位于胃肠道中部、远端胃和近端结肠,而CIN肿瘤多见于解剖极端,如食管和远端结直肠。F图是甲基化分型,发现CIMP-h主要见于上消化道和近端结肠。图G:是CIMP-H肿瘤中MLH1/CDKN2A沉默的分布,发现主要在远端胃和近端结肠中观察到导致MSI的MLH1的表观沉默。H图是在CIMP-H肿瘤中的5个分子亚型的分布,29例中23例(79%)为CIN亚型。
3.3 高甲基化和高突变分析
图S3A-B:A图是GIAC的监督多变量分析;(B)是去除组织特异性作用后GIAC的无监督mRNA表达分析的热图。可以发现MSI亚型的特征和组织来源无关,提示这类肿瘤具有共同的生物学特征。
最后,本文研究了在分子亚群中被启动子高甲基化沉默的基因。通过对所有亚组的表观遗传沉默基因的分析,发现在至少25%的MSI亚型中发现了135个基因沉默(图3D)。
3.4 CIN亚型的分子特征
刻画完高突变密度组与高甲基化的关系,接着文章聚焦到低突变密度组CIN亚型的分子特征。图4A热图展示了CIN亚型和GS亚型中体细胞拷贝数变异景观,可以发现在上消化道和下消化道拷贝数变异的总体模式是类似的,但与CRC相比,在GEA中,体细胞拷贝数变异的景观看起来显示出一个更精细的片段化基因组。
接着文章探究了CIN-F和CIN-B对全基因组倍增(WGD,whole-genome duplication)的影响,发现上消化道CIN- f 肿瘤的全基因组倍增明显高于CIN- b肿瘤(图4E、图S4F)
文章接着探讨了上消化道CIN-F和CIN-B肿瘤对通路的不同影响,结果发现CIN-F肿瘤中编码酪氨酸激酶受体、KRAS和细胞周期介质的基因的局灶性扩增更频繁。相比之下,CIN-B 肿瘤癌基因的激活突变更频繁(比如,KRAS和ERBB2)(图4F)。
基于图4 F的结果,初步推测了上消化道CIN-F和CIN-B肿瘤各自的发病机制(图4G)。在CIN-F亚型中,更倾向于发生突变造成的非整倍性和由此导致的致癌基因扩增,而在CIN- b 组中,致癌基因的激活更多是通过突变而非扩增。这些数据提示了早期APC的丢失和癌基因的突变激活可能先于非整倍性的形式。
而且在下消化道,ERBB2扩增具有较少的共突变基因(图S4K)。这些结果与已报道的研究相一致。
在下消化道中,CIN- f和CIN- b肿瘤的体细胞突变频率整体差异并不大,特别是APC和KRAS突变。但是,PIK3CA突变和TGF-β通路改变在CIN-B 中更常见(图S4I)。
3.5 GS亚型的分子特征
接着探究了GS亚型的分子特征。传统意义上典型的CRCs分为高突变的MSI型和低突变的CIN型,但本文发现一组既非高突变又缺乏体细胞拷贝数变异的CRCs,因此本文将它归类为基因组稳定型(图5B)。
这种结直肠癌的GS型与胃腺癌的GS亚型不同,比如本团队之前报道的,胃腺癌的GS亚型富集CDH1和RHOA突变(图S5E),其本质上是局限于胃的独特实体瘤。而CRCs的GS型,与其他CRCs具有相同的特点,都倾向于缺失APC(图S5F)。
其他关于GS亚型的特征包括:GS亚型在升结肠和横结肠中更为常见(图2E),GS亚型中更明显富集CIMP-L表型等。在低突变密度腺癌中,区分CIN亚型和GS亚型的点就在于,GS亚型中体细胞拷贝数变异少,尽管很少,但是本文还是在一部分GS亚型的11号染色体长臂1区发现了峰值,而这个区域有编码IGF2的基因(图S5G)。相比于CIN亚型,GS亚型中MAPK通路突变更为常见,比如KRAS、NRAS或BRAF突变,PIK3CA突变在GS亚型中也更常见。此外,还发现GS亚型中编码转录因子的SOX9和编码RNA结合蛋白的PCBP1的体细胞突变的富集(图5A、5C和S5H)。SOX9编码了一种调控wnt通路的转录因子,对肠道内稳态有重要作用。补充图5H展示了SOX9和PCBP1基因位点的不同体细胞突变,I图:展示了SOX9基因突变和TGF-β通路基因存在频繁的共突变。
而对于编码RNA结合蛋白的PCBP1,先前有研究报道,野生型PCBP1过表达与CRC中奥沙利铂耐药相关。本文发现在13%的结直肠腺癌GS 亚型中,PCBP1的KH区域富集错义突变,增加了发生GOF事件的可能性(图5C)。
基于以上所有数据,本文对下消化道不同分子亚型的发病机制做了个模型图,总的来说,结直肠腺癌中,GS 亚型在TGF-β通路、RAS/RAF基因和PIK3CA上的突变频率高于CIN 亚型。APC突变细胞(通常包含CIMP-L表型)能够通过维持额外的致病性突变进行转化,而不需要通过p53缺失或非整倍性的形式。前面提到,CIMP--H MSI肿瘤较少依赖WNT信号,并且APC突变率降低。这些发现提示了在CRC中存在另一种通路,肿瘤不是由APC突变引起的,而是由引起CIMP-H的表观遗传畸变引起的。如果MLH1在CIMP-H中沉默,则肿瘤变为MSI型,而如果不影响MLH1,则肿瘤将沿CIN途径发展,形成CIMP-H 微卫星稳定型(MSS)CIN肿瘤(图5D)。
文章还补充了下消化道根据解剖部位分层的基因突变频率,发现来自右侧结肠的非高突变CRCs的KRAS、PIK3CA和SOX9突变频率比左侧更高(图5E)。
3.6 胃肠道腺癌的突变特征
本文使用的是贝叶斯非负矩阵分解方法从SNVs中识别突变特征,根据6个碱基替换和16个可能的相邻碱基组合划分出96种可能的突变类型。构建一个96×M的突变计数矩阵(M为样本数)作为输入数据。用余弦相似度评估已识别的特征与COSMIC特征的相似度。初步的结果发现MSI和POLE特征在GIACs总突变特征分数中占主导地位(SFig 6.A-B)。
为了提高特征识别的准确性,从突变计数中去除MSI和POLE特征。去除高突变肿瘤后发现了一个BRCA特征(COSMIC signature 3)、两个APOBEC特征、一个类似于COSMIC signature17的特征、以及以CpG二核苷酸C > T转换为主的特征(COSMIC signature 1)(图6A)。
图6B上面都是整篇文章前面分析的结果,最下面一栏加入了识别的4个突变特征。发现APOBEC特征对整个突变谱的贡献最小,但其他三个特征在非高突变GIACs中较为突出。
为了让结果更直观,文章引入了特征强度,对于每个样本,特征强度定义为该特征的估计突变数。同样发现APOBEC特征在整个突变谱的占比最小,但其他三个特征较为突出(图6C)。
抑癌基因BRAC1和BRAC2是参与同源重组缺陷HRD修复的,有研究发现,在缺乏BRCA1和BRCA2突变的胃癌中存在BRCA特征,本研究发现在几个同源重组基因中,比如:BRCA1、BRCA2和PALB2,富集体细胞和胚系突变,证实了在GIACs中存在BRCA特征活性。并且随着BRCA1或RAD51C的表观遗传沉默,BRCA特征活性也显著增强,特别是在EBV+ 胃腺癌内(Figure S6E-F)。
此外,还观察到BRCA特征活性和上消化道腺癌,特别是CIN亚型,关系紧密(图6D)。进一步分析发现BRCA特征活性只与局灶性SCNA事件相关(图S6G),于是本文推测这可能是由双链断裂引发的。
补充图6C是4个特征在CIN亚型的不同解剖部位的分布,可以发现AA > AC特征在upper-GI CIN中富集,在食管中最明显。
此外,还发现这种突变特征在CIN-F和TP53突变的上消化道CIN肿瘤中富集(图6E)。
AA > AC特征目前为止还缺乏已知的原因,但它与胃食管腺癌以及与较高的CIN-F分数的相关性可能有利于解释:食管胃腺癌与结直肠腺癌相比具有更大的局灶性非整倍性以及两者之间的癌基因谱差异(图7)。
最后是第四个特征,CpG二核苷酸的胞嘧啶可自发地脱去氨基而形成胸腺嘧啶,也被称为“老化特征”,是所有肿瘤中最常见的特征。虽然观察到与CIMP状态有关(图6F),但并不能用DNA甲基化的简单数量差异来解释。CIMP状态和CpG > TpG特征可能反映了CIMP肿瘤需要更多的细胞分裂才能进展,从而获得更多的CpG > TpG突变。
4. 全文总结
本研究分析了921例胃肠道腺癌,鉴定了其区别于其他癌症的分子特征。将GIACS分为5种分子亚型,发现高突变肿瘤具有不同的免疫特征,取决于组织来源和分子亚型。而低突变密度组,染色体不稳定的上消化道腺癌表现出更多片段化的拷贝数变异,伴有基因组加倍和明显的突变特征,基因组稳定的结直肠腺癌富集SOX9和PCBP1基因突变。
最近公众号改版,
以防失联,加个星标吧!
联系客服