Sci Adv | AI预测癌细胞必需基因图谱

撰文：huacishu

IF=14.132

推荐度：⭐⭐⭐⭐⭐

亮点：

1、DeepDEP 模型使用突变、基因表达、DNA 甲基化和DNA拷贝数变化的综合基因组谱来预测癌症依赖性。

2、研究人员还将 DeepDEP 应用于癌症基因组图谱 (TCGA) 的泛癌肿瘤基因组学，构建了第一个 8000 个肿瘤的泛癌合成依赖图，并证明了其与治疗效果和预后的临床相关性。

3、这项研究解决了将癌症依赖性筛查的结果与癌细胞的分子组成联系起来的长期挑战，并把预测扩展到未筛选的细胞系及无法筛查的肿瘤。

德克萨斯大学健康科学中心圣安东尼奥分校Chen Yidong教授团队在国际知名期刊Sci Adv在线发表题为“Predicting and characterizing a cancer dependency map of tumors with deep learning”的研究论文。全基因组功能缺失筛查揭示了癌细胞增殖所必需的基因，称为癌症依赖性。将癌症依赖性与癌细胞的分子组成或未经筛选的细胞系以及进一步与肿瘤联系起来仍然是一个挑战。在这里，作者介绍了DeepDEP，这是一个利用整合基因组图谱预测癌症依赖性的深度学习模型。它使用一种独特的无监督训练模式，捕获未标记的肿瘤基因组表达，以改善对癌症依赖性的学习。本研究展示了DeepDEP对传统机器学习方法的改进，并用三个独立的数据集验证了其性能。通过系统的模型解释，扩展了当前的依赖关系图，提供了依赖关系的功能特征。并将DeepDEP应用于泛癌肿瘤基因组学，构建了首个8000个具有临床相关性的肿瘤的泛癌合成依赖图。总之，DeepDEP是一种利用快速增长的基因组资源研究癌症依赖性的新工具。

基因依赖性或重要性是指基因对细胞增殖和存活至关重要的程度。特别是基因依赖性在癌细胞中具有高度的遗传背景依赖性。在这里，作者提出了基于肿瘤和细胞系样本的高维基因组图谱的DeepDEP来预测基因依赖性。DeepDEP嵌入了一种转移学习设计，使用未标记的肿瘤样本进行无监督的预训练，以学习数据表示，然后对标记的癌细胞系（CCL）样本进行参数微调，以捕获基因组学和基因依赖性之间的关系（图1A）。该模型由（i）各种分子数据的降维编码神经网络组成，包括DNA突变、基因表达、DNA甲基化和拷贝数改变（CNA）(ii）用于提取感兴趣的基因依赖性（DepOI)）功能指纹的编码网络；和（iii）预测网络，用于将学习的特征转换为相关性得分（图1B）。

原始依赖性得分是由CERES以接近零的模式估计和校正的基因效应得分（图2A）。通过严格的单导向RNA（SGRNA）、筛选复制和CCL质量控制计算得分。负值越大，表示依赖性越强，因此重要性越强。作者选择了1298个与癌症相关的候选基因库，每个DepOI涉及33.2个分子标签（图2B），总共有360844个标记样本可用。将CCL随机分为验证（90%）和测试（10%）两组，其中前一组样本中的九分之八随机选择用于培训，九分之一用于验证（图2C）。通过测试CCL中每个DepOI的预测和原始依赖分数之间的相关性来评估该模型，该指标通常用于测量遗传和化学筛选数据的预测性能。总的来说，模型在所有1298个DepOIs（图2D）中平均每次DepOIs为0.18，远高于随机概率预期。使用三个独立的数据集来验证模型，DeepDEP预测分数与实际相关性分数一致（图2E）。尽管使用不同的筛选机制或计算算法来处理这些筛选数据，但确认了在最近的一项研究中观察到的普通CCL（图2F和2G）中，它们的结果总体是一致的。

为了能够应用于仅使用一个或部分基因组分析的样本，作者构建了几个简化模型，例如，仅用于突变数据的Mut-DeepDEP和用于成对突变和表达数据的Mut/Exp-DeepDEP。大多数简化模型，如Mut/Exp-DeepDEP和表达式单独模型（Exp-DeepDEP），实现了与DeepDEP相当的性能，而CNA和变异单独模型的性能较弱。作者阐释Exp-DeepDEP是为了理解单个组学模型学习到的信息，或者更具体地说是模型捕获的依赖关系和表达式配置文件之间的关联。TCGA数据初始训练期间的参数优化导致隐藏层有50个神经单元。然而，在使用CCL依赖数据进行最终训练后，只有两个神经单元携带非零值。Exp-DeepDEP的训练过程重复了10次，结果一致。为了解释这些隐藏层神经单元的影响，作者人工干预了这两个神经单元，并检查了预测依赖性得分的变化（图3A）。通过解码网络从两个神经单元中的每一个重建6016个基因的基因表达谱（图3B），解码两个神经单元的表达特征，并通过基因集富集分析（GSEA）分析功能相关性。发现信号1与细胞增殖相关的途径正相关，如DNA修复、E2F靶点和G2M检查点（图3C和3D）。信号2编码了一系列与肿瘤发生和肿瘤微环境有关的过程，包括P53信号、上皮-间充质转化（EMT）和缺氧。通过编码器网络映射了278个CCL，该编码器网络将每个CCL的表达式配置文件转换为隐藏层的两个标签的分数。结果发现24个白血病、淋巴瘤和骨髓瘤CCL中有20个表现出最低的活性（图3E），这再次证实了与实体癌细胞相比依赖性特征的根本差异。基因重要性取决于CCL的基因组背景。通过组合不同的特征分数预测基因依赖性，并使用等高线图（图3F）或DepOI将结果可视化。总之，这些图谱为基因的功能提供了一个新的视角——它们在不同环境中作为基本基因的潜力。

为了解释模型在给定二进制输入数据的情况下所学到的信息，使用Mut DeepDEP预测与CCL中合成诱导或去除的基因突变相关的基因依赖性变化。每次扰动一个突变；从0变为1表示将内源性野生型转换为突变型，或从1变为0，反之亦然（图4A）。对于CCL中的每个突变位点对，通过比较有无突变的位点对预测的依赖性来计算SE分数。因此，负的SE分数表明CCL携带内源性或合成突变的重要性更强。一般来说，SE分数适中（图4B），并且似乎独立于细胞谱系（图4C）。只有消化道、乳腺、肾脏、非小细胞肺癌（NSCLC）、神经系统、皮肤和泌尿生殖系统的SE分数在谱系内的相似性显著高于谱系间的相似性，这意味着SE可能是许多癌细胞中的基因组背景特异性现象，而不是谱系特异性现象。接着检测了两个最著名的SE对，PTEN突变/CHD1缺失和BRCA1/PARP1。结果发现，在原始的依赖性数据中，与其他235个CCL相比，43个PTEN突变CCL的CHD1重要性没有显著增强，BRCA1/PARP1也没有显著增强，这表明基因组学的复杂性可能克服SE效应。尽管SE评分的幅度很小，PTEN/CHD1在CCLs中的平均SE评分明显低于CHD1和任何其他4538个基因突变之间的平均SE评分（图4D）。在BRCA1/PARP1中观察到类似的结果。接着进一步探索了模型以CCL特定方式研究SE的能力。作为一个示例，作者研究了与KRAS突变相关的SE基因，KRAS是最难靶向的致癌变体之一。在作者的预测中，突变的KRAS与对12个基因的更强依赖性相关。这些基因包括KRAS信号通路中的关键角色，如EGFR和MAP3K7。EGFR是RAS通路的上游调节因子。数据显示，在126个CCL中，EGFR是与KRAS的SE相互作用因子（图4E）。

一般而言，肿瘤和CCL之间的总体相关性与两个CCL之间的相关性相似（图5A）。肿瘤间大多数依赖性的变化是适度的。在选择性基因中，有两种细胞周期调节因子CCND1和CDK6，它们具有被批准用于癌症治疗的抑制剂和值得进一步研究的新的基因依赖性，如SCAP和YRDC。与CCL类似，肿瘤的基因依赖性谱通常不按谱系聚集（图5B和5C）。这一观察结果与全基因组表达和甲基化数据中的癌症类型特异性形成对比（图5B）。通过系统搜索，确定了160万个M-Dep（突变驱动依赖）、210万个E-Dep（表达驱动依赖）、130万个Me-Dep（DNA甲基化驱动依赖）和170万个C-Dep（CNA驱动依赖）事件（图5D）。对于每个DepOI，作者计算了四类事件的百分比。大多数DEPI主要由E-Dep、M-Dep和C-Dep事件控制（图5D和5E），这与最近的一项研究相呼应，该研究表明基因表达在预测癌细胞脆弱性方面比DNA水平特征具有更高的能力（图5E）。

由于缺乏基本事实，通过临床参数和临床前治疗反应验证了预测的肿瘤相关性。首先调查了乳腺癌（BRCA），因为它的综合临床数据来自TCGA。据预测，雌激素受体阳性肿瘤对ESR1的依赖性更强（图6A）。同时还评估了归类为“靶向分子治疗”的药物反应数据，其中抗人表皮生长因子受体2（HER2）的单克隆抗体曲妥珠单抗是唯一具有可分析样本数的药物。所有对曲妥珠单抗完全应答的BRCA肿瘤比唯一病情稳定的肿瘤更依赖ERBB2（图6B），但样本量太小，无法评估其统计意义。Exp-DeepDEP模型用于通过基线表达谱预测每个异种移植物对FGFR2和FGFR4的依赖性。预测三个达到CR的PDX比22个患有进展性疾病的PDX更依赖FGFR2/FGFR4（图6C）。另一个先前从体外和体内研究报告的重要依赖性是高微卫星不稳定性（MSI）癌症中的DNA解旋酶WRN。在TCGA的MSI易感癌症（图6D）和个别癌症类型中，MSI高的肿瘤预计对WRN的依赖性更大。总之，预测的肿瘤依赖性与临床前数据一致，尽管统计能力受到小样本量和体内CRISPR筛查可用性的限制。

为了探索非靶向治疗中预测的肿瘤依赖性的临床相关性，作者搜索了BRCA中与化疗耐药相关的依赖性。比较了化疗后获得CR（n=117）和PD（n=6）的患者之间的预测依赖性。共有71个基因在这两组之间表现出显著的差异依赖性（图7A）。绝大多数依赖性（98.6%）与化疗耐药呈正相关，其中负依赖性评分越低，化疗反应越差。NDUFS5是电子传递链的一种酶，是最显著的依赖性（图7B）。化学反应相关的DepOIs在线粒体和OXPHOS的GO分析中显著富集（图7C），这与化疗耐药细胞对能量代谢的依赖性相呼应。为了进一步建立模型的生理相关性，分析了不同谱系癌症患者的基因依赖性和总生存率（OS）之间的关联。在32种癌症中确定了4655种预后依赖性。在至少8种癌症中，34种DEPOI具有预后（图7D和7E）。例如，肿瘤抑制基因白细胞介素-2（IL2）的负相关性得分与七种癌症的OS和两种癌症的不良OS相关（图7F）。IL2是一种经批准的治疗黑色素瘤和转移性肾细胞癌的药物。数据证实，对IL2的依赖性越强，黑色素瘤（图7G）、肾乳头状细胞癌的OS越好（KIRP），尽管其依赖性数据可能容易受到集合筛选的非细胞自主效应的影响。另一个顶级预后基因SMAD4也是一种肿瘤抑制因子。在七种癌症中，SMAD4依赖性更强的肿瘤的OS显著更好（图7H和7I）。总之，结果证明基因依赖性评分在治疗反应和预后方面具有临床意义。未来旨在在生理相关癌症模型中验证这些基因的研究将具有深远的临床意义。

这项研究解决了癌症依赖性图谱快速积累带来的重大生物信息学挑战：如何将基因组背景与细胞活力联系起来，以及如何系统地将细胞系分析转化为肿瘤。DeepDEP将细胞的基因组背景与其通过CRISPR-Cas9筛选分析的基因依赖性联系起来，并通过转移学习设计创建预测肿瘤依赖性的模型。该模型有望随着基因组资源的快速增长而拓展，揭示潜在的癌症治疗靶点。

教授介绍

Chen Yidong教授实验室致力于计算生物学和生物信息学研究，并专注于开发计算解决方案和统计建模。他的研究贡献在于：支持基因组测序设施（GSF）生物信息学操作；开发下一代测序（NGS）数据分析方法；癌症基因组分析、基因表达分析、基因调控网络，并为儿科癌症研究提供计算生物学和生物统计学合作。致力于建立一个世界领先的生物信息学集团，开发新的生物医学技术和计算方法，以适应各种高通量和多组分数据集。他的研究领域包括系统生物学、泛癌症生物信息学；基因组学的深度学习方法、NGS应用的新型生物信息学算法以及蛋白质基因组学数据分析中的生物信息学工具。

参考文献

Chiu YC, Zheng S, Wang LJ, et al. Predicting and characterizing a cancerdependency map of tumors with deep learning. Sci Adv. 2021;7(34):eabh1275.Published 2021 Aug 20. doi:10.1126/sciadv.abh1275

>>>关于我们<<<

2020年热文TOP10

1、警惕：比较发现新冠具有更坚硬的外壳，预示更长存活周期

2、Science| 后AlphaFold时代，生命科学的另类演化

3、Cell| 引入外源性肝素可降低新冠感染率80-90%

4、Cell| 为什么有的人就是吃不胖？科学及发现调节体重关键基因

5、Nature子刊 | 潘云鹤院士：中国的新一代人工智能计划

6、Science| 中科大光量子计算机：突破与局限

7、Cell | 类器官模型预测CART疗法

8、PNAS|可降解纳米粒子通过基因传递刺激免疫系统，杀死肿瘤细胞

9、Nature Genetics |机器学习与群体遗传学对肿瘤进行亚克隆重建

10、细节披露：首个全生物材料活体机器人Xenobot

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。