打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
8+单细胞+多组机器学习,100种机器学习组合建模,取代传统的单独lasso回归的纯生信思路!!!

导语

今天给同学们分享一篇单细胞+多组机器学习的生信文章“Bulk and single-cell RNA-sequencing analyses along with abundant machine learning methods identify a novel monocyte signature in SKCM”,这篇文章于2023年5月25日发表在Front Immunol期刊上,影响因子为8.786。

对于皮肤黑色素瘤(SKCM)的免疫微环境中,全球免疫细胞通讯模式尚未被充分理解。在这里,作者识别了免疫细胞群体和主要贡献信号的信号作用。作者探索了多种免疫细胞和信号路径如何相互协调,并基于关键特定生物标志物的细胞通讯建立了一个预后标志。

1. T细胞和B细胞是SKCM免疫微环境中的主要细胞组分

作者使用了scRNA-seq数据集(GSE115978),并从未经治疗的患者中选择了16个样本进行进一步研究。作者采取了严格的质量控制措施,从预定的样本中获得了2106个免疫细胞,这些细胞具有23686个不同的特征。之后,作者对这2186个细胞使用了t-SNE算法进行降维和无监督聚类。为了确定细胞聚类的理想分辨率参数,作者使用不同的分辨率值生成了一个聚类树。注意到随着分辨率的增加,聚类之间的交织程度并不多。因此,作者选择了0.8作为最佳分辨率,因为观察到了最多的分叉聚类(图1A)。通过t-SNE算法,作者发现了13个不同的细胞聚类(图1B)。使用“singleR”函数对7种免疫细胞进行了注释,并使用“plotScoreHeatmap”函数显示了所有细胞在所有参考标签中的得分,以检查整个数据集中预测标签的可信度(图1C)。在所有免疫细胞中,有5种类型被注释为聚类的主要标签。也就是说,0、6、8、11个细胞簇被注释为CD8+T细胞,1、4、9个细胞簇被注释为CD4+T细胞,2、3个细胞簇被注释为B细胞,5、10个细胞簇被注释为单核细胞和树突状细胞,7个细胞簇被注释为NK细胞(图1D)。有趣的是,16个样本中五种主要免疫细胞的数量和比例显示出很高的相似性,表明T细胞和B细胞是SKCM免疫微环境的主要组成部分(图1E、F)。

图1 SKCM的TIME中免疫细胞的特征在scRNA转录组水平上进行了分析

2. 单核细胞是免疫通信网络中传入和传出信号的主要贡献者

作者观察了七个免疫细胞群体中过度表达的配体或受体及其相互作用,以识别免疫细胞之间的相互作用(图2A)。圆形图显示了任意两个细胞群体之间的相互作用次数和相互作用的总强度(比例),以可视化细胞间的整合通讯网络。与其他免疫细胞相比,单核细胞在免疫通讯网络中对传入和传出信号的贡献最大(图2B-D)。不同的免疫细胞群体在传入和传出信号上明显有不同的贡献信号(图2E)。然后,将共形指数和轮廓指数结合起来识别出6个传出模式和5个传入模式(图3A,D)。此外,传入和传出信号是细胞特异性的。值得注意的是,T细胞、CD8+ T细胞和NK细胞的传入信号具有相似性(图3B,E)。最后,图3C,F显示了传出和传入模式中多样的信号对各个细胞群体的贡献程度。

图2 免疫细胞间的通讯景观

图3 根据Cophenetic和Silhouette指数,识别出去信号和进来信号的模式

3. MRS展示出强大而稳定的DSS预测性能

鉴于单核细胞在细胞通讯中的主导地位,作者在TCGA-SKCM中筛选出了87个生物标志物,这些标志物在单核细胞与其他免疫细胞相比具有特别高的表达水平,并通过LOOCV框架拟合了101个预测模型。每个模型的C-index在所有验证数据集中进行了计算。有趣的是,作者发现最佳模型组合是CoxBoost和stepCox(两者都),平均C-index最高(0.638)(图4A)。最终,作者建立了一个包含8个与单核细胞相关的基因的签名(MRS)。在训练数据集TCGA-SKCM中,作者发现低风险组的进展无病生存期(PFS)相对较长(图4B)。高风险组在训练数据集(图4C),外部验证数据集GSE65904(图4D)和GSE54467(图4E)中的疾病特异性生存期(DSS)显著较低。此外,MRS所确定的1年、3年和5年PFS(图4F)和DSS(图4G-I)的曲线下面积(AUC)值证明MRS是一个具有稳定性和强大预测能力的工具。MRS具有令人满意的特异性和敏感性。GSE54467样本中1年内的DSS样本数量太少,因此作者选择评估2年DSS的AUC值。单变量Cox回归分析显示,MRS、年龄、分期、T分期和N分期与DSS有密切关系(图4J)。多变量Cox回归分析显示,MRS可以作为SKCM患者独立的预后因子(P<0.001)(图4K)。这种时间相关的C指数表明,MRS在传统临床变量方面表现更好(图4L)。至于DCA,它解释了与传统临床变量相比,MRS确实可以使患者受益(图4M)。所有这些指标表明,MRS在训练队列中是稳定而强大的。不同风险组的分类可以在两个独立的验证数据集中重复和验证,这表明MRS不太可能是由于技术因素、机会或TCGA样本符合标准的偏差而产生的虚假发现。此外,通过三个单细胞外部数据集(GSE123139(图5A),GSE120575(图5B),GSE72056(图5C)),进一步证实了八个MRS基因在单核细胞上表达最为强烈,从而证明了MRS的稳定性和可重复性。

图4 通过基于机器学习的综合程序建立和验证共识MRS

图5 三个单细胞中八个MRS基因的表达位置

4. 转录组定义的亚类在生物学上是不同的,免疫浸润与更有利的预后有统计学关联

七种免疫浸润算法表现出一致性,即高风险组始终有较少的免疫细胞浸润(图6A)。风险评分与淋巴细胞和M1巨噬细胞的细胞含量显著正相关(图6B)。在SKCM的免疫亚型中,作者观察到在低风险组中,IFN-γ优势亚型的患者明显更多,但淋巴细胞耗竭亚型的患者较少(图6C)。此外,ssGSEA结果一致显示低风险组具有更好的免疫功能(图6D)。免疫过滤与更好的预后有统计学相关性。对七个数据集进行的通路分析有力地证实了高风险组和低风险组的生物学独特性。在低风险组中,淋巴细胞激活、抗原呈递和其他相关通路被激活。而在高风险组中,黑色素生成、角化和其他相关通路显著富集(图7A)。HLA、免疫检查点、趋化因子和共刺激分子在低风险组中高度表达(图7B)。此外,涵盖18种转录因子的细胞调控活动谱突出了高风险组和低风险组之间可能存在的差异适应模式(图7C)。

图6 免疫浸润特征

图7 潜在风险机制的探索

5. IFITM3已被确定为MRS中的核心基因,其在SKCM中表达高

使用“mgeneSim”函数,作者在MRS中发现了关键基因IFITM3(图8A)。作者使用TISCH数据库在所有十个SKCM单细胞数据集中定位IFITM3在免疫和非免疫细胞中的表达情况。发现IFITM3不仅在单核巨噬细胞中高表达,而且在微环境中的非免疫和黑色素瘤细胞中也高表达(图8B)。根据HPA数据库中的免疫组织化学数据,作者发现SKCM中IFITM3的蛋白水平表达也高于正常皮肤(图8C,D)。总之,所有这些结果为IFITM3在未来的SKCM研究中提供了证实的价值。

图8 将IFITM3识别为最重要的基因

总结

作者的研究是第一个基于丰富的机器学习方法建立的8基因单核细胞相关标记。通过充分的验证,该标记已被证明具有稳定性和强大性,作为SKCM患者的有前景的预测生物标志物和治疗靶点。此外,从这个标记中鉴定出了IFITM3基因,并且其潜在的探索价值已经初步确认,这可能在未来的临床应用中带来新的启示。


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
7+纯生信,单细胞识别细胞marker+100种机器学习组合建模,机器学习组合建模取代单独lasso回归势在必行!
简单易学5分+单细胞挖掘套路!
怎么就把免疫细胞里面的B细胞弄丢了呢
冉冉升起的单细胞新聚类方法
单细胞转录组分析
整合头颈部鳞状细胞癌神经浸润的临床和遗传分析解读
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服