肿瘤微环境看基质和免疫细胞就太泛了

我们在前面使用3个教程来说明肿瘤微环境,，是一个目前比较流行的方法 estimate看基质和免疫细胞比例，来源于2013数据挖掘文章，作者就整理了两个基因集来根据表达量矩阵使用estimate方法去量化肿瘤样品里面的基质细胞和免疫细胞的比例。目录是：

实际上，这个方法还是过于粗糙了，肿瘤微环境的复杂程度，远不止基质和免疫细胞简单的归类。我随手查了一个比较新的综述文章：《Tumor microenvironment complexity and therapeutic implications at a glance》，链接是https://biosignaling.biomedcentral.com/articles/10.1186/s12964-020-0530-4，感兴趣的可以自己研读：

肿瘤微环境的复杂程度

可以看到，免疫细胞有淋巴系的T，nk和b细胞，还有髓系的dc和TAM等等，统一的免疫细胞比例肯定是很难说明肿瘤真实的免疫情况，因为不同免疫细胞的作用并不一样。

但是咱们的TCGA数据库的转录组测序数据毕竟是bulk转录组测序，病人的肿瘤样品里面虽然是混合了各种各样的免疫细胞，但是在数据层面被混杂成为了一个样品，并不是单细胞测序，所以并没有细胞比例信息。这个时候仍然是需要借助于算法啦，有一个2019的综述文章：《Comprehensive evaluation of transcriptome-based cell-type quantification methods for immuno-oncology》比较了常见的免疫细胞比例推断工具的表现：

比较了常见的免疫细胞比例推断工具的表现

但是你，工具的表现并不能决定它的流行程度，流行与否主要是靠传播，这个时候CIBERSORT就一马当先了，CIBERSORT是2015年在Nature Methods发表的一个方法，工具在：(http://cibersort.stanford.edu).，早在2016就有文章使用它进行数据挖掘了，比如. Patterns of Immune Infiltration in Breast Cancer and Their Clinical Implications: A Gene-Expression-Based Retrospective Study. PLOS Medicine，作者研究团队利用CIBERSORT算法推断解析了11,000个乳腺癌(组织转录组芯片或是RNAseq，包括GEO和TCGA)中的22种免疫细胞的占比。

使用CIBERSORT算法推断全部tcga样品的免疫细胞比例

这里我们直接对seurat对象走 CIBERSORT，如果你还不知道下面的代码里面的seurat对象是如何产生的，见：前面的教程：大样本量多分组表达量矩阵分析你难道没想到单细胞吗：


rm(list=ls())
options(stringsAsFactors = F)
library(stringr)  
library(data.table)  
library(preprocessCore)
library(parallel)
library(e1071) 
library(dplyr)
library(tidyr)
library(tidyverse)
library(Seurat)
load(file = 'sce.Rdata')
gp=substring(colnames(sce),14,15)
table(gp)
sce@meta.data$gp=gp
pd_mat=sce@assays$RNA@counts
dat=log2(edgeR::cpm(pd_mat)+1) 
pro='CIBERSORT_for_seurat' 
# 只能说假装是 tpm，去搞基因长度信息很麻烦
exp_tpm=dat
exp_tpm[1:4,1:4]  

source("CIBERSORT.R")  
load('lm22.rda')
ciber=CIBERSORT(dat) 


cibersort_raw <- read.table("CIBERSORT-Results.txt",header = T,sep = '\t') %>%
  rename("Patients" = "Mixture") %>%
  select(-c("P.value","Correlation","RMSE"))


dim(cibersort_raw)
sce
cibersort_raw$group= sce@meta.data$gp  
cibersort_raw$type= sce@meta.data$group  

pro='seurat'
save(cibersort_raw, 
     file = file.path('CIBERSORT_results',
    paste0('cibersort_raw-for-',pro,'.Rdata')))

核心的代码就3句话：

source("CIBERSORT.R")  
load('lm22.rda')
ciber=CIBERSORT(dat)

需要一个脚本，就是 CIBERSORT.R，在其官网或者我们的教程配套网盘里面都有，见解析CIBERSORT使用SVM算法实现去卷积,

其次是lm22.rda，这个是我教程配套网盘里面的，见解析CIBERSORT使用SVM算法实现去卷积,

最后只需要给一个表达量矩阵即可，运行 CIBERSORT(dat) 函数，就可以拿到全部的结果啦！

可视化CIBERSORT算法推断的免疫细胞比例

首先可以看到不同癌症免疫细胞比例差异很大：

其实，我们可以在：https://gdc.cancer.gov/about-data/publications/panimmune 找到 TCGA.Kallisto.fullIDs.cibersort.relative.tsv文件，它的下载地址是 https://api.gdc.cancer.gov/data/b3df502e-3594-46ef-9f94-d041a20a0b9a

我们可以比较一下自己计算的免疫细胞比例和这个TCGA官方的差异：

cibersort_all <- read.table("CIBERSORT-Results.txt",header = T,sep = '\t') %>%
  rename("Patients" = "Mixture") %>%
  select(-c("P.value","Correlation","RMSE")) 
cibersort_all[1:4,1:4]
library(data.table)
TCGA.Kallisto.fullIDs.cibersort = fread('TCGA.Kallisto.fullIDs.cibersort.relative.tsv',data.table = F)
TCGA.Kallisto.fullIDs.cibersort[1:4,1:4]

我们两个结果的样品id不一致：

> TCGA.Kallisto.fullIDs.cibersort[1:4,1:4]
                      SampleID CancerType B.cells.naive B.cells.memory
1 TCGA.OR.A5JG.01A.11R.A29S.07        ACC  0.000000e+00     0.04852871
2 TCGA.OR.A5LG.01A.11R.A29S.07        ACC  7.168876e-03     0.01112538
3 TCGA.OR.A5JD.01A.11R.A29S.07        ACC  2.342245e-05     0.01460659
4 TCGA.OR.A5LH.01A.11R.A29S.07        ACC  4.729908e-02     0.03817952
> cibersort_all[1:4,1:4]
          Patients B.cells.naive B.cells.memory Plasma.cells
1 TCGA-OR-A5JP-01A    0.07674056              0            0
2 TCGA-OR-A5JG-01A    0.00000000              0            0
3 TCGA-OR-A5K1-01A    0.03410138              0            0
4 TCGA-OR-A5JR-01A    0.03491271              0            0

所以需要进行简单的转换，然后计算相关性：

identical(colnames(cibersort_all)[2:22],
          colnames(TCGA.Kallisto.fullIDs.cibersort)[3:23])
pid=gsub('[.]','-',substring(TCGA.Kallisto.fullIDs.cibersort$SampleID,1,16))
head(pid)
table(cibersort_all$Patients %in% pid)
pos=match(cibersort_all$Patients,pid) 
TCGA.Kallisto.fullIDs.cibersort=TCGA.Kallisto.fullIDs.cibersort[pos,]
pheatmap::pheatmap(cor(
  cbind(cibersort_all[2:22],
        TCGA.Kallisto.fullIDs.cibersort[,3:23])
))

可以看到，虽然我跟TCGA官方的表达量矩阵形式不一样，但是我们计算得到的免疫细胞比例基本上一致。

前面我们提出来了疑问，就是针对RNA-seq数据，我们创造性的使用logCPM这样的表达量矩阵，进行estimate或者CIBERSORT算法流程（必然与tpm或者fpkm矩阵结果不一致哦！）

如果是根据具体某个基因表达量把病人分组，那么tpm或者fpkm跟我们的logCPM值并不会有区别，就是说差异分析，生存分析都没有问题。

但是呢，如果我们进行estimate或者CIBERSORT算法，都依赖于同一个样品内部基因的排序，所以tpm或者fpkm的归一化会改变样品内基因的排序，所以结果会有差异！

但是这个差异又是在可接受范围内！

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。