乳腺癌的IHC分类和PAM50分型的差异情况

既然大家感兴趣学徒培养细节，就连载一些学徒任务细节吧！

生信技能树超级VIP入场券发放（点我领取）

拿到超级VIP入场券的学徒，就可以无限制参与全部生信技能树举办的线下课程，包括LINUX,R，GEO和TCGA数据挖掘，各种NGS线下大课，所以如果你想参加3个以上课程还不如直接报名学徒啦。

也可以获得全部的视频资源（约4000元）开通，也可以来珠海参加一个月的任务实战训练。

下面的一个学徒作业

通过全基因表达谱可以区分浸润性乳腺癌（IBCS）的5个独特亚型：Luminal A、Luminal B、正常乳腺样，HER2基因过表达、基底细胞样，每个亚型各自具有独特的发病率、生存率和疗效。

不过大部分情况下，并没有病人的全基因表达谱，因此许多学者研究采用免疫组织化学发（IHC）作为确定浸润性乳腺癌分子分型的替代方法。

最常用的IHC替代方案是雌激素受体（ER）、孕激素受体（PR）和人类表皮生长因子受体（HER2），将乳腺癌区分成为4类：

HR+ HER2-
HR+ HER2+
HR- HER2+
TNBC

我看到文章Cancer Res Treat. 2019;51(2):737-747，https://doi.org/10.4143/crt.2018.342 提到他们研究团队把HR+/HER2–, HR+/ HER2+, HR–/HER2+, and triple-negative breast cancer (TNBC) 这4类，跟 PAM50的5类进行比较，如下；

所以我们也可以对自己下载的TCGA的BRCA研究进行同样的处理。

首先解析XENA数据库下载的临床资料

这个可以去看我的TCGA28篇教程或者配套的B站视频：https://www.bilibili.com/video/av49363776

rm(list = ls())
options(stringsAsFactors = F) 
a=read.table('TCGA-BRCA.GDC_phenotype.tsv.gz',header = T,sep = '\t',quote = '')
(tmp=as.data.frame(colnames(a))) 
table(a$breast_carcinoma_estrogen_receptor_status)
table(a$breast_carcinoma_progesterone_receptor_status)
table(a$lab_proc_her2_neu_immunohistochemistry_receptor_status)

然后在2018年4月Immunity杂志上发表了文章The Immune Landscape of Cancer 附件拿到TCGA的BRCA的PAM50分型信息。

b=read.table('TCGA-PAM50-subtype.txt',sep = '\t',header = T)
table(b$TCGA.Subtype)

两种信息如下：

> table(a$breast_carcinoma_estrogen_receptor_status)

              Indeterminate      Negative      Positive 
          196             3           249           835 
> table(a$breast_carcinoma_progesterone_receptor_status)

              Indeterminate      Negative      Positive 
          198             5           357           723 
> table(a$lab_proc_her2_neu_immunohistochemistry_receptor_status)

                  Equivocal Indeterminate      Negative      Positive 
          346           170            11           577           179 
> table(b$TCGA.Subtype)

 BRCA.Basal   BRCA.Her2   BRCA.LumA   BRCA.LumB BRCA.Normal 
        173          73         508         191         139

这个时候需要构建IHC分型和PAM50分子分型的比较矩阵。

# 首先简化列名
dat=data.frame(id=a$submitter_id,
               er=a$breast_carcinoma_estrogen_receptor_status,
               pr=a$breast_carcinoma_progesterone_receptor_status,
               her2=a$lab_proc_her2_neu_immunohistochemistry_receptor_status)
dat =dat[with(dat,er %in% c('Negative','Positive')) &
with(dat,pr %in% c('Negative','Positive')) &
with(dat,her2 %in% c('Negative','Positive')),]
table(dat)
# 过滤不确定的IHC信号后， 剩下 747个病人。
# 判断临床亚型
dat$IHC_sub[(dat$er=='Positive' | dat$pr=='Positive') & dat$her2=='Negative'] = 'HR+/HER2–'
dat$IHC_sub[(dat$er=='Positive' | dat$pr=='Positive') & dat$her2=='Positive'] = 'HR+/HER2+'
dat$IHC_sub[(dat$er=='Negative' & dat$pr=='Negative') & dat$her2=='Positive'] = 'HER2'
dat$IHC_sub[(dat$er=='Negative' & dat$pr=='Negative') & dat$her2=='Negative'] = 'TNBC'
table(dat$IHC_sub)
d=merge(dat,b,by.x='id',by.y="TCGA.Participant.Barcode")

画图，用的是ggstatsplot包的ggpiestats，要求数据类型为factor，所以通过pam50构造了一列subtype

colnames(d)
library(ggstatsplot) 
ggpiestats(data = d,
           main = TCGA.Subtype,
           condition = IHC_sub,
           palette = "Set1"
)

出图如下；

后记

这个小任务我布置给了多个学徒，基本上我十几分钟就完成的大家通常需要三五天，有趣的是每个人反馈的难点都不一样。有的同学耽搁在乳腺癌背景的理解，不明白ER,PR,HER2这些IHC东西，有的同学中间数据转换R代码走一步停5个小时，特别纠结。有的同学耽搁在TCGA数据下载上面，每个人的知识背景不一样，其实带学徒真心不容易！

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。