看到一个研究,根据KIAA1429的表达量把TCGA数据库的乳腺癌患者分组后做生存分析,发现有统计学显著,描述如下:
Breast cancer patients were divided into low-KIAA1429 expression (n = 528) group and high-KIAA1429 expression (n=528) group. The high KIAA1429level correlated with poor survival rate. *P = 0.003
可视化如下:
但是我注意到,它里面的时间范围有点长,接近20年,但是我们目前谈论肿瘤病人的生存情况,通常是3年或者5年生存率。如果把这个图时间范围限定一下,很容易看到,在第3年或者第5年,这个统计学显著性可能是不存在的。
统计学检验等数据分析是一回事,如何解释这个结果又是一回事。仅仅是看统计学p值,肯定不行,太多人问:生存分析和Cox回归中,生存曲线最后交叉,如何衡量治疗效果?
比如我就看到有人提问:在生存分析中,如果两组的生存曲线有交叉,书上说Log-rank检验不再适合,同时SPSS软件中的Breslow和Tarone-ware检验也不适合。搜到文献一篇,《生存曲线交叉时统计推断方法的比较和选择》,通过理论分析得出结论,建议用Two-stage方法。但并未详细说明如何进行Two-stage检验。
一个很重要的问题就是如何把影响生存的混杂因素区分出来?
有一个文章就是考虑TCGA数据库的乳腺癌患者的生存分析的10年和20年时间点,
如果你仅仅是要模仿该文献的生存分析,其实我在生信技能树多次分享过生存分析的细节;
很容易通过R代码,或者网页工具做出来同样的图表,但是生存分析其实是有一本书的知识点,如果想吃透还是蛮难的。
这个工具备受推崇,宣传量也是很足了,简单的输入基因名字,选择癌症,即可出图:
这个是老牌网页工具了,最开始大家都是推荐它,不知道这些年随着TCGA数据库的临床数据的更新,该工具有没有更新。
类似的工具实在是太多了,我就不一一截图展示了:
比如,同样的基因表达量把病人分成两组生存分析,有文章就是自己拿到病人队列,做简单的qPCR实验拿到自己的数据:
可以看到,其实还有不同时间点的差异,比如OS, PFI, DFI, and DSS,建议大家仔细研读文章《An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics》,下载其附件:TCGA-CDR (Table S1, tab TCGA-CDR)
联系客服