生存分析的10年和20年时间点

看到一个研究，根据KIAA1429的表达量把TCGA数据库的乳腺癌患者分组后做生存分析，发现有统计学显著，描述如下：

Breast cancer patients were divided into low-KIAA1429 expression (n = 528) group and high-KIAA1429 expression (n=528) group. The high KIAA1429level correlated with poor survival rate. *P = 0.003

可视化如下：

生存分析可视化

但是我注意到，它里面的时间范围有点长，接近20年，但是我们目前谈论肿瘤病人的生存情况，通常是3年或者5年生存率。如果把这个图时间范围限定一下，很容易看到，在第3年或者第5年，这个统计学显著性可能是不存在的。

我们该如何计算3年或者5年生存率

统计学检验等数据分析是一回事，如何解释这个结果又是一回事。仅仅是看统计学p值，肯定不行，太多人问：生存分析和Cox回归中,生存曲线最后交叉,如何衡量治疗效果?

比如我就看到有人提问：在生存分析中，如果两组的生存曲线有交叉，书上说Log-rank检验不再适合，同时SPSS软件中的Breslow和Tarone-ware检验也不适合。搜到文献一篇，《生存曲线交叉时统计推断方法的比较和选择》，通过理论分析得出结论，建议用Two-stage方法。但并未详细说明如何进行Two-stage检验。

一个很重要的问题就是如何把影响生存的混杂因素区分出来？

有一个文章就是考虑TCGA数据库的乳腺癌患者的生存分析的10年和20年时间点，

生存分析是一本书书籍的知识点

如果你仅仅是要模仿该文献的生存分析，其实我在生信技能树多次分享过生存分析的细节；

很容易通过R代码，或者网页工具做出来同样的图表，但是生存分析其实是有一本书的知识点，如果想吃透还是蛮难的。

比如gepia2工具

这个工具备受推崇，宣传量也是很足了，简单的输入基因名字，选择癌症，即可出图：

网址：http://gepia2.cancer-pku.cn/#survival

也可以是oncolnc

这个是老牌网页工具了，最开始大家都是推荐它，不知道这些年随着TCGA数据库的临床数据的更新，该工具有没有更新。

网址：http://www.oncolnc.org/kaplan/?lower=50&upper=50&cancer=BRCA&gene_id=25962&raw=KIAA1429&species=mRNA

类似的工具实在是太多了，我就不一一截图展示了：

http://tumorsurvival.org/TCGA/Breast_TCGA_BRCA/index.html

甚至都并不一定要TCGA数据库

比如，同样的基因表达量把病人分成两组生存分析，有文章就是自己拿到病人队列，做简单的qPCR实验拿到自己的数据：

a， KIAA1429 expression in 70 pairs of HCC tissues and adjacent normal tissues from WCH dataset by using qPCR.
b-c ，Kaplan-Meier analyses of the correlations between KIAA1429 expression and overall survival or disease-free survival of 70 HCC patients.

可以看到，其实还有不同时间点的差异，比如OS, PFI, DFI, and DSS，建议大家仔细研读文章《An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics》，下载其附件：TCGA-CDR (Table S1, tab TCGA-CDR)

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。