《新英格兰医学杂志》统计部分有了新要求，读者和作者看过来

继美国统计学会（American Statistical Association）近期指出P值局限性后，《新英格兰医学杂志》于2019年7月18日以社论（Editorial）形式，呼应这一观点，并宣布更新了对于临床研究至关重要的统计分析报告的指南。

这篇社论的作者包括NEJM现任的6位统计学顾问，NEJM主编Jeffrey Drazen以及常务责任编辑Mary Beth Hamel。

在此，我们发布这篇社论的全文翻译；我们还将于近期发布更新后的统计学报告指南的中文版（英文版网址nejm.org/author-center/new-manuscripts），可通过官网（nejmqianyan.cn）、APP和微信小程序获取。

本刊统计学报告的新指南

New Guidelines for Statistical Reporting in the Journal

David Harrington, Ph.D., Ralph B. D’Agostino, Sr., Ph.D., Constantine Gatsonis, Ph.D., Joseph W. Hogan, Sc.D., David J. Hunter, M.B., B.S., M.P.H., Sc.D., Sharon‑Lise T. Normand, Ph.D., Jeffrey M. Drazen, M.D., and Mary Beth Hamel, M.D., M.P.H

我们的一些读者可能已经注意到，在过去一年中，我们的研究论文报告的P值减少了。

例如，2018年11月，我们发表了维生素D和ω-3试验（Vitamin D and Omega-3 Trial，VITAL）的两份报告[1,2]。VITAL是一项2×2析因、安慰剂对照的随机试验，评估了维生素D或海洋n-3（又名ω-3）脂肪酸可否预防心血管疾病或癌症。

NEJM医学前沿维生素D补充剂与癌症和心血管疾病的预防

小程序

对于本试验的n-3部分，Manson等[2]报告了2项预设的主要结局及22个预设的和其他次要结局。这种形式的报告在投入资金巨大的大规模随机研究或观察性研究中并不少见。

n-3脂肪酸未显著降低主要心血管结局的发生率，也未显著降低癌症结局的发生率。如果作为独立结果报告，有两项次要结局的P值将小于0.05；然而，与我们近期实施的在次要和其它比较中限制使用P值的指南相符，关于干预措施对这些次要结局产生的效应，文中仅报告了风险比和置信区间。

我们现在澄清、拓展并细化了为作者提供的统计学指南，其中涵盖了临床试验和观察性研究。新指南讨论了在NEJM发表研究报告的许多方面，包括在试验方案和统计学分析计划均未说明多重性校正方法的情况下，指南要求采用效应或相关性的估计值及95%置信区间代替P值。

本刊编辑和统计学顾问越来越关注显著性检验和P值在医学文献的过度使用和曲解。正如美国统计学会（American Statistical Association）在近期发表的文章中所总结的那样，P值有其优势，但也受制于其固有弱点[3,4]。

P值表示观测数据与零假设的不相符程度；“P<0.05”表示在治疗无效或暴露和应答不相关的零假设下和无混杂因素的假设下，疗效或暴露相关性大于观测值的可能性小于5%。我们断定零假设为假但是实际上零假设为真（统计学术语称作I型错误）的可能性小于5%。

在未进行多重性校正的情况下报告多个结局的P值时，在治疗差异不存在的情况下报告为存在治疗差异的概率远高于5%。当总共进行10个检验时，在无差异这一零假设为真的情况下，10个检验中至少有1个检验的P值小于0.05的概率可能高达40%。即使在无须进行多重性校正的情况下，P值也并不表示零假设为假的概率；P<0.05不表示零假设的概率小于5%。

由于P值未提供关于相关性估计的变异性（标准误）信息，因此不显著的P值不能区分真正可以被忽略的组间差异和由于标准误太大而不能提供信息的组间差异。P值未提供效应或相关性大小的信息。在研究中使用P值总结证据，一方面要求设立具有较强理论和经验性依据的阈值，另一方面要求适当关注对多个推断进行不加审辩地解读可能导致的错误[5]。

多重比较导致的这一夸大也会出现在研究者进行了多重比较，但未在文稿中报告的情况下。现在已有大量方法可用于多重比较校正，在研究设计中有设定的情况下，可用于控制统计学分析的Ⅰ型错误概率[6,7]。最后，如果P<0.05，则治疗对特定结局有效，如果未达到该阈值，则治疗无效，这是一种还原论的医学观点，不一定能反映现实。

虽然P值带来了这些困难，但其仍然在医学研究中发挥着重要作用，我们不认为应该完全取消P值和显著性检验。设计良好的随机或观察性研究会有一项主要假设和预先设定的分析方法，从该分析得出的显著性水平是观察数据与零假设（干预或暴露与应答无关）之间不一致程度的可靠指标。

医师和监管机构必须做出使用哪种治疗或者允许哪种治疗上市的决策，而如果我们可靠地计算出经过适当校正的阈值，则根据该阈值解读的P值可以在上述决策过程中发挥重要作用。

我们针对P值做出的方针修订是基于三个前提：在预先设定了分析计划的情况下，遵循计划很重要；利用统计学阈值说明存在效应或相关性时，应限于分析计划中注明了Ⅰ型错误控制方法的分析；关于治疗或暴露带来的获益和危害，其证据应包括点估计值及其误差界限。

我们承认，新指南可能在应用和解读方面带来了挑战，特别是对于习惯将P值或置信区间作为清晰标志，用于得出结论或主张的作者和读者。我们也理解，今天向本刊投稿的文章所报告的结果可能来自10年前设计的试验。我们愿意在新指南指导下与作者合作，从而以适当方式报告结果。

最后，现行指南仅限于采用传统频率学派设计和分析的研究，因为向本刊投稿的大部分文章均属于此类。我们无意暗示本刊只接受上述设计和分析。本刊已发表了许多使用贝叶斯学派设计和分析的研究[8-10]，并期望未来看到更多这样的试验。在适当的时候，我们的指南将扩展其内容，纳入采用贝叶斯学派设计和其他设计的试验的最佳报告方法。

用了这么多年的P值，到底是什么意思