打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
为什么大部分发表的论文都是错误的

 建立在统计学之上的黑与白。

        在2015年,某科学家在International Archives of Medicine发表一篇论文,宣称每日吃一块巧克力可以帮助你减肥。此研究随后登上了许多国家的报纸的头版头条,让全世界的人民以为终于有一种又愉悦又有效的方法帮助自己减肥。

Fig 1: 每日吃巧克力可以帮助减肥的论文 (来源: Research Gate)

        可惜,很快便有人发现,这篇论文的结论其实完全是错误的。但神奇的是,这篇文章并没有对其研究数据做任何的改动,而且其结论也完全基于对实验数据的统计学分析
 
        那么,这样一篇得到完全错误结论的文章,究竟是怎么成功地登上医学期刊的呢?

01

“具有统计学意义”到底意味着什么

        假设我们现在手中有一枚硬币,我们想知道它是否一面重一面轻。因此,我们决定来做一个简单的实验:连续抛硬币。我们总共抛了100次,且实验数据显示其中60次是正面,40次是反面。
 
        我们知道,如果这是一个普通且理想的硬币,那么正面和反面出现的概率应该是一样的:应该出现50次正面及50次反面。那么,这多出来的10次正面,到底是随机因素所导致的,还是因为硬币的反面比较重所导致的呢
 
        如果你读过一些科学论文,你会发现,大部分论文中的结论都是对研究数据进行统计学分析后得到的:如果其结果“具有统计学意义 (statistically significant)”,那么科学家则说此结果为正确 (ie: 其结论与随机因素无关)

Fig 2: P值与概率分布的关系 (来源: Phys.org)

        而判断一组数据是否具有统计学意义时,我们则使用假设检验 (hypothesis testing) 的统计学手法。其结果会给我们一个P (P value),这个P值就代表了你所测试的假设为完全随机的可能性。比如在我们的硬币例子中,我们通过假设检验算出来的P值会告诉我们,一枚反面重的硬币,其100次中出现60次正面是完全随机的可能性。
 
        一般来说,P值小于某个数字时 (在统计学中一般为0.05, aka 5%),我们说其具有统计学意义。通过计算,我们发现此项实验的P值为0.03。因此,我们说其结果具有统计学意义:这枚硬币的反面有很大可能 (超过95%的可能性比正面重。

Fig 3: 你可以把P<0.05理解为,我们的猜想有95%的概率不是因为随机造成的 (来源:AB Tasty)

02


发表文章是科学家的命脉

        科学家最主要的工作内容就是做研究,并将其结果编写成论文发表。而科学家不喜欢发表否定自己假设的文章(例如你想验证某件事情是否有一定关系,但实验结果为完全没有关系)因此,大部分科学家会非常努力地想在实验中得到自己假设所提到的结果,并发表支持自己假设的文章
 
        因此,某些科学家为了发表文章,他们会选择性地包括/不包括某些实验数据,使得自己研究的P值小于0.05,从而成功让其发表。我们有一个专门的名词来称呼这个现象: P值破坏 (P-Value Hacking)

Fig 4: “如果你 (数据不展示一些关系,那我就要切割你了” (来源: GetNijas)

        这也正是最开头的巧克力论文所做的事情。在此研究中,入组的人员非常的少 (每组仅5个人)。此外,除了减肥这一个指标外,这组研究同时也测试了许多其他的指标:睡眠质量,胆固醇含量,钠含量等等。事实上,在发表文章之前,这几位科学家完全不知道自己要发表什么内容:巧克力对减肥有帮助?巧克力对降低胆固醇有帮助?巧克力对睡眠有帮助?
 
        正因为这些科学家研究了许多不同的内容,所导致的结果就是出现假阳性的可能性大大提升:只要我做的测试够多,我总能找到一个可以发表的内容,哪怕这个结果是完全巧合。除了测试很多的内容以外,使用笼统的及较可变的定义的研究设计,研究较小的效果的变量,以及有赞助的研究等等,都有可能造成P值破坏。

Fig 5: 非官方的科学界中的九层地狱。P值破坏排在第四层 (来源: Big Data Science)

        这样导致的结果为,大量假阳性的文章被发表在科学期刊上。一个研究项目尝试复刻发表在某心理学周刊上的100个不同的实验,结果表明,在复刻实验中,只有36%的实验再次得到了p<0.05的结果
 

03


科学的未来将何去何从?

        需要注意的是,虽然看似科学家是非常有意地进行P值破坏,但是实际上,大部分的错误的文章并不是有意被发表的,而是因为科学家自己对研究及数据分析不同的见解所造成的。
 

Fig 6: 一项把同样的实验数据展示给不同科学家们,并要求其判断这些数据是否具有统计学意义的研究。结果表明,哪怕数据相同,根据数据分析方面的不同,得到的结论也具有巨大的差异 (来源: FiveThirtyEight)

        毕竟,没有解读的数据是不能告诉我们任何事情的,而经过人为解读的事情又难免带上个人色彩。
 
        但这并不代表大量的假阳性文章不是一个严肃的问题。因此,科学家们也在努力尝试改变现状。所以越来越多的组织开始重新进行一些老的实验以确保其准确性。其次,越来越多的科学家也开始在真正进行实验之前,先将假设与实验方法提交进行同行评审。在假设与实验方法获批后,科学家只要按照获批的实验方法做实验,即使出现否认自己假设的结果,科学期刊也将给予发表。这样大大减少了实验方法存在偏见的可能,并让故意的P值破坏变得不再那么有意义。

Summary


        科学是一门建立在严谨的数学上的学科。但哪怕使用最精准的数学手法,科学也不能保证100%的准确。偏差是在所难免的,因此,科学家能做的只有修改实验方法和数据统计的方法,以保证发表的结论为其能力范围内最准确的。追求真理是一件非常困难的事情。因此,虽然科学方法有时候不能取得正确的答案,但是其依旧是我们现在最可靠的追求真理的方法。尊重科学,但不要盲目相信“科学”。在读研究之前问清楚自己,这些数据到底是怎么被分析出来的。

Quiz


关于本公众号:

       大家好,我叫Richard Dong,现在是加拿大滑铁卢大学Medical Physics专业大二本科生。我对科学,尤其是生物和医学,有着很大的兴趣,也是我未来比较有兴趣的一个发展的方向:)

       开设本公众号的想法是来自在中国COVID-19疫情期间在各大平台上所见到的乱七八糟的谣言。因此,我和小伙伴们想通过开创NG LAB的公众号,能用有理有据的evidence给大家提供最有趣的科普和可以信赖的辟谣。

       “尊重而不迷信权威,追求而不独占真理”。希望我们的分享能让你在这个信息泛滥的时代找到一个你可以依靠的港湾。

References:

Aschwanden, C. (2015). Science Isn’t Broken. Retrieved from https://fivethirtyeight.com/features/science-isnt-broken/#part1

Dupont, C. (2019). Genetic Linkage – Statistical Significance. University of Waterloo, Canada. 

Ioannidis, J. (2005). Why Most Published Research Findings Are False. PLoS Medicine. 2(8): e214. doi: 10.1371/journal.pmed.0020124.

OFFICE, Editorial. Retraction notice on 'Chocolate with high Cocoa content as a weight-loss accelerator'. International Archives of Medicine, [S.l.], v. 8, june 2015. ISSN 1755-7682. Available at: <http://imed.pub/ojs/index.php/iam/article/view/1087>. Date accessed: 09 may 2020. doi: http://dx.doi.org/10.3823/1654.

“Trouble at the lab”. (2013). The Economist. Retrieved from https://www.economist.com/news/briefing/21588057-scientists-think-science-self-correcting-alarming-degree-it-not-trouble.

Veritasium (2016). Is Most Published Research Wrong? From https://www.youtube.com/watch?v=42QuXLucH3Q&t=313s.

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
统计,以信仰之名:(一)永远不要用概率的思维思考统计
统计学里“P”的故事:蚊子、皇帝的新衣和不育的风流才子
这个数字,几乎所有实验室都在用,却让整个科学界陷入危机
统计学有一个很有意思的问题:如果抛硬币,连续1亿次都是正面朝上。那下一次抛反面朝上的概率是多少?
科学家称在多重宇宙中时间不会停止
你真的懂p值吗?| 说人话的统计学
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服