打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
错信P值的代价:“造假”、不可重复、不重要的“大突破”



David Colquhoun是伦敦大学学院(University College London,UCL)的药理学家,他的研究帮助建立了受体与突触功能的一般机制以及单离子通道理论。在英格兰伯肯黑德的药剂师学徒经历促使他去利兹大学学习药理学。本科期间,他对统计和随机过程产生了浓厚的兴趣,并发表了人生中第一篇论文Logic and the interpretation of observation (University of Leeds Medical Journal, Vol. IX, No.2, 1960))。此后他在爱丁堡大学攻读博士学位,1964年,他成为了伦敦大学学院的一名讲师。1985年,Colquhoun成为UCL的药理学教授,接着被选为英国皇家学会院士。他在1990年获了洪堡奖。在2004年退休时,他成为了UCL的荣誉院士,并继续发表研究。


2002年,他开设了一个名为DC’s Improbable Science的博客,他在其中发表了许多批判影响科学和大学的问题的文章,2012年,他的博客被授予了英国科技博客奖,并被大英图书馆收录。他的文章也发表在《自然》、英国《卫报》、《泰晤士高等教育》等媒体上。


David Colquhoun的获奖博客:http://www.dcscience.net/


Jeremy Garwood = G

David Colquhoun = C


G:什么使你决定开设DC’s Improbable Science这个博客?


C:我开始写博客的契机是在2002年,当时帝国理工学院(Imperial College London,ICL)想要吞并UCL。我们收集了许多重要人士的签名,但我发现,将正在发生的事情告诉大家更为重要。UCL和ICL的系之间开了很多会,参加过和要参加会议的人把原始的会议记录发给我,我把它们贴到网上。


五周后,整个吞并计划破产。在一个ICL委员会会议上,他们的副校长Richard Sykes和他们说:“对,我知道我说过不会裁员,但是当然会裁员。别担心,裁的不会是ICL的人。”五分钟之内我就收到了来自两个不同消息源的这条消息,十分钟之后这条消息就上了网。第二天整个计划就破产了。


让我做博客的原因,是突然我意识到,你坐在电脑前敲敲键盘,就能影响真实世界发生的事情。这个想法在那时候还很新奇。我还写政治和江湖医术、还有其他方面的评论博客。


G:你在博客上提到发表的科学研究结果缺乏可重复性。这个问题看上去变得越来越严重了。你提到了两个原因,首先,科学家有发表论文的压力,这种压力如此之大,以至于他们发表了一些可能本不应被发表的、做得不到位的研究。你也提到了统计,研究人员使用统计来证明自己研究结果“统计显著”。


C:“p值等于0.045,所以我得到了一个大发现。”是的,这是一个“有趣的”科研过程。虽然我早就对统计有兴趣,但是我从前很少进行这种统计显著性检验。另外,我对贝叶斯派和频率论派统计学家之间的长久争执也十分反感。我不愿意把对p值进行的阐释看作贝叶斯派理论。但是最近,疾病的筛查检测(screening test)开始走俏。我的一些朋友们指出,部分筛查检测的坏处多于好处,因为它们产生太多假阳性的结果。


如果你有一个敏感度达到95%、特异性达到80%的测试方法,你用它来检测一个发病率为1%的疾病时,得到假阳性结果的概率就是86%。这简直是个灾难。首先,它会消耗许多经费,其次,假阳性结果会让妇女们接受原本不必要的乳房切除术——举个例子来说。


有天我意识到,筛查检测和显著性检验有类似之处。P值检验并不能给你你想知道的信息。你想知道的事情是,如果p值检验说我得到了一个大发现,我出错的可能性有多高?然而结果是,如果你得到一个边际显著的p值(比如0.047),你出错的概率大概是30%。如果你的假设一开始就不太靠谱,那么你出错的概率就更高了。我在想,为什么当初没人教我这些?


所以我把这个想法贴到了博客上,然后写了一篇论文投给了ArXiv。在此期间,我获得了许多反馈和讨论。最后,我把这篇论文发表在一个期刊。这篇论文发表得正是时候,它被下载了10 500次,被全文查看了85 000次。它吸引的注意力比我任何其他论文都要多。但是如果好好思考p值假阳性的问题,你就会发现道理很简单。所以我现在一直在就此做报告。我在UCL统计学系做报告的时候,我很害怕,因为那些人都是专业的统计学家,但最后没有什么正经的驳斥。我还是搞不明白,为什么基础统计课程不教这个。因为光这一个事实就能解释一大半论文不可复制的问题。当然不可复制危机还涉及别的原因,但这对我来说是最重要的一个。


比如,我写了一篇批判经颅磁刺激能够提高记忆力博客。《科学》杂志发表了一个被转发了很多次的推特。和记忆还有大脑有关的内容总是被反复转发。所以我去读了那篇发表在《科学》上的文章,但它根本不是在讲记忆!那是一个大型功能核磁共振成像研究。只有在图4B中,有一个小小的记忆测试。图片很粗糙,只有3个时序点,而且点之间的差别在我看来并不足为信,而且它的p值是0.043。《科学》却把这当成大发现来推送!


在我看来,这完全不可信,而且是另外一个为什么我们不需要很“漂亮”的期刊的原因——它们之间互相竞争;如果《科学》认为它有什么是《自然》没有的,它就会无情地推广这种讯息,他们觉得这么做对《科学》的名声有好处。事实上,这种论文对他们的名声反而不好。不幸的是,这就是编辑们看待问题的方式。他们只管提高影响因子。所以期刊对科学腐败也起到了推波助澜的作用。


G:很多研究人员很依赖电脑统计软件计算p值是否小于0.05。


C:当然,过去你得用手算统计量,现在你只要把数据输入电脑程序,不管你是否懂背后的统计原理,它都会输出一个数字。最后你会得到一个小于0.05的p值,就可以发表了。这很令人忧虑。问题在于,公众已经意识到了这点,但这却被反疫苗者、反气候变化者所用。他们说,不管怎么说一半的研究都是错的。没人知道气候科学,甚至物理学的哪部分是错的。在我从事的单离子通道研究的这个小领域,有一些不同的见解,但是我从没注意到任何严重的数据不可重复的情况。因此,我认为在我的领域这不是个大问题。问题出在心理学、癌症研究以及全基因组关联研究(GWAS)上。至少GWAS领域已经开始纠正多重比较的问题。


最糟糕的领域是实验心理学。我的关于p值的论文发表在在Nosek的那篇论文前,Nosek的论文称,只有36%的心理学实验能被复制(他们复制了100个发表在3个心理学期刊上的实验或者相关性研究,97%的原始论文是统计显著的,但是只有36%的复制研究依然统计显著)。这对于科学来说是灾难性的。太糟糕了,太丢人了!但是让我感到忧虑的事情是,有许多人还在为此辩护。


这就让我糊涂了,他们怎么能为此辩护呢?他们说,这只是第一步,别的人会在以后证明或者证伪这些文章。好吧,一直重复同一个研究直到最后证明它是无效的,这很浪费钱。但是当然啦,如果你的样本足够大,那就会花双倍的时间才能把论文发表出来,到那个时候你早就被解雇了。(科学界)已经腐败到了一个程度,科学在大众面前的形象正在受损。


G:在你发表的最近那篇关于可重复性的博客中,你说你不认为需要对年轻科学家开展研究伦理的培训课程,因为问题的根源是系统的高层——老资格的科学家、大学副校长等人。


C:我认为总体来说是这样的。最近有个案例,一个年轻的博士后被发现在一些实验上造假,他当然不该这么做,但是我碰巧知道一些内幕。这个博士后被他的实验室老板欺负,后者一定要他做出一些成果来。这个博士后不该造假,但是我能在某种程度上理解他为什么要这么做,因为他被老板欺压。他的老板不太理解他们做的课题的原理,但他对结果倒有一套清晰的期待,他指导这个博士后去找到这样的结果。因此,是那个老板需要得到一些伦理指导。


G:你也注意到了竞争有限的科研经费的不能想象的激烈程度——越来越多的研究人员争夺越来越少的科研经费。或许当面对保住饭碗和失去家庭间的艰难抉择时,研究诚信可能是首先被放弃的东西之一。


C:是的,如果你被告知,除非你产出大量的论文,或者每年得到20万英镑的科研经费,否则你就会无家可归,这就会挑战太多人性,很难让人经受得住这种压力。这必然会导致学术欺诈,最终这对大学也是不利的(但是在此之前就会有些研究人员无家可归或者被逼自杀)。当然,比不是所有UCL、ICL,或者其他大学的科研人员都多产到近乎疯狂。你猜怎么着?只有少数人是这样的。你不能让整个系的人都变成多产的科学家。


G:不幸的是,大学管理人员并不理解这点,更别说政客了。


C:他们根本不理解。我知道科研经费预算是有限的,但我想如果英国还要继续削减科研经费预算的话,那就要牺牲很多人了。我们的科研经费预算并不比其他国家多。但是我们会知道政府开支审查的情况,我很紧张。


G:总体来讲,你对一切感到乐观吗?


C:我对一件事感到乐观,那就是网络让许多理性的人有了发言权。他们以前没法表达观点。想想你在90年代能做什么,你唯一可以做的事情是写信给《泰晤士报》。现在,人们开会、拍视频、讲这些道理。从这点上讲,我认为现在比以前好。但是就科学而言,伦理标准下滑得很厉害。至少现在人们意识到了这个问题,所以我希望能够有所好转。我们会知道。我们能够解决这件事。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
270名科研者指出科研面临的7大问题
“土”博士余龙
【   】科学网—科学大厦是如何落成的?
日本科研“大滑坡”是谁造成的?
世界顶级基础科研机构纪行:东京大学IPMU研究所的开放与自由
全球270位科学家强烈吐槽,数落科研系统“七宗罪”
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服