统计微讯科学事实与统计思维上



科学常识与素养是公民素质的重要组成部分,反映一个国家或地区的软实力,从根本上制约着创新能力的提升和社会经济发展。英国剑桥大学教授苏斯伦德(WilliamJ.Sutherland)等在《自然》杂志年第卷21期上提出“解读科学观点时应该知道的20个事实”,阅后发现其中提到的科学事实都与统计思维有关。现代科学研究中统计学是最重要的工具之一,英国著名生物学家高尔顿曾说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道。”当然,统计也很容易被误用或滥用,《自然》杂志年第卷13期刊发评论《数字危机》,宣称“很多研究者缺乏统计学基本知识,普遍存在统计误用现象,在一些基础科学领域这种情况十分严重”。所以,运用科学研究结论辅助现实决策时,须具备良好的统计思维,才能对科学结论保持清晰认识,更准确地解读结论背后的科学真相。

今天先来看看人人应该知道的20个科学事实。

苏斯伦德等教授认为将科学结论应用于政策分析,目前仍存在许多严峻的问题,当务之急是要让政策制定者认识到科学那不完美的本质,具备解读科学结论的能力。鉴于此,与科学打交道的各界非专业人士,在根据相关研究结论制定政策时都需要知道20个基本事实。

1

事实差异和偶然都会引起变化

现实世界的变化是不可预测的,而科学竭力探究是什么因素造成这些变化,譬如为什么现在比过去十年更热?等等。对于这些现象的科学解释,最大挑战是从无数可能因素中梳理出我们感兴趣的过程所起到的作用。

2

没有绝对准确的测量

事实上,所有测量都存在误差,每一次重复试验都可能得到不同的结果。在某些情况下,与实际变化相比测量误差也许会很大。提出结论时应该给出结果的误差范围,以避免对精确度的不合理判断。

3

偏倚是很普遍的

实验设计或测量装置可能对结果造成影响,容易在某一特定方向上产生非典型结果。样本的构成不同,可能得到不同的结果。那些“统计上显著”的结果更可能被报道和出版,只看文献易让人产生错觉——问题的严重性或方案的有效性往往被夸大。

4

样本量通常越大越好

大样本得到的观测结果往往比小样本更稳定,这一点对那些变量多、容易产生测量误差的复杂体系尤为重要。譬如,药物测试中为了更可靠、准确地估计药物的平均功效,一个有数以万计样本量的实验要比一个只有数百个样本量的实验好得多。

5

相关不一定意味着因果

相关关系的得出有时候是出于偶然,看似存在的相关关系可能是由复杂的或潜在的第三方因素所导致。譬如,生态学家曾一度认为有毒的藻类杀死了一条河流入海口处的鱼,但后来发现是因为鱼死了所以藻类繁盛起来。

6

均值回归效应可能造成误导

单次测量中有一部分极端数据是由于偶然或误差造成的,另一次测量中数据可能就没有那么极端。比如,在经常发生车祸的地方放置一个测速相机,随后事故率的下降并不能归因于放了测速相机,只是事故率回归到正常水平而已。

7

超越数据范围的推断存在风险

某一范围得到的模型如果超出这个范围可能就不再适用,譬如如果现在的气候变化速度比现存物种在进化史中所经历过的任何时期都要快,或是出现一个全新的极端天气系统时,评价生态系统对于气候变化的反馈就十分困难。

8

注意基础比率谬误

一个不完美的检验到底有多准?不仅与检验的好坏有关,还与检测状态本身发生的概率有关。譬如,一个人做了有99%准确度的血液测试来检测一种罕见疾病,结果虽呈阳性,但受基础比率的影响他健康的可能性比生病的可能性更大。

9

对照组很重要

对照组可以帮助科学家确保没有额外的因素在干扰结果,没有对照组就难以知道实验处理究竟对结果有没有影响。有时人们在药物测试中表现出阳性,可能受到环境、提供测试的人甚至药丸颜色的影响,此时设置对照组(安慰剂组)非常重要。

10

随机化能够避免偏倚

实验应尽可能随机地采集样本。例如,直接比较有参与健康计划的家庭和没有参与健康计划的家庭中孩子的学习成绩,很容易带上偏倚(受教育程度较高的家庭更可能参与健康计划),好的实验设计应当随机地选择参与或不参与的家长。

11

寻求“重复”而非“伪重复”

在多个研究、独立总体中重复出现的结论更为可靠,如果直接把在某一总体中得到的实验结果推广到其他不具有相同特点的总体,就犯了“伪重复”的错误,伪重复导致研究者对结果产生虚假信心。

12

科学家也是人

科学家也从工作中获得一些既得利益,包括地位、研究经费甚至是直接的经济利益,这可能导致研究结论的刻意选择与夸大。同行评价并非绝对可靠,期刊编辑可能更支持积极、富有新闻价值的结果。多渠道、独立来源的数据及可重复结果才更可信。

13

显著性很重要

统计显著性表示一个事件出于偶然而发生的概率,科学家习惯将P<0.05的情况称为显著。比如一项实验中实验组与对照组的差异显著性是P=0.01,表示有百分之一的可能性是:实验处理其实没有效果,只是偶然因素导致了实验组和对照组的差异。

14

不显著不代表没效果

统计上不显著(P0.05)并不代表真正的无效,只意味着影响效应未被检测到而已。譬如用基因改造的抗虫棉和抗虫马铃薯做一组实验显示,这些作物对传粉者等益虫不存在不利影响,事实可能是实验的样本量不够大,不足以检测到影响效应。

15

“效应量”很重要

显著性可以衡量差异是“真”还是“假”,但如果差异是“真的”,还需进一步考察具体效应有多大?一项多次重复的实验也许得到统计上显著、效应量很小的结果,这种结果可能并没有实际意义。

16

“关联性”限制结论的推广

科学研究结论能否应用于实际问题,取决于研究条件和实际情况的相似程度。譬如,如果将从动物实验或实验室实验中得到的结果推广到人类的时候,就存在较大的局限性。

17

感觉会影响风险感知

很多因素都对人类的风险感知造成不同程度的影响,包括事件的罕见性、人们自以为对事件的掌控程度、结果的不利影响等。比如,美国人往往严重低估在家携带手枪的危险(缩小倍),而严重高估住在核反应堆旁边的危险(扩大10倍)。

18

相关性会改变风险

计算独立事件的后果较为容易,像极潮、强降水和关键员工的缺席等,但如果这些事件相互关联(风暴导致高水位,而强降水导致关键员工的缺席),它们共同发生的概率就比预期大得多。

19

数据可以选择性呈现

有时为了支持自己的观点,实验者会选择对预期结果有利的证据。譬如,一项研究认为怀孕时的酸奶摄入量和后代患哮喘之间显著相关,解读结论首先要知道研究者是预先打算验证这一假说,还是从一大堆数据中偶然发现这一相关性的。

20

极端测量值可能引起误导

极端测量值可能引起误导。由于个体能力差异、取样、偏见、测量误差等因素的影响,所有测量结果都具有可变性。在解释研究结果的时候,除个体差异之外的因素常被忽略,如果讨论的是极端结果,仅比较极端值和平均值的偏离幅度,就可能带来严重的误导。

上述20个科学事实,基本上都与统计常识有关,可见在开展科学研究、理解研究结论以及利用科学结论指导现实决策的过程中,需要具备一定的统计思维,如此才能避免统计陷阱和统计谬误。正如C·R·劳教授所讲:“对统计学的一知半解,常常造成不必要的上当受骗;对统计学的一概排斥,往往造成不必要的愚昧无知。”

(作者:程开明)

赞赏

长按


转载请注明:http://www.jmrrc.com/swzdby/11444.html