打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
《数学传播》- 谈统计应用
userphoto

2016.03.09

关注
谈统计应用
邓进财
念纯数的常挖苦念统计的说:“你们念统计的常以算术平均数来代表全体(population),那么你们一手泡在沸水中,另一手浸在冰水中,一定会感到很舒服,因为你们的平均感受只有
C而已。”而念统计的也不甘示弱的说:“你们念纯数的说a = b , b = c,则a = c,那么你们一定会热爱女朋友的另一个爱人,因为你们爱你们的女朋友,而你们的女朋友爱另一位男朋友,所以你们也会爱你们的情敌。”当然,这都是“自古文人相轻”“外行批评内行”的写照。事实上,念过统计的人都知道全体十分集中时,以算术平均数代表全体始有意义;而学过数学的人也都明了“等号”是必须具备有传递性的(此即,若a = b , b = c则a =c),可是,上述所说的“爱”并不满足传递性。
在面对不确定情况下,统计是一种能??够帮助我们做出聪明决策的科学方法。下面,让我们来谈谈统计应用的一些实例
例题1. 一计程车问题
国外某地的计程车较少,一位统计学者在该地的某街角等候计程车,眼看来了几部计程车都载客而过,这位统计学者开始怀疑这个城市到底有几部计程车,以致于不够应用。于是他开始记下载客而过的计程车车号,依次如下:
405, 280, 73, 440, 179
接着来了一部空车,载走了统计学者。
假如该城市计程车的编号是从1号开始连续编排下来,而且空的计程车走在城里做随机性的环绕,那么,你若是这位统计学者,你将如何从上述记录的资料来推测该城市共有几部计程车?
这个问题的估计方法很多,在此我们将简介两种简单的估计方法,并加以粗略的检定。
一、平均差距法
假设该城市计程车的编号是连续的,而第一部的编号为1,最后一部设为M。现在,如果我们能够猜测第440部计程车与第M部之间的差距,那么我们就可以正确的推测M的数值。从直觉上,读者可由图1得知:我们可引用前五部车号的平均差距,来代表第440部与最后一部之间的差距,因此我们可以推测
统计学者上车后,询问司机这个城内究竟有几部计程车,结果司机回答说: 城里共有550 部计程车。则根据上述的平均差距法所做的估计,其相对误差仅为(550 - 527) /550 = 0.04,因此,上述的估计方法是十分的理想。
图1:平均差距法
二、中位数法
图2显示这五部计程车车号的中位数为280,根据抽样的特性,亦即样本足以代表整个全体的特性,我们可以合理的推测280也可能是城里所有计程车车号的中位数,则
( M +1)/2=280
亦即M =559,此与实际数值550部的相对误差为( 559 - 550) /500 = 0.02,因此采用中位数的估计方法,也是十分的美好。
图2:中位数法
事实上,我们上面所介绍的方法是数列分析 (serial number analysis)中最简单而理想化的解法,因为实际上计程车的编号并不是从1号连续下来的,而且计程车所环绕的路径,通常并不是随机性的乱兜圈子。数列分析在第二次世界大战时,盟军曾用以分析、估计战场上德军战车的数量,战后发现利用这种统计方法估计德军战车的数量相当精确。
例题2. 估计野生动物的存量
在报章杂志上,我们经常看到某某动物已濒临绝种边缘的报导,你们一定会奇怪这些科学家如何知道那些野生动物的数量呢?例如:鲸漫游在占全球表面积约2/3强的海洋内,而且大部分的时间又都潜伏在水底,我们如何来估计各类鲸的存量呢?下面让我们来介绍二种不同的估计方法,分别说明如下:
一、记号法
石缸内有一大堆弹珠,假设我们不能够将弹珠整个倒出来一一计数,而又想知道整缸内弹珠的个数,我们可以利用随机抽样的理论,先从缸内任取几个弹珠,假设取10个,作记号后再放回缸内,加以完全的搅乱,然后再从缸内抽取一些弹珠, 分别计算这些弹珠中有记号和没有记号的个数比,假设计算结果是没有记号的弹珠为有记号弹珠的四倍,那么应用随机抽样:样本足以代表全体的特性,我们可以推测整个有记号与没有记号的弹珠比为1:4因此可推知共有40个没有记号的弹珠,也就是说,总共有50个弹珠在石缸内。
利用相同的方法,我们可先捕捉一些鲸,在厚脂的鲸背上烙入0.3公尺的圆柱形金属,再放回海中任其游动。其后我们可由捕获的鲸中,计算有记号与没有记号的比率,即可推测出鲸的总数。
这种简单的设计,虽然在执行上有很多因难,但仍然被用来估计很多野生动物的总数。可是,利用这种方法来推测鲸存量,在执行上尚有很多因素必须加以考虑,譬如:将金属烙入鲸背,是否就不会因跳跃而脱落?工人在寒冷的暴风雨中开剖像房子那么大的鲸,是否会注意到那个小小的柱形金属?而且鲸不像弹珠,它是有一定的寿命(若不被捕杀,一般鲸能活到四十多岁)。为了解决这些复杂的问题,我们需要连续好几年的实验和比较过程,把前述的方法加以更精密的推展。例如:我们连续两年捕捉相同数目的鲸,作完记号后放回, 则两年后我们从被捉的有记号鲸中,计算第1年与第2年被作记号的比率,即可推算这段期间鲸被捕或自然死亡的比率。
二、捕捉法
海底鲸的存量多,则鲸被发现的次数就多,于是鲸被捕量亦增加,反之则否。因此我们可假设鲸被捕的机率是固定的;那么我们即可由每年捕到鲸的数目, 求得鲸存量的估计值。例如:这一期我们捉到25,000条鲸,比前一期少了10%, 则我们可由此推知这一期共有25,000 /0.10 = 250,000条鲸,其原因说明如下:
设前一期有x条鲸,且鲸被捕的机率为p,则这一期应有( x - xp )条鲸(不考虑自然死亡与新生的鲸),再由已知条件,得下列联立方程式:
由公式1和2得知,
因此这一期原有的鲸数为
然而,事实上并非如此单纯。例如:捕鲸船在海上各种不同的气候下作业,捕获的鲸量必然大有出入;又捕鲸公司不断地采用新技术,改善效率;加以鲸不断的自然死亡和新生幼鲸,我们岂可假定鲸被捕的机率永远不变?为了克服这些困难,每隔一段期间之后,我们必须将p根据实际情形,加以适当的调整。
例题3. 如何调查敏感性的问题
假如我们所调查的问题涉及个人名誉道德、私人秘密及其他利害相关的事项,被调查的人多半不会忠实回答,若勉强直接调查,也难获得可靠的资料。例如:我们想了解商人的逃税率,如果直接询问他们所得到的答案,必然是否定的。诸如此类的问题,我们要如何设计调查方式,以获取被调查者的坦诚合作,提高调查效果?在此我们举个例子来谈谈如何利用一种“随检问答” (randomized response)的技巧,以消除被调查者的疑虑;争取精诚合作。
如果我们要调查商人的逃税率,我们可设计两个问题: 问题1,为敏感性的问题-“你是否曾经逃税?”, 问题2,为无关的问题-“你的身份证号码是否为奇数?”
对每一个被调查的商人,我们可请他自行在放有7个红球, 3个白球的袋中任意选取一球,然后按照下列规则回答问题:
注意:被调查者只需回答“是”或“否”,而不须告诉我们选到何种球、所回答的是何种问题,如此我们即无法确知对方所回答的是何种问题,因此被调查者可以毫无顾忌的回答问题。
这种调查方式,虽然我们并不知道被调查者个别回答的问题是何种问题,但是在全体上,我们利用简单的机率理论,即可轻易地求得所要调查的问题,兹说明如下:
设P ( X )表示陈述X成立的机率,P ( X |Y)表示陈述Y成立时陈述X成立的条件机率,则
或者写得更简洁点
式中λ表示回答“是”的机率,π表示商人中曾逃税过的比率,p表示选到敏感性问题的机率,而θ表示商人之身分证号码为奇数的机率。假设调查统计的结果,得到回答“是”的比率为0.44,也就是 
0.44则将p = 0.70,及
0.50代入公式3中,得
因此我们可估计商人中曾逃税的比率为41%。
上面我们所用的方法,若碰到一位多疑,而身分证号码又不是奇数的商人,尽管事实上我们不知道他的身分证号码,而他依然很可能会害怕:假如他回答“是”,而我们若查出他的身分证号码,那不就证明他曾逃税吗?我们为了避免因此而产生资料的偏差,可以再应用下面的例子。
假如我们想研究赞成堕胎的比率,那么可以将均一的红色、白色及蓝色玻璃珠放入盒中,已知各色玻璃珠出现的机率为p r、p w、p b。我们可设计如下的随机问答,被调查者先从盒中随机抽取一玻璃珠,然后按下列规则回答。
同前例,我们可以得到下列的数学模型
式中λ表示回答“是”的机率,π表示赞成堕胎的机率。因为公式4中的 p r与p w为已知,因此只要计算回答“是”的比率,即可求得π的估计值。这种方式的随机问题,可以完全消除被调查者的疑虑,也可利用的关系,检定调查的资料是否可靠。
上面我们提到一些简单的统计应用,而实际从事统计工作,那经常是一件十分繁杂的工作,而且稍微不小心,常会闹笑话。例如: (1)当日光灯刚问世时,一些人深信,暴露在日光灯的幅射下将丧失生殖能力。某条铁路已装妥日光灯,为了破除这个观念,承办了一次实验,将老鼠分成两组,一组暴露在白热灯下,另一组生活在日光灯下,经过一段时间,在白热灯下的老鼠已有了正常数目的子孙,但是另一组却没有一个后代,这个实验反而更加令人相信,暴露在日光灯下将丧失生殖能力。后来经过一些怀疑者重新详细的检验,却意外地发现第二组的老鼠竟然都是同性的。
让我们再举个例子来谈谈把因果关系颠倒所造成的笑话。(2)新希伯利德的土著们相信虱子有益于身体健康,因为根据他们数百年的观察经验,身体好的人都有虱子,只有生病的人身上没有。于是他们由此推论:虱子使人健康,每个人都该有一些。这种推论显然有问题,但是他们却是确信不移。后来经过一些有经验的人仔细研究之后,发现在新希伯利德地方差不多每个人都长虱子,可是常有人生病发烧的时候,因为体温太高,虱子们便乔迁他去,另觅住宅。这个例子告诉我们,如果把因(生病发烧)与果(身上没虱子)颠倒,混淆一谈,所得的结论将令人啼笑皆非。
这类的例子很多,又如: (3)曾经有人费了很多工夫找出在大学生中,吸烟学生的成积是要比不吸烟的差,于是许多人(尤其是不吸烟的家长)就很高兴的推论:如果要成绩好的话,大学生非戒烟不可。事实上,这个推论是以“抽烟”为因,“成绩差”为果所导得的,但是这样的假设是毫无根据的。我们同样可以把因果关系颠倒过来,以“成积差”为因,“抽烟”为果,也就是说:学生因成积差,只好借烟解愁。如此一来,就是把烟戒了也无法提高成绩。
1.科技发展小组,《统计能为你做些什么》,文理出版社发行。
2.夏沛然,《统计魔术》,科学月刊发行
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
调查研究常用九大方法
福彩3D第208期组六选号魔图(此方法有人年收入创100万)
爱其实就像打计程车
第一次知道,扑克牌后面有记号
统计指标不能忽略“中位数“
终于稳了!2020年8月程序员工资最新统计
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服