打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Fisher精确检验的通俗理解

从事心理咨询的同学转发了一片有关喝茶的文章(详见:http://www.zjfj66.com/article/qinggan/14379314.html).

文中作者为了检验自己能否品出不同年份的普洱茶,做了严格的测试,原文如下:

**************************

我把不同年代的生普掰下一块,一字摆开,泡了测试它们的味道到底有什么不同。我经历了反复多次试验,双盲的对照的,其设计和执行的严格程度完全参考美国FDA的条款,最后的实验结果很沮丧地表明,十年以内的茶的味道的差别,我无法可靠地进行分辨。 

**************************

然后又引述了统计学界的一个公案:Fisher测试某位女士是否能分辨出先放茶再加奶和先放奶再冲茶的味道是否不同。这个测试就是后来著名的Fisher精确检验。

作为一个数据分析伪从业人员,我对Fisher精确检验很感兴趣, 但一开始就被2*2的实验结果列联表搞蒙了,看不明白这个表格含义所在,为何要弄出这么一个表格来。于是就搜索了Fisher精确检验的详细资料,翻阅资料后把自己的理解用非专业的词汇总结一下。

Fisher精确检验原理描述:

假设检验用来检验一次随机实验的结果是否支持对于某个随机实验的假设。具体如下:随机事件发生的概率小于0.05则认定该事件为小概率事件。一般原则认为在某个假设前提下,一次随机实验的结果不会出现小概率事件。若一次随机实验的结果出现了小概率事件则认定该假设不被支持。

 

1. 理论依据是:超几何分布(无放回产品抽样实验):,非卡方检验的范畴。超几何分布的一个形象例子是:有N件物品,M件为次品,求取n件,其中有k件为次品的概率。=(M,k)*(N-M,n-k)/(N,n)

2. 基本思想是:在2*2列联表中,四格表周边和(即边际分布)计数固定不变的条件下,计算表内4个实际频数变动时的各种组合之概率Pi;而这个具体的实例可以分解出8个类似产品抽样实验的具体实例结果。根据给出的数据可以计算出每个抽样结果基于假设的超几何分布概率。根据其中之一抽样结果的概率,通过假设检验的原则即可推定假设是否成立。

注:以上两条来源:http://blog.sina.com.cn/s/blog_6b1c9ed50101kh2f.html

 

例如 判断节食与性别是否相关:

                   男        女

   节食          a         b

不节食         c         d

 

四格表周边和(即边际分布)计数固定不变的条件下(男性总数固定(a c),女性总数不变(b d),节食总人数不变(a c),不节食总人数不变(c d)),可以分解出下列超几何分布抽样:

1. 一共 (a b c d)人,其中男性(a c)人, 节食有(a b)人,则其中节食男性为a人的概率;

2. 一共 (a b c d)人,其中男性(a c)人, 不节食有(c d)人,则其中不节食男性为c人的概率;

3. 一共 (a b c d)人,其中女性(b d)人, 节食有(a b)人,则其中节食女性为b人的概率;

4. 一共 (a b c d)人,其中女性(b d)人, 不节食有(c d)人,则其中不节食女性为d人的概率;

5. 一共 (a b c d)人,其中节食(a b)人, 男性(a c)人,则其中节食男性为a人的概率;

6. 一共 (a b c d)人,其中节食(a b)人, 女性(b d)人,则其中节食女性为b人的概率;

7. 一共 (a b c d) 人,其中不节食(c d)人, 男性(a c)人,则其中不节食男性为c人的概率;

8. 一共 (a b c d)人,其中不节食(c d)人, 女性(b d)人,则其中不节食女性为d人的概率;

 

Fisher精确检验是统计显著性检验方法,用于检查两个二进制变量的相关性。所谓二进制变量就是变量的值域只有两个值,例如:性别为男或女;在特定场景下规定变量只有两个可用值,如:规定出行方式为火车或飞机,收入为高或低等。

Fisher精确检验的例子:

1.   两个候选人的得票是否和投票人性别相关。

2.   性别和是否节食是否相关。

3.   收入高低是否和出行方式(火车/飞机)相关。

Fisher精确检验适用于样本量n<40或者理论频数T<1的情况。

其中n为2*2列联表的实际发生的总频数(a b c d),理论频数T是指如果原假设成立则每个格子中理论上应该出现的频数。

对于上述2*2列联表而言:a,b,c,d是实际测试的各个格子实际发生的频数,n为2*2列联表的实际发生的总频数(a b c d)

理论频数是指总体的频数,可以根据检验假设的样本数据推断出近似值。 具体方法是,假设原假设成立,两组样本数据差别仅是由抽样误差所致,则两组样本数据的并集的男性所占比率可以作为总体数据中男性所占比率,即理论频率,如下例:

                                男        女

   节食&不节食          a c     b d       ----- 男性所占比率:P=(a c)/n

    则 总体理论上男的所占频率(比率)可以用 P 来近似表示。因为原假设成立节食与否与男女性别无关,因此在节食的人中男性比率也应该是P。以此为依据便可推算出四格表中相应的四格的理论数。对于a格的理论频数 (a b)*P = (a b)*(a c)/n,即所在行的频数之和*所在列的频数之和/总频数。

 

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
卡方(χ2),四格表应用条件,理论频数
卡方检验适应症大全,你还会弄错吗?
SPSS之史上最全卡方检验(原理 案例介绍)
四格表统计中该用Fisher确切概率法还是卡方检验?
卡方检验使用
统计学
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服