—独立样本四格表
自由度为1
假设有两个分类变量X和Y,它们的值域分别为{x1, x2}和{y1, y2},其样本频数列联表为:
y1 | y2 | 总计 | |
x1 | a | b | a b |
x2 | c | d | c d |
总计 | a c | b d | a b c d |
若要推断的论述为H1:“X与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度。具体的做法是,由表中的数据算出检验统计量
的值。
的值越大,说明“X与Y有关系”成立的可能性越小。
当表中数据a,b,c,d都不小于5时,可以查阅下表来确定结论“X与Y有关系”的可信程度:
0.50 | 0.40 | 0.25 | 0.15 | 0.10 | |
k | 0.455 | 0.708 | 1.323 | 2.072 | 2.706 |
0.05 | 0.025 | 0.010 | 0.005 | 0.001 | |
k | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
例如,当“X与Y有关系”的
的值为6.109,根据表格,因为5.024<6.109<6.635,所以“X与Y有关系”成立的概率在0.01到0.025之间。
男 | 女 | ||
化妆 | 15(55) | 95(55) | 110 |
不化妆 | 85(45) | 5(45) | 90 |
100 | 100 | 200 |
如果性别和化妆与否没有关系,四个格子应该是括号里的数(期望值,用极大似然估计55=100*110/200,其中110/200可理解为化妆的概率,乘以男人数100,得到男人化妆概率的似然估计),这和实际值(括号外的数)有差距,理论和实际的差距说明这不是随机的组合。
应用拟合度公式
=
129.3>10.828
显著不相关,作此推论犯错的概率p>0.999,即99.9%。
注:独立四格表的拟合度公式可以写成n(ad-bc)^2/(a b)(c d)(a c)(b d)
总结:独立四格表资料检验
四格表资料的卡方检验用于进行两个率或两个构成比的比较。
1. 专用公式:
若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=n(ad-bc)^2/(a b)(c d)(a c)(b d),(或者使用拟合度公式)
自由度v=(行数-1)(列数-1)=1
2. 应用条件:
要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但有1=<理论频数<5时,卡方值需要校正,当样本含量小于40或理论频数小于1时只能用确切概率法计算概率。
联系客服