生物统计学复习资料
第一章生物统计学:是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,属于应用统计学的一个分支。
内容:试验设计:试验设计的基本原则、试验设计方案的制定和常用试验设计的方法
统计分析:数据资料的搜集、整理和特征数的计算、统计推断、方差分析、回归和相关分析、协方差分析等
生物统计学的作用:
1. 提供整理、描述数据资料的科学方法并确定其特征 2. 判断试验结果的可靠性
3. 提供由样本推断总体的方法 4. 试验设计的原则
生物统计学的研究包括了两个过程:
1. 从总体抽取样本的过程——抽样过程
2. 从样本的统计数到总体参数的过程——统计推断过程
第二章
7.样本标准差:
(1)标准差的大小,受多个观测值的影响,如果观测值与观测值间差异大,标准差就大
(2)在计算标准差的时候,如果对各个观测值加上或者减去一个常数a,其标准差不变;如果乘以或除以一个常数a,则标准差扩大或者缩小a倍
STDEV: 基于给定样本的标准偏差
STDEVP:基于给定样本总体的标准偏差
8变异系数(CV):样本标准差除以样本的平均数,得到百分比
(1)变异系数是样本变量的相对变量,是不带单位的纯数
(2)用变异系数可以比较不同样本相对变异程度的大小
1.次数分布:在不同区间内变量出现的次数所构成的分布。
2.资料根据生物的形状特性,可分为数量性状和质量性状
3.间断性变数:指用计数方法获得的数据,其各个观测值必须以整数表示,在两个相邻整数间不允许带有小数的值存在。
4.连续性变数:指称量、度量或测量方法所得到得数据,其各个观测值并不限制于整数,在两个数值之间可以有微量数值差异的第三个数值存在
5.质量性状资料的方法:统计次数法,评分法
统计次数法:于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别及其次数或相对次数
给分法:给予每类性状以相对数量的方法。
6.试验资料搜集方法:调查和试验
7.资料调查方法:普查和抽样调查
抽样调查:根据一定的原则对研究对象抽取一部分个体进行测量或度量,把得到的数据资料作为样本进行统计处理,然后利用样本特征数对总体进行推断。
8.随机抽样满足条件:1)总体中每个个体被抽中的机会均相等;2)总体中任意一个个体是否被抽中是相互独立的
9.统计表要求:1)标题:简明扼要,准确地说明表的内容,有时须注明时间、地点
2)标目:分横纵两项,横列在表的左侧,纵列表上端,须注明计算单位
3)数字:一律用阿拉伯数字,以小数点对齐,无数字用“/”表示
4)线条:多用三线条。上下两条边路略粗
10.统计图绘制的要求:
1) 标题简明扼要,列于图的下方
2) 横纵坐标两轴有刻度,注明单位
3) 横轴从左至右,纵轴由下而上,数值由小至大,图形长宽约为5.4或6.5
4) 图中要不同颜色或线条代表不同的事物时,应有图例说明
11.计数资料基本采用单项式分组法进行整理
12.计量资料的整理一般采用组距式分组法
13.次数分布图分类:条形图、饼图、直方图、多边形图、散点图
14.变量的基本特征:
1) 集中性:变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。特征数是平均值
2) 离散性:变量有着离中分散变异的性质。特征数是变异数,常用的指标是极差、方差、标准差和变异系数
15.平均数的种类:算术平均数、中位数、纵数、几何平均数
17.标准差的作用;
1) 表示变量分布的离散度
2) 利用标准差的大小,可以概括的估计出变量的次数分布及各类观测值在总体中所占有的比例
3) 估计平均数的标准误
4) 进行平均数的区间估计和变异系数的计算
18.组距:根据极差分成若干组,每组的距离相等,称为组距。组距=极差/组数
19.自由度:样本内独立且能自由变动的离均差的个数。
20.变异系数:样本的标准差除以平均数的百分比
21. 平均数的用处:①平均数指出了一组数据的中心位置,标志着资料所代表性状的数量水平和质量水平; ②作为样本或资料的代表数据与其他资料进行比较。
平均数的特征:①离均差之和为零; ②离均差平方和为最小。
21.标准差的用处: ①标准差的大小,受实验后调查资料中的多个观测值的影响,如果观测值之间的差异大,离均差就越大;②在计算标准差是如果对观察值加上一个或减去一个a,标准差不变;如果给各观测值乘以或除以一个常数a,所得的标准差就扩大或缩小a倍; ③在正态分布中,X+-S内的观测值个数占总个数的68.26%,X-+2s内的观测值个数占总个数的95.49%,x-+3s 内的观测值个数占总个数的99.73%。
标准差的特征: ①表示变量分布的离散程度; ②标准差的大小可以估计出变量的次数分布及各类观测值在总体中所占的比例; ③估计平均数的标准差; ④进行平均数区间估计和变异数的计算。
22.比较总体和样本的平均数、标准差:
总体平均数µ=∑x/N,式中分母为总体观察个数N; 样本平均数x=∑x/n,公式中n是样本容量; 样本平均数是总体平均数的无偏估计值。
总体和样本标准差都等于离均差的平方和除以样本容量; 而总体标准差σ= ,分母上是总体观测值个数N; 而样本标准差是s= ,分母上是样本自由度n-1. 样本标准差s是总体标准差σ的无偏估计值。
第三章:
概率的计算法则:
(1)乘法定理:如果A和B为独立事件,则事件A和B同时发生的概率等于各自事件的概率的乘积
(2)加法定理:互斥事件A和B的和的概率等于事件A和事件B的概率之和
加法定理推理1:
如果A1、A2、…An为n个互斥事件,则其和事件的概率为:
P(A1+A2…An)=P(A1)+P(A2)+…+P(An)
加法定理:如果A和B是任何两件事件,则
概率分布:
(1)离散型随机变量的概率分布
变量(x) | x1 x2 x3 … xn |
概率(P) | p1 p2 p3 … pn |
P(x=xi)=pi (i=1,2,…, n)
离散随机变量的方差
(2)连续型随机变量的概率分布
连续型随机变量的概率分布
概率密度函数:(1)设X为一连续型随机变量,x 为任意实数,X的概率密度函数记为f(x),它满足条件
(2) ,f(x)不是概率
几种常见的概率分布:(适用范围,尾函数,自由度)
1. 二项分布的概率函数 记作B(n,p)或者B(n,π)
(1)每次试验只有两个对立结果,分布记为A与 它们出现的概率分布为p与q(q=1-p)
(2)试验具有重复性和独立性
二项式分布的概率累积函数:
若随机变量x服从二项式分布,则有二项分布的总体平均数为
二项分布的总体标准差为:
二项成数(百分数)分布的平均数:
二项成数(百分数)分布的标准差:
例:假设年龄60~64岁的100名男性在1986年注射了一种新的流感疫苗而在第二年内死亡5人,这正常嘛?(注:1986年,60~64岁的男性老人第二年的死亡率约为0.02)
解:要知道100个男性的样本死亡5人是不是“异常”事件,这种估计的一个准则是寻找至少5人死亡的概率。
注:通常是把概率值为0.05或者更小的概率事件识别为异常(稀有事件)。由于至少5人死亡的概率是0.05,可见100人中至少死亡5人是稍微有点异常,但不是很异常。
如果至少死亡10人,那么概率是3.44*10-5,这就很不正常,因而,在没有其他证据显示此疫苗有效前,应考虑停止使用。
2. 泊松分布
二项式分布中,如果p值很小而n值很大( p<0.1 和np<5 ),则泊松分布
式中: 为参数,
泊松分布的平均数、方差、标准差
例:假如我们研究乳腺癌的遗传敏感性。我们发现,母亲
曾患有乳腺癌的1000名40~49岁的妇女,在研究开始后的1年中,有4人患有乳腺癌,而我们从大总体中知道在这相同的时间内,1000人中有1个人发生乳腺癌。试问乳腺癌有没有敏感性?
解:如果用二项分布,则n=1000,p=1/1000,
BINOMDIST | number_s | Trials | probability_s | cumulative |
|
|
| 3 | 1000 | 0.001 | Ture | 0.981 | 0.019 |
解:如果用泊松分布,则n=1000,p=1/1000,则平均值 =1
则:这个事件是异常事件,则认为有乳腺癌的妇女,她们的子代具有遗传敏感性
6. 正态分布求和为0
4. t分布:是小样本分布,小样本分布一般是指n<30。t分布适用于当总体标准差未知时用样本标准差代替总体标准差,由样本平均数推断总体平均数以及2个小样本之间差异的显著性检验等 P45
6.F分布
1、概率抽样:根据已知的概率选取样本
简单随机抽样:完全随机地抽选样本
分层抽样:总体分成不同的“层”,然后在每一层内进行抽样
整群抽样:将一组被调查者(群)作为一个抽样单位
等距抽样:在样本框中每隔一定距离抽选一个被调查者
2、非概率抽样:不是完全按随机原则选取样本
非随机抽样:由调查人员自由选取被调查者
判断抽样:通过某些条件过滤来选择被调查者
3、配额抽样:选择一群特定数目、满足特定条件的被调查者
抽样分布:从一个给定的总体中抽取(不论是否有放回)容量(或大小)为n的所有可能的样本,对于每一个样本,计算出某个统计量(如样本均值或标准差)的值,不同的样本得到的该统计量的值是不一样的,由此得到这个统计量的分布,称之为抽样分布
4 结果来自容量相同的所有可能样本
样本平均数的基本性质:
(1)样本均值的均值(数学期望)等于总体均值
定义: 一个参数 的估计量是 ,如果,则称 是 的无偏估计
(2)样本均值的方差等于总体方差的1/n
(3)样本平均数的标准误差的定义
(4)当总体服从正态分布N~(μ, σ2 )时,来自总体的所有容量为n的样本的均值 也服从正态分布, 的数学期望为μ,方差为σ2/n。即 ~N(μ, σ2/n)
中心极限定理:设从均值为m,方差为s 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布
两个独立样本平均数差数的分布 P44
1.事件:一种事物常存在几种可能出现的情况,每种情况都为一次事件。
2.随机事件:在一定条件下,可能出现,也可能不出现的事件。
3.随机现象:在原本条件不变的条件下,重复进行观察,其结果未必相同的现象。
随机现象三个特征:
1) 试验可以在相同条件下多次重复且相互独立;
2) 给定条件下每次试验结果不只一个;
3) 每次试验不能预料出现那种结果,但可以大概预知。
4.常见的理论分布:离散型随机变量的二项分布、泊松分布、连续型随机变量的正态分布
5.事件的相互关系:
1) 和事件:事件A和事件B至少有一件发生而构成的新事件
2) 积事件:事件A和事件B同时发生而构成的新事件
3) 互斥事件:事件A和事件B不能同时发生
4) 对立事件:事件A和事件B必有一个发生,但二者不能同时发生
5) 独立事件:事件A的发生或事件B的发生毫无关系
6) 完全事件:如果多个事件A1、A2…两两互斥,切每次试验结果必然发生其一
6.加法定理是互斥事件A和B的和事件的概率等于事件A和事件B的概率之和
7.乘法定理是独立事件的概率的乘积
8.大数定理:样本容量越大,样本统计数与总体参数之差越小
9.二项分布、泊松分布与正态分布的关系:如果n相当大或p与q基本接近时,二项分布接近于正态分布;当λ较大时,泊松分布也接近正态分布。
10.正态分布的特征:
1) 当x=u是,f(x)有最大值
2) 当x-u的绝对值相等时,f(x)值也相等,正态分布是以u为中心向左右两侧对称分布
3) (X-u)/σ的绝对值越大,f(x)值也越小,但f(x)永不会等于0,所以正态分布以x轴为渐近线
4)正态分布的曲线完全由参数u和σ决定,u确定正态分布曲线在x轴上的中心位置,减小,曲线左移,增大曲线右移。σ确定正态分布曲线的展开程度,越小,曲线展开程度越小,曲线越陡高,反之亦然
5)正态分布曲线在x=u+σ处各有一个拐点,曲线通过拐点是改变弯曲的方向
6)正态分布的概率密度曲线与渐近线X轴所围成的全部面积必然等于1
11.无偏估计值:如果参数所有样本的某一统计数的平均数等于总体的相应参数
(1)样本平均数是总体平均数的无偏估计值
(2)样本方差是总体方差的无偏估计值
(3)样本标准差不是总体的标准差的无偏估计值
12.中心极限定理:如果被抽样总体不是正态总体,但具有平均数u和σ2,当样本容量n不断增大,样本平均数的分布也越来越接近正态分布,且具有平均数u和方差σ2/n
13.t分布的特征:
1)t 分布曲线是左右对称,围绕平均数u=0向两侧递降
2)t 分布受自由度df=n-1的制约,每个自由度都有一条t分布曲线
3)和正态分布相比,t分布的顶部偏低,尾部偏高,自由度大于等于30时,其曲线就比较接近正态分布曲线,当自由度趋向于无穷大时和正态分布曲线重合
14.重置抽样(放回式抽样):指从总体中抽取一个个体,记下其特征数后再放回总体的抽样方法。
15.非重置抽样(不放回式抽样):指从总体中抽取一个个体,记下其特征数后不再放回的抽样方法。
16.抽样分布:指从总体中按一定的样本容量随机抽取全部所有可能的样本,由这些样本计算的统计数组成的分布。
17.无偏估计:指在统计数上如果所有可能样本的统计数的平均数等于总体相应的参数,则称这个统计数为总体相应参数的无偏估计量。
18.频率与概率之间的转化:
事件A在n次重复试验中发生了m次,则比值m/n称为事件A发生的频率,记为W(A);事件A在n次重复试验中发生了m次,当试验次数n不断增加时,事件A发生的频率W(A)就越来越接近某一确定值p,则p即为事件A发生的概率。二者的关系是:当试验次数n充分大时,频率转化为概率 。
19.正态分布、标准正态分布、正态分布曲线的特点
正态分布是一种连续型随机变量的概率分布,它的分布特征是大多数变量围绕在平均数左右,由平均数到分布的两侧,变量数减小,即中间多,两头少,两侧对称。
U=0,σ²=1的正态分布为标准正态分布。
正态分布具有以下特点:标准正态分布具有以下特点:①、正态分布曲线是以平均数μ为峰值的曲线,当x=μ时,f(x)取最大值;②、正态分布是以μ为中心向左右两侧对称的分布 ③、的绝对值越大,f(x)值就越小,但f(x)永远不会等于0,所以正态分布以x轴为渐近线,x的取值区间为(-∞,+∞); ④、正态分布曲线完全由参数μ和s来决定 ⑤、正态分布曲线在x=μ±s处各有一个拐点;⑥、正态分布曲线与x轴所围成的面积必定等于1。
正态分布具有两个参数μ和s,μ决定正态分布曲线在x轴上的中心位置,μ减小曲线左移,增大则曲线右移;s决定正态分布曲线的展开程度,s越小曲线展开程度越小,曲线越陡,s越大曲线展开程度越大,曲线越矮宽。
第四章
假设检验:又称显著性检验:根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,做出在一定概率意义上应该接受的那种假设的推断。
如果抽样结果使小概率事件发生,则拒绝假设。
如果抽样结果没有使小概率事件发生,则接受假设
假设检验步骤:
1)提出假设:对样本所属总体提出无效假设Ho和备择假设HA
2)确定显著水平α
3)计算概率:在Ho正确的前提下,计算统计分布的统计数或相应的概率值。
4)推断是否接受假设:根据小概率原理,进行差异是否显著地推断,并作出推论。
特点:(1)采用逻辑上的反证法(2)依据统计学上的小概率原理
生物统计学上,一般认为:等于或小于0.05或0.01的概率为小概率
在一次试验中,一个几乎不可能发生的事件发生的概率。
假设检验中的两类错误:
1)第一类错误(弃真错误):如果H0是真实的,假设检验却否定了它,就犯了一个否定真实假设的错误
2)第二类错误(纳伪错误):如果H0不是真实的,假设检验时却接受了H0,否定了HA,这样就犯了接受不真实假设的错误。
两者的区别:第一类错误只有在否定H0时才会发生,而第二类错误只有在接受H0时才会发生,二者不会同时发生。
联系:在样本容量相同的情况下,犯第一类错误二等概率减少,第二类错误就会增加,反之亦然
假设检验中的两类错误是取证错误和取伪错误。为了减少犯两类错误的概率要做到:①显著水平a的取值不可以太高也不可太低,一般去0.05作为小概率比较合适,这样可以使犯两类错误的概率都比较小;②尽量增加样本容量,并选择合理的实验设计和正确的实验技术,以减小标准误,减少两类错误。
一.大样本平均数的假设检验——u检验
应用范围:1)总体方差 已知
2)总体方差 未知,但样本为大样本( ),用s2来代替
两个样本平均数比较的u检验
二、小样本平均数的假设检验——t检验
应用范围:
总体方差 未知,且样本为小样本( ), 采用t检验
当总体方差 为未知时,当样本容量小于30,检验一个样本平均数 是否属于平均数为 的指 定总体,其 遵循自由度为df=n-1的t分布
1. 统计推断是根据理论分布由一个样本或一系列样本所得的结果来推断总体特征的过程。
2.参数估计则是由丫根本结果对总体参数在一定概率水平下所做出的估计。参数估计包括点估计和区间估计。
3.统计推断包括假设检验和参数估计两个方面
任务:分析误差产生的原因,确定差异的性质,排除误差干扰,从而对总体的特征做出正确的判断。
6.小概率原理:如果假设一些条件,并在假设的条件下能够准确的算出事件A出现的芥蓝菜为很小,则在假设条件下的n次独立重复试验中,事件A将按预定的概率发生,而在一次试验中则几乎不能发生。
小概率原理是指概率很小的事件再一次试验中被认为是几乎不可能会发生的,一般统计学中常把概率概率
小于0.05或0.01的时间作为小概率事件。他是假设检验的依据,如果在无效假设H0成立的条件,某事件的概率大于0.05或0.01,说明无效假设成立,则接受H0,否定HA;,如果某时间的概率小于0.05或0.01,说明无效假设不成立,则否定H0,接受HA。8.区间估计指根据一个样本的观测值给出总体参数的估计范围给出总体参数落在这一区间的概率。
9.点估计是指从总体中抽取一个样本,根据样本的统计量对总体的未知参数作出一个数值点的估计。
10.置信度与区间估计的关系为;对于同一总体,置信度越大,置信区间就越小,置信度越小,置信区间越大。
第五章
统计假设:H0:观测值与理论值的差异是由随机误差引起
HA:观测值与理论值之间有真实差异
所以卡方值是度量实际观测值与理论值偏南程度的一个统计量
卡方值越小,表明观测值与理论值越接近
卡方值越大,表明观测值与理论值相差越大
卡方值为0,表明H0严格成立,且它不会有下侧否定区,只能进行右尾检验
连续性:由于离散型资料的卡方检验只是近似地服从连续型变量的卡方分布,所以在对离散型资料进行卡方检验计算的时,结果常常偏低,特别是当自由度df=1时,有较大偏差,为此需要进行矫正,当自由度df>1时,与连续型随机变量卡方分相近似,这时可以不做连续性矫正
注意:要求各个组内的理论次数不小于5,如某组理论次数小于5,则应把它与其相邻的一组或几组合并,直到理论次数大于5为止
适合性检验(吻合性检验或拟合优度检验)步骤:
1. 提出无效假设,即认为观测值和理论值之间没有差异
2. 规定显著性水平
3. 计算样本卡方值
4. 根据规定的显著水平和自由度计算出卡方值,再和实际计算的卡方值进行比较
独立性检验步骤:
1. 提出无效假设,即认为所观测的各属性之间没有关联
2. 规定显著性水平
3. 根据无效假设计算出理论数
4. 根据规定的显著水平和自由度计算出卡方值,再和计算的卡方值进行比较。
如果接受假设,则说明因子之间无相关联,是相互独立的
如果拒绝假设,则说明因子之间的关联是显著的,不独立
1. Χ²检验主要有三种用途:一个样本方差的同质性检验,适合性检验和独立性检验。一个样本方差的同质性检验用于检验一个样本所属总体方差和给定总体方差是否差异显著,适合性检验是比较观测值与理论值是否符合的假设检验;独立性检验是判断两个或两个以上因素间是否具有关联关系的假设检验。
Χ²检验用途:一个样本方差的同质性检验、适合性检验、独立性检验
1)适合性检验:比较观测值与理论值是否符合的假设检验。这种方法是对样本的理论值先通过一定的理论分布推算出来,然后用实际观测值与理论观测值比较,从而得出实际观测值与理论观测值之间是否吻合的结论,因此适合性检验也叫吻合性检验或拟合优度检验。
2)独立性检验:实验九两个或两个以上因子彼此之间的相互独立的还是相互影响的一类统计方法。
2.Χ²检验基本原理:应用理论推算值E与观测值O之间的偏离程度来决定的。理论推算值与实际观测值之间偏差越大,越不符合;偏差越小,越趋于符合;若两值完全相等时,表明理论值与实际值完全符合。
3. Χ²检验的步骤为:
(1)提出无效假设H0:观测值与理论值的差异由抽样误差引起即观测值=理论值
备择假设HA:观测值与理论值的差值不等于0,即观测值≠理论值
(2)确定显著水平a.一般可确定为0.05或0.01
(3)计算样本的x2,求得各个理论次数Ei,并根据各实际次数Oi,代入公式,计算出样本的x2。
(4)进行统计推断
4.在计算Χ²是应注意:
1)任何一组的理论次数Ei都必须大于5,如果Ei<=5,,统计量会明显偏离Χ²分布,则需要并组或增大样本容量,以满足EI>5;
2)在自由度df=1时,需进行连续性矫正
公式:
对同一资料,进行矫正的值要比未校正的值小。当自由度df>=2时,一般不需要矫正。
第六章
方差分析又称 F 检验 (F -test);方差分析是关于k(k≥3)个样本平均数的假设测验方法,是将总变异按照来源分为处理效应和试验误差,并做出其数量估计。
发现各变异原因在总变异中相对重要程度的一种统计分析方法。
总变异分解为组间变异和组内变异。
组内变异是个体差异所致,是抽样误差。
组间变异可能由两种原因所致,一是抽样误差;二是处理不同。
在抽样研究中抽样误差是不可避免的,故导致组间变异的第一种原因肯定存在;第二种原因是否存在,需通过假设检验作出推断
方差分析基本思想:
1、把k个总体当作一个整体看待
2、把观察值的总变异的平方和及自由度分解为不同来源的平方和及自由度
3、计算不同方差估计值的比值 4、检验各样本所属的平均数是否相等
· 实际上是观察值变异原因的数量分析
方差分析应用条件:
1、各样本须是相互独立的随机样本 2、各样本来自正态分布总体 3、各总体方差相等,即方差齐
方差分析基本用途:
1、多个样本平均数的比较 2、多个因素间的交互作用
3、回归方程的假设检验 4、方差的同质性检验
总平方和=处理间平方和+处理内平方和
总自由度=处理间自由度+处理内自由度
统计假设的显著性检验——F检验:F检验的目的:推断处理间的差异是否存在
方差分析中的F检验总是单尾检验,而且为右尾检验
· F越大,越说明组间方差是主要方差来源,因子影响越显著;
· F越小,越说明随机方差是主要的方差来源, 因子的影响越不显著
F检验如果否定了H0,接受了HA,表明试验的总变异主要来源于处理间的变异
多重比较:多个平均数的相互比较
常用的:1、最小显著差数法(LSD法)
2、最小显著极差法(LSR法)—新复极差检验(SSR法)—q检验
总结:差异不显著标同一字母,差异显著标不同字母
最小显著极差法(LSR法)
· 把平均数的差异看成是平均数的极差(range)
· 根据极差范围内所包括的处理数(称为秩次距)k的不同,而采用不同的检验尺度叫做 最小显著极差LSR
· 秩次距是指当平均数由大到小排序后,相比较的两个平均数之间(含这两个平均数)包含的平均数个数
· I类错误下降、工作量加大
新复极差法
q检验法
两因素方差分析:
互作:某一因素在另一因素的不同水平上所产生的效应不同,则二因素间存在交互作用,简称互作。互作效应实际是由于两个或多个试验因素的相互作用而产生的效应采用EXCEL计算重复观测值的二因素方差分析:
1、数据输入区域必须有标题
2、直接分析结果仅适用用固定模型
1.试验因素:试验中所研究的影响试验指标的原因或原因组合,简称为因素或因子。
按照性质不同,因素可以分为可控因素和非可控因素。
2.因素水平:每个试验因素的不同状态(处理的某种特定状态或数量上的差别)。
3.试验处理:指对受试对象给予某种外部干预(或措施),是试验实施因子水平的一个组合。可分为单因素处理和多因素处理。
4.试验单位:试验中能接受不同试验处理的独立的试验载体。实际上就是根据目的而确定的观测总体。
5.重复:是指在试验中,将一个处理实施在两个或两个以上的试验单位上。
6.方差分析基本原理:将所有处理的观测值作为一个整体,一次比较就对所有各组间样本平均数是否有差异作出判断。
基本思想:将测量数据的总变异按照变异原因不同分解为处理效应和试验效应,并作出其数量估计。
7.方差分析避免的问题;
1)j检验过程繁琐
2)无统一的试验误差,误差估计的精确性和检验的灵敏性低
3)推断的可靠性降低,犯α错误的概率增加
8.方差分析的基本假定:正态性、可加性、方差同质性
9.数据转换:平方根转换、对数转换、反正弦转换、倒数转换
样本所来自的总体和方差分析基本假定相抵触,这些数据必须进行适当的数据转换
10.方差分析的概念、基本思想、一般步骤
1)方差分析是对两个或多个样本平均数差异显著性检验的方法。(2)方差分析的基本思想是将测量数据的总变异按照变异来源分为处理效应和误差效应,并作出数量估计,在一定显著水平下进行比较,从而检验处理效应是否显著。
(3)方差分析的基本步骤如下:
a.将样本数据的总平方和与自由度分解为各变异因素的平方和与自由度。
b.列方差分析表进行F检验,分析各变异因素在总变异中的重要程度。
c.若F检验显著,对个处理平均数进行多重比较。
11.多重比较
(1)多个平均数两两间的相互比较称为多重比较。
(2)多重比较常用的方法有最小显著差数法和最小显著极差法,其中最小显著极差法又有新复极差检验和q检验法。
(3)多重比较的结果常以标记字母法和梯形法表示。标记字母法是将全部平均数从大到小依次排列,然后再最大的平均数上标字母a,将该平均数与以下各平均数相比,凡相差不显著的都标上字母a,直至某个与之相差显著的则标以字母b。再以该标有b的平均数为标准,与各个比它大的平均数比较,凡差数差异不显著的在字母a的右边加标字母b。然后再以标b的最大平均数为标准与以下未曾标有字母的平均数比较,凡差数不显著的继续标以字母b,直至差异显著的平均数标以字母c,再与上面的平均数比较。如此重复进行,直至最小的平均数有了标记字母,并与上面的平均数比较后为止。这样各平均数间,凡有一个相同标记的字母即为差异不显著,凡具不同标记的字母即为差异显著。差异极显著标记方法同上,用大写字母标记。
梯形法是将各处理的平均数差数按梯形列于表中,并将这些差数进行比较。差数>LSD(LSR)0.05说明处理平均数间的差异达到显著水平,在差数的右上角标上“*”号;差数>LSD(LSR)0.01说明处理平均数间的差异达到极显著水平,在差数的右上角标上“**”号。差数< LSD(LSR)0.05,说明差异不显著。
第七章
相关系数的显著性检验
上述根据实际观测值计算得来的相关系数r是样本相关系数,它是双变量正态总体中的总体相关系数ρ的估计值。样本相关系数r是否来自ρ≠0的总体,还须对样本相关系数r 进行显著性检验。 此 时 无 效 假 设、备 择 假 设 为HO:ρ=0,HA:ρ≠0。 与直线回归关系显著性检验一样,可采用t检验法与F检验法对相关系数r的显著性进行检验。
1.回归分析:用来研究呈因果关系的相关变量间的关系的统计分析方法,其中表示原因的变量为自变量,表示结果的变量为因变量。
2.回归截距是当自变量为零时,因变量的取值,即回归线在y轴上的截距;
3.回归系数是回归直线的斜率,其含义是自变量改变一个单位,因变量y平均增加或减少的单位数。
4.相关分析:相关分析是用来研究呈平行关系的相关变量之间的关系的统计方法。
5.相关系数表示变量x与变量y相关的程度和性质,
6.决定系数是相关系数的平方,表示变量x引起y变异的回归平方和和占y变异总平方和的比率,它只能表示相关的程度而不能表示相关的性质。
第八章
对于同一组实测数据,根据散点图的形状,可用若干相近的曲线拟合,同时建立若干曲线回归方程,然后根据R2的大小和生物学等相关专业知识,选择即符合生物学规律,拟合度又较高的曲线回归方程来描述两个变量间的曲线回归关系
第九章
1.抽样调查中必须考虑的重点问题:抽样误差,样本容量以及抽样方法
2.生物学领域常用的抽样方法:随机抽样,顺序抽样,典型抽样
3.平均数资料样本容量的确定:
样本容量的确定
第十章
1.区间实验:在田间条件下对作物品种选育及遗传规律与栽培技术等方面进行的试验。2.真值:一定时刻,一定位置,一定状态下某量得程度所体现出来的客观值或实际值。
3.准确度:指在实验中某一实验指标或性状的观测值接近的程度。
4.精确度:指在实验中同一实验指标或性状的重复观测值很大接近的程度。
5.因素:也叫供试因子,在试验中所研究的对试验指标有影响的各种技术措施。例如:品种、密度
6.水平:试验因素的质的不同状态或量得不同等级(因素内划分的不同等级)
7.处理:实际参加试验的试验因素水平或不同因素的实验水平组合。在单因素试验中指各个因素的试验的水平。在所有因素试验中指不同因素水平的组合。
8试验设计三个基本要素:包括处理因素、受试对象和处理效应
9.田间试验的类型:
一)按试验研究内容划分:品种、栽培、土壤肥料、病虫害防治
二)按试验因素划分:单因素试验、多因素试验、综合性试验
单因素试验:指在整个试验中只重复比较一个试验因素不同水平,其他作为试验条件的因素均应该严格控制一致的试验。
多因素试验:指同一试验中包含两个或两个以上的试验因素,各因素又分为不同水平,其他试验条件均应该严格控制一致的试验。
综合性试验:是在较大面积上运用成套的生产栽培技术措施,从中探索高产、稳产、低成本、综合栽培技术的效应
三)按试验小区大小划分:小区试验、大区试验
小区:在田间试验中,安排一个处理的小块地段称为试验小区。
区组:将全部处理分配于具有相对同质的一块土地上,称为一个区组,包括完全区组和不完全区组。
10.试验方案:按试验目的要求所拟定的进行比较的一组试验处理的总称。
11.试验指标:试验中用来衡量各种处理效果的好坏的指标,如产品的产量、品质。通常指作物产量经济性状,包括定性指标和定量指标。
定量指标:可以直接用来表示数量的指标。
定性指标:不能直接用数量来表示,只能定性描述的指标。
12.均衡方案:方案内包含有全部的处理组的方案称为均衡方案;方案内只有部分处理组的方案则称为非均衡方案。
13.对照:用来与试验处理进行比较的处理。
14.唯一差异原则:指除处理以外,其他条件应该完全一致。
15.试验效应:试验因素的独立作用,即因素对试验指标所起的增加或减少的作用。
16.简单效应:同一因素不同水平之间试验效应的差异。
17.平均效应:(主效应):同一因素内各个简单效应的平均数。
18.互作(交互作用):两个或两个以上因素相互作用所引起的效应或两个因素简单效应间的差异。
19.三原则:重复、随机和局部控制
1) 重复:同一处理所放置的试验单元数,即同一处理种植的小区数
2) 随机:每一重复的每一处理都有同等的机会放在任何一个试验小区上。
3) 局部控制:将整个试验空间分成若干个各自相对均匀的局部(区组)
20.生物试验基本要求:
1)试验目的要明确
2)试验条件要有代表性
3)试验结果要可靠
4)试验结果要能重演
21.试验误差:试验中观测值与理论值之间的偏差,包括粗大误差、系统误差、随机误差。
粗大误差:由不正确的操作所引起的误差。
系统误差:由试验仪器、条件、设备、工具等原因所照成的各个观测值具有一定规律性变化的误差。
随机误差:由多种偶然的无法控制的因素所引起的误差。
试验误差来源:1)实验材料固有的差异2)试验条件不一致3)操作技术不一4)偶然性因素影响
控制试验误差的途径:1)选择纯合一致的试验材料2)改进操作管理制度,使之标准化
3)精心选择试验单位4)采用合理的实验设计和统计分析
22.边际效应:小区两边或两端的植株因有较大的空间而表现出的生长优势
23.生长竞争:由于相邻小区所加处理不同(如种植不同作物或施肥水平不同)造成边行植物与中间植株生长发育不一致的现象。
24.保护行:为了使试验在较为均匀的环境下安全进行,在试验地周围种植同种作物品种的保护地段。
25.完全区组:重复和区组数目相等,每一区组或重复都安排全套处理
26.不完全区组:一个重复安排在几个区组上,每个区组只安排部分处理
27.主区:按照处理划分的小区。 副区:主区内按各副区划分的小区。
28.试验设计:试验设计包括广义的试验设计和狭义的试验设计。广义的试验设计是指整个研究课题的设计,包括试验方案的拟订,试验单位的选择,分组的排列,试验过程中试验指标的观察记载,试验资料的整理,分析等内容;而狭义的试验设计则仅是指试验单位的选择,分组与排列方法。生物统计学中的试验设计主要指狭义的试验设计。
29.名词解释:处理、处理效应、主效应、互作
处理:是指对受试对象给予的某种外部干预,是试验中实施的因子水平的一个组合,又称为处理因素。
处理因素:是指处理因素作用于受试对象的反应,是研究结果的最终体现。
主效应:是指由于因素水平的改变而造成因素效应的改变。
互作:是指两个或两个以上处理因素间的相互作用产生的效应。
实验设计的基本原则和作用
常用的试验设计的方法:1、对比设计2、随机区组设计3、裂区组设计4、正交设计
分析步骤:
3、试验结论分析:对邻近CK的百分数越高(大于100%),就越可能优于对照,但绝不能认为超过100%的所有处理都显著地优于对照,因为将处理与相邻CK相比只是减少了误差,实际误差仍然存在,要 判断某个处理确实优于对照,一般至少要超过对照10%;凡仅超过对照5%的,均宜继续试验再做结论。
该判断方法由于不同试验的误差大小不同,仅是一种参考
随机区组设计及其统计分析:
设计方法:
1、将试验单位按性质不同分成与重复数一样多的区组;
2、每个区组内非试验相对一致,并随机排列一套试验处理;
3、不同区组间非试验因素允许有所不同,将不同重复也随机排列于各个区组
4、最终使区组内非试验因素差异最小,而区组间非试验因素差异最大,每个区组均包括全部处理
5、统计分析采用方差分析,将区组间误差分解出来,从而降低试验误差,提高试验精度
单因素随机区组: 把区组看作一个因素,和试验因素一起当作二因素试验,按照二因素无重复观察值的方差分析进行,主要做区组间、处理间和试验误差3个方面的方差分析
二因素随机区组:
裂区设计及其统计分析:
统计分析采用方差分析:
区组间、A因素、B因素、AB互作、主区误差和副区误差的方差分析
正交设计及其统计分析:
正交表:正交设计法中合理安排实验,并对数据进行统计分析的一种特殊表格。
正交设计的基本步骤:
(1)明确试验目的,确定试验指标
(2)挑选因素,选取水平,列出因素水平表
(3)选用正交表,进行表头设计
根据试验因素、水平数和是否需要估计因素间的相互作用来选择合适正交表。原则:能安排下全部试验因素,又要使部分试验的水平组合尽可能小。
各因素的水平数减1之和加1,即为所需的最少试验次数或处理组合数,若因素间有交互作用,需要再加上交互的作用的自由度。
· 表头设计就是将试验因素安排到所选正交表相应的列中。
表头设计原则:1、不要让主效应间,主效应与交互作用间有混杂现象;2、存在交互作用,查交互作用表
(4)明确试验方案,进行试验,得到以试验指标形式表示的试验结果。
(5)对试验结果进行统计分析
通常采用两种方法:直观分析法、方差分析法。通过试验结果分析,可以得到因素主次顺序、最佳水平组等有用信息。
(6)进行验证试验,做进一步分析。
一.名词
1. 样本:从总体中抽出的若干个体所构成的集合称为样本。
2. 统计数:描述样本特征的数量
3. 效应:由因素而引起试验差异的作用
4. 互作:两个或两个以上处理因素间的相互作用产生的效应
5. 变量:相同性质的事物间表现差异性的某项特征。按其性质分为连续变量和非连续变量。变量可以是定量的,也可以是定性的。
6. 连续变量:表示在变量范围内可抽出某一范围的所有值
7. 非连续变量:也称离散型变量,表示在变量数列中,仅能取得固定数值,并且通常是整数。
8. 常数:是不能给予不同数值的变量,它代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。
9. 误差:是试验中不可控因素所引起的观测值偏离真值的差异
10. 错误:是指在试验过程中,人为因素所引起的差错。
11. 准确性:在调查或试验中某一试验指标或性状的观测值与真实值接近程度
12. 精确性:指调查或试验中同一试验指标或性状的重复观测值彼此接近程度的大小。
13.总体:指具有相同性质的个体所组成的集合称为总体。
14.连续变量:表示在不变量范围内可抽出某一范围的所有值。
15. 非连续变量:也称为离散型变量,表示在变量数列中,仅能取得固定数值,并且通常是整数。
16. 准确性:指在调查或实验中某一试验指标或形状的观测值与真值接近的程度。
17.精确性:指调查或实验中同一试验指标或形状的重复观测值彼此接近程度大小。
18. 资料:指在一定条件下,在生物学实验和调查中,能够获得大量原始数据,对某种具体事务或现象观察的结果。
19.数量性状资料:指一般是由计数和测量或度量得到的。
20. 质量性状资料:是指对某种现象只能观察而不能测量的资料,也称属性资料。
21.计数资料;指由计数得到的数据。
22.计量资料:有测量或度量得到的数据。
23. 普查:指对研究对象的每一个个体都进行测量或度量的一种全面调查。
24.抽样调查:是一种非全面调查,它是根据一定的原则对研究对象抽取一部分个体进行测量或度量,把得到抽样调查的数据资料作为样本进行统计处理,然后利用样本特征数对总体进行推断。
25. 全距(极差) :是指样本数据资料中最大观测值与最小观测值的差值。组中值:是指两个组限下线和上限的中间值。
26. 算数平均数:是指总体或样本资料中哥哥给观测值的总和除以观测值的个数所得的商。
特性:(1)样本中各观测值与平均数之差-离均差-的总和等于零
(2)样本中各观测值与其平均数之差平方的总和,比各观测值与任一数值离均差的平方和小,即离均差平方和最小
27.中位数:是指将试验或调查资料中所有观测值以大小顺序排列,居中位置的观测值。
28. 众数:资料中出现次数最多的那个观测值或次数最多一组的中点值。
29. 几何平均数:指资料中有几个观测值,其乘积开几次方所得的数值。
30. 方差:指用样本容量 n 来除离均差平方和,得到平均的平方和。
31. 标准差:指方差的平方根和。
32. 变异系数:指将样本标准差除以样本平均数得出的百分比。
33. 概率:指某事件 A 在 n 次重复试验中,发生了几次,当试验次数 n 不断增大时,事件 A 发生的频率W(A) 概率 就越来越接近某一确定值 P,于是则定 P 为事件 A 发生的概率.
34. 概率加法定理: 指互斥事件 A 和 B 的和事件的概率等于事件 A 和事件 B 的概率之和,P(A+B)=P(A)+P(B)。
35. 概率乘法定理:指事件 A 和事件 B 为独立事件,则事件 A 与 B 同时发生的概率等于事件 A和事件 B 各自概率乘法定理的乘积,即:P(A*B)=P(A)*P(B)。
36. 伯努利大数定律:设 M 是 n 次独立试验中事件 A 出现的次数,而不是事件 A 在每次试验中出现的概率,则对于任意小的正数ε ,有如下关系:limp{m/n-p< ε }=1
37. 辛钦大数定律:是用来说明为什么可以用算术平均数来推断总体平均数 m 的。
38. 统计推断:指从样本的统计数对总体参数做出的推断,包括参数估计和假设检验。
39. 假设检验:指根据总体理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后有样本的实际结果,经过一定的计算,做出在一定概率意义上应该接受的那种假设的推断。
40. 参数估计:指由样本结果对总体参数在一定概率水平下所作出的估计。
点估计是用样本统计量直接给出总体相应参数的估计值,由于抽样误差存在,X拔不同的样本将会得到不同的点估计值,点估计缺乏明确的精度概念,而区间估计在一定程度上可以弥补这个不足
41. 小概率原理:指如果假设一些条件,并在假设的条件下能够准确地算出事件 A 出现的概率 a 为很小,则在假设条件下的 n 次独立重复试验中时按预定的概率发生,而在有一次试验中则几乎不可能独立。
42.显著水平:指在无效假设和备择假设后,要确定一个否定 H0 的概率标准,这个概率称为显著水平。
43. 方差同质性:就是指各个总体的方差是相同的。
44. α 错误 :H0 是真实的,假设检验却否定了它,就烦了一个否定真实假设的错误,称为α 错误。
45. β 错误:指如果H0 不是真实的,假设检验时却接受了 H0,否定了 HA 这样就犯了接受不真实假设的错误,称为 β 错误。
46. 适合性检验:指比较观测值与理论值是否符合的假设检验交适合性检验。
47. 独立性检验:指研究两个或两个以上因子彼此之间是相互独立的还是相互影响的一类统计方法。
48. 相关分析:是研究现象之间是否存在某种依存关系, 并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量间的相关关系的一种统计方法。
49. 回归分析:是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。
50. 回归系数:y^=a+bx,自变量 x 改变一个单位,依变量 y 平均增加或减少的单位数,即回归直线的斜率 b。
51. 回归截距:y^=a+bx,a 是当 x=0 时的 Y^值,即直线在 y 轴上的截距,称为回归截距。
52. 离回归平方和:它反映除去 x 与 y 相关程度和性质的统计数。
53. 回归平方和:它反映在 y 的总体变异种由于 x 与 y 的直线关系而产生 y 变异减小的部分。
54. 相关系数:是指通过计算表示 x 和 y相关程度和性质的统计数。
55. 决定系数:是变量 x 引起 y 变异的回归平方和与 y 变异总平方和的比率。
56. 转换:指估计总体相关系数 p 的置信区间时,需要将 r 转换成 z。
57. 试验设计:广义的指整个研究课题的设计,包括实验方案的拟订,试验方案的拟订,试验单位的选择,分组的排列,实验过程中试验指标的现象记载,试验资料的整理,分析等内容。
58. 试验结果重演:是指在相同的条件下,在进行实验或实践,应能重复获得与原试验结果相近的结果。
59. 处理因素:一般指对受试对象给予的某种外部干预。
60. 主效应:多因素中试验中引起实验结果发生变化的主要。
61. 互作:因素之间的交互作用。
62. 受试对象:是处理因素的客体,实际上就是根据研究目的而确立的观测总体。
63. 处理效应:是处理因素作用于受试对象的反应,是研究最终体现
64. 误差:在试验中受偶然影响或者说非处理因素影响使观测值偏离试验处理真值的差异。
65. 随机误差:由于试验中许多无法控制的偶然因素所造成的试验结果与真实结果之间产生的误差。
66. 系统误差:由于试验处理以外的其他条件明显不一致所产生的带有倾向性或定向性的偏差
67. 重复:在试验中,同一处理设置的试验单位数。
68. 随机:是指一个重复的某一处理或处理组合被安排在哪一个试验单位,不要有主观成见。
69. 均积:是 x 与 y 的平均的离均差的乘积和,简称均积。
70. 协方差:与均积相应的总体参数。
71. 协方差分析:把回归分析与方差分析结合。
72. 试验控制:要提高试验的精确度和灵敏度,必须严格控制试验条件的均匀性,使各处里处于尽可能一致的条件下。
73. 统计控制:是试验控制的一种辅助手段,是用统计方法来矫正因自变量的不同而对依变量所产生的影响。
74. 估计量:估计总体参数的统计量
75. 无偏估计量:如果一个统计量的理论平均数(即数学期望)等于总体参数,这个统计量就叫无偏估计量
76. 矩估计:用样本矩作为总体矩的估计值
77. 矩估计法(数字特征法、矩法)用样本矩作为相应总体矩的估计量,也可以用样本数字特征作为相应的总体数字特征的估计量。用矩法获得的估计值,叫据估计值。据发的思想实质是用样本去替换总体矩的原则,称之为替换原则
78. 有效估计量:设a1,a2是A的两个无偏估计量,若var(a1)<var(a2),则a1为有效估计量
79. 抽样误差:由抽样引起的样本值与总体值之间的差异成为抽样误差,直接原因:总体中各个体之间存在差异,或重复试验中一些服从某种分布的偶然误差的存在
80. 标注误差(标准误):描述样本平均数波动情况的统计量,就是X拔的方差或标准差,计均数抽样误差为西格玛X拔,=西格玛/根号n,西格玛X拔就是标准误(差)
81. 估计样本平均数方差:SX拔平方,=S平方/n
82. 估计标准误:SX拔,=S/根号n
83. 置信区间:达到某一置信度(如95%)时,预报量可能出现的范围(如E(y)±1.96西格玛,这里西格玛是标准差)
置信区间的意义是:反复抽样多次,每次的样本容量相等,每次的样本值确定一个区间[a1,a2],这个区间包含a的概率是100(1-阿尔法)%,不包含a的概率是100阿尔法%
84. 置信水平(置信度,置信系数,可靠度)是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。
85. 拟合优度检验:对总体分布类型的检验,包括检验观测数与理论书之间的一致性,通过检验观测数与理论书之间的一致性来判断事件之间的独立性
86. 皮尔逊定理:若n充分大,则不论总体服从什么分布,卡平方总是近似服从自由度为m-a-1的卡平方分布
87. 方差分析:能同时判断多组数据平均数之间的差异显著性,能把随机变异从混杂状态中分离开来,从而为判断因素对实验结果有无确实的影响提供依据
88. 方差分析的前提条件:等方差,正态性、独立性
89. 固定因素:若因素的a个水平是经过特意选择的,则该因素为固定因素。发差分析所得到的结论只适合于选定的几个水平,并不能将其结论扩展到未加考虑的水平上
90. 固定效应模型:处理固定因素所用的模型称为固定效应模型或固定模型
91. 随机因素:若因素的a个水平,是从该因素水平总体中随机抽出的样本,则该因素称为随机因素,从随机因素a个水平所得到的结论,可以推广到这个因素的所有水平上
92.处理随机因素所用的模型称为随机效应模型
93. 多重比较:对各对均值之间的差异的显著性检验
94.LSD法在统计推断时犯第一类错误的概率大,而Duncan法犯第一类错误的概率小。
95. 多个方差齐性检验(bartlett检验,巴特氏卡平方检验):当a个随机样本是从独立正态总体中抽取时,可以计算出统计量K平方,当n=min(nj)充分大时,K平方的抽样分布非常接近于a-1自由度的卡方分布。由此可对多个总体进行卡平方检验。
96.两因素之间交互作用产生新效应的现象为交互作用
97.由因素水平的改变而造成的因素效应的改变称为该因素的主效应
98. 交叉分组设计:假设A药物有a水平,B药物有b水平,共有ab个剂量组合,每一组重复n次。共有abn名病人参加实验,这样的实验设计称为交叉分组设计
99. 相关:设有两个随机变量 X和Y,对于任一随机变量的每一个可能的值,另一个随机变量都有一个确定的分布与之相对应,则称这两个随机变量之间存在相关关系
100. 如果变量之间的关系可以用函数关系来表达,就称它们之间的关系为确定性关系
101.回归关系、相关关系:统计学上把变量之间的非确定性关系称为相关关系,也成为回归关系
102. 如果对于一个普通变量x的每一个可能的值xj都有随机变量Y的一个分布与之对应,则称随见变量Y的一个分布与之对应,则称随机变量Y对x存在回归关系
103. 具有回归关系的两变量之间对于任一xi都不会有一个确切的yi与之对应,但为了描述两变量之间的数量关系,可选当x=xi时Y的平均数谬角标Y乘X=xi与之相对应,则称谬角标Y乘X是Y的条件平均数
104. Y1,y2…yn这n个数据的离差平方和,记作SYY,称为总离差平方和,反映了n个yi折的离散程度
100.回归平方和(y折-y拔)平方求和,几座SSR。是n个yi折的离差平方和,反映了n个yi折的离散程度
101.剩余平方和(残差平方和)(yi-yi拔)平方求和,记作SSe,是除了x对Y的线性影响之外的其他剩余因素造成的平方和,这些因素中包括x对Y的非线性影响及试验误差,观察误差等随机因素
102.相关分析是对两个或两个以上随见变量之间相互关联程度进行分析的统计学方法
103.存在于两个随机变量之间的相关关系称为简单相关或单相关,存在于三个或三个以上变量之间的相关关系为多重相关或复相关
在一元回归中,回归的显著程度,可以用相关系数来表示,同样,在多元回归问题中,回归的显著程度可以用复相关系数表示
104.统计学上把衡量变量之间关系密切程度的统计量称为相关系数
105.消除了其他变量的影响后两个变量之间的相关关系称为偏相关(纯相关)。为了反映两变量间的真正关系,就要保证在其他变量都保持不变的情况下,计算它们的相关系数,这时的相关系数称为偏相关系数或纯相关系数
106.样本平均数作为总体平均数估计值的优良:无偏(均值等于总体平均数)、有效(方差小雨其他估计值)、一致性(总体平均数为极限值)
107.概率论中有关论证随机变量的和的分布服从正态分布的一类定理称为中心极限定理
108.若X为一随机变量,则F(x)=P(X<=x)为X的分布函数
二.问答题
1.什么是准确性,精确性?如何提高试验的正确性?
答:准确性:在试验或调查中某一试验指标或性状的观测值与其真值接近的程度。
精确性:在试验或调查中同一试验指标或性状的重复观测值彼此接近的程度。
应严格按照实验或调查计划进行,准确的进行观测记载,避免人为差错,特别要注意试验条件一致性,即除所研究的各个处理外,供试动物的初始条件(品种,性别,年龄,健康状况,饲养条件,管理措施)应尽量控制一致。
2.什么是随机误差,系统误差?如何控制,降低随机误差,避免系统误差?
答:系统误差:由于试验动物的初始条件未控制相同所引起。
随机误差:由于许多无法控制的内在和外在的偶然因素所造成。
年龄,初始重,健康状况保持一致,饲料种类,品质,饲养条件控制相同,测量仪器准确,标准试剂校正好,观测,记载,抄录,计算精确,总之工作要做的精细。
3.生物统计的定义?统计分析的两个特点?
答:生物统计:数理统计的原理和方法在生物科学研究中的应用,是一门应用数学;
指研究生生命现象过程中用样本推断整体的一门学科。
特点:(1)样本推断总体;(2)包含一定的错误率。
4.为什么要对资料进行整理?检查与核对的目的是什么?应注意什么?
答:因为只有通过整理才能发现其内部联系和规律性,从而揭示事物的本质。
目的:确保原始资料的完整性和正确性。
注意:对于重复,异常或遗漏的数据,应予以删除或补齐;对错误,相互矛盾的数据应进行更正,必要时进行复查或重新实验。
5.对于计量资料,整理的基本步骤怎样?应注意什么?
答:(1)求全距;
(2)确定组数:
(3)确定组距;
(4)确定组限及组中值;
(5)归组画线计数,做次数分布表。
注意:a.为了使恰好等于前一组上限和后一组下限的观测值能确切归组,约定将其归入后一组。通常将上限略去不写。
b.若出现有羊66.1头则再多分出一组来写它。
6.在对计量资料整理时,为什么第一组的组中值已接近或等于资料中的最小值为好?
答:为了避免第一组中观测值过多。
7.生物统计中常用的平均数有哪五种?变异数有那四种?
答:算术平均数,几何平均数,调和平均数,中位数,众数。
样本方差,总体方差,样本标准差,总体标准差。
8.什么是算术平均数?算术平均数有哪两个基本性质?
答:资料中各观测值的总和除以观测值个数所得的商。
(1)样本各观测值与平均数之差的和为零,简述离均差之和为零;
(2)样本各观测值与平均数之差的平方和为最小,简述为离均差平方和为最小。
9.事件的概率具有哪些性质?
答:(1)对于任何事件A,有0≤P(A)≤1;
(2)必然事件的概率为1,即P(Ω)=1;
(3)不可能事件的概率为0,即P(Φ)=0;
(4)随机事件的概率为0<P(A)<1.
10.什么是古典概型?一般随机试验的三个特性是什么?
答:(1)试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个;
(2)各个试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的;
(3)实验的所有可能结果两两互不相容。
具有以上特征的随机试验,称为古典概型。
11.样本标准差与样本标准误有什么关系?
答:样本标准误S是样本平均数抽样误差的估计值。S=
12.什么是标准正态分布?正态分布的特征?
答:把平均数μ=0,方差σ2=1的正态分布。
(1)正态分布密度曲线是单峰,对称的悬钟形曲线,对称轴x=μ;
(2)f(x)在x=μ处达到极大,极大值f(μ)=;
(3)f(x)是非负函数,以x轴为渐近线,分布从-∞至+∞;
(4)曲线在x=μ±σ处各有一个拐点,即曲线在(-∞,μ-σ)和(μ+σ,+∞)区间上是下凸的,在【μ-σ,μ+σ】区间上是上凸的;
(5)正态分布有两个参数,即平均数μ和标准差σ。μ是位置参数,当σ恒定时,μ愈大,曲线沿x轴愈向右移动;反之,μ愈小,曲线沿曲线沿x轴愈向左移动;σ是变异度参数,当μ恒定时,σ愈大,表示x的取值愈分散,曲线愈胖;σ愈小,x取值愈集中在μ附近,曲线愈瘦。
(6)分布密度曲线与横轴构成的曲边三角形的面积为1.
13.已知随机变量X服从二项分布B(10,0.6)求μ及σ,并求P(2≤X≤6)P(X≥7)P(X<3)。
答:x~B(10,0.6),n=10,p=0.6,x=k
P(m1≤x≤m2)==0.616
P(x≥m)==0.382
P(x≤m)==0.012
14.已知随机变量X服从波松分布P(4),求P(X=1),P(X=2),P(X≥4)。
答:x~p(4),μ=σ2=λ=4 p(x=k)=
P(X=1)=0.0733,P(X=2)=0.1465,P(X≥4)=o.5665
15.样本平均数抽样分布的两个定理?t分布有哪些特点?
答:(1)若随机变量x服从正态分布N(μ,σ2),x1,x2,…,xn是由x总体得来的随机样本,则统计数=的概率分布也是正态分布,且有μ=μ,σ=σ/,即服从正态分布N(μ, σ2/)。
(2)若随机变量x服从平均数是μ,方差是σ2的分布,x1,x2,…,xn是由此总体的来的随机样本,则统计量=的概率分布,当n相当大时逼近正态分布N(μ, σ2/)。这就是中心极限定律。
特点:(1)t分布受自由度的制约,每一个自由度都有一条t分布密度曲线;
(2)t分布密度曲线以纵轴为对称轴,左右对称,且在t=0时,分布密度函数取得最大值;
(3)与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。df越小这种趋势越明显。df越大,t分布越趋近于标准正态分布。当n>30时,t分布与标准正态分布区别很小;n>100时,t分布基本与标准正态分布相同;n→∞时,t分布与标准正态分布完全一致。
16.什么是统计假设?统计假设有哪几种?各有何含义?
答:对试验样本所在总体作假设。
无效假设:试验的真实差异μ1-μ2=0试验的表面差异属试验误差;
备择假设:试验的表面差异1-2除包含试验误差外,还含有试验的真实差异。
17.假设检验的基本思想?步骤是什么?
答:可从试验得表面差异与试验误差的权衡比较中间接地推断试验的真实差异是否存在。
(1)首先对试验样本所在总体作假设;
(2)在无效假设成立的前提下,构造合适的统计数,并研究试验所的统计数的抽样分布,计算无效假设正确的概率;
(3)根据“小概率事件实际不可能性原理”否定或接受无效假设。
18.为什么分析试验结果时要进行假设检验?检验的目的是什么?
答:因为样本平均数的差既包含试验的真实差异,又包含试验误差,它只是试验的表面差异,仅凭试验的表面差异就对总体平均数是否相同下结论不可靠。表面差异=真是差异+试验误差
目的:分析试验的表面差异主要由试验的真实差异引起的,还是主要由试验误差所造成的。
19.什么是非配对设计,配对设计?有何不同?
答:非配对设计:当进行有两个处理的试验时,将试验单位随机分成两组,然后对两组随机实施一个处理。
配对设计:先根据配对的要求将试验单位两两配对,然后将配成对子的两个试验单位随机分配到两个处理组中。
不同点:非配对设计两组的试验单位相互独立,所得的两个样本相互独立,其含量不一定相等;配对设计要求配成对子的两个试验单位的初始条件尽量一致,不同对子间试验单位的初始条件允许有差异,每一个对子就是试验处理的一个重复。
20.什么是方差分析?进行方差分析的基本步骤?
答:将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及其自由度分解为相应于不同变异来源的平方和及其自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差的估计值的适当比值,就能检验各样本所属总体平均数是否相同。
(1)计算各项平方和与自由度;
(2)列出方差分析表,进行F检验;
(3)多重比较。
21.方差分析的基本假定是什么?不满足假定的资料应如何处理?
答:效应的可加性,分布的正态性,方差的同质性。
(1)如果在方差分析前发现有某些异常的观测值,处理或单位组,只要不属于实验处理的原因,应加以删除;
(2)将全部试验划分为几个方差为同质的部分,对各部分分别进行方差分析;
(3)有时方差出现异质性是因为资料中的数据太少了,这就需要增加样本含量;
(4)对不同特性的数据采用不同的转换方法,对转换后的数据进行方差分析。
22.什么是多重比较?多重比较有哪些方法?LSD法的基本步骤?如何推断有无差异?
答:统计学上把多个平均数两两间的相互比较。最小显著差数法LSD和最小显著级差法LSR
LSD(1)列出平均数多重比较表,比较表中各处理按其平均数从大到小自上而下排列;
(2)计算最小显著差数LSD0.05和LSD0.01;
(3)将平均数多重比较表中两两平均数的差数与LSD0.05和LSD0.01比较,作出统计推断。
1. <LSD0.05者为不显著,在差数的右上方标记“ns”;
2.介于LSD0.05和LSD0.01之间者为显著,在差数的右上方标记“*”;
3. >LSD0.01者为极显著,在差数的右上方标记“**”。
23.为什么要做数据转换?常用的方法有哪些?各在什么条件下使用?转换的原则是什么?
答:利用某种数据转换,使得转换后的数据具有方差同质性,而非正态性的缺陷也同时得到改善。(平方根转换,对数转换,反正弦转换,倒数转换)
原则:哪种方法能是处理平均数与其均方的相关性最小或各处理内均方间的变异降至最小,哪种方法就是最合适的转移方法。
24.什么情况下X2检验需做矫正?如何矫正?什么情况下要合并?应注意什么?
答:当自由度为1的时候;;若某组的理论次数小于5,则应把它与其相邻的一组或者几组合并,直到合并组的理论次数大于5为止;注意在分割χ2是不用矫正。
25.什么情况下作X2分割?应注意什么?
答:当实际观察次数与理论次数经χ2检验差异显著或极显著时,进行分割;
注意:1.;2.df=df1+df2;
26.独立性检验与适合性检验有什么不同?
答:1.适合性检验的次数资料只按某一因子的属性类别。独立性检验的次数资料是按两因子属性类别进行归组而获得;
2.适合性检验按已知的属性分类理论或学说计算理论次数。独立性检验在计算理论次数时没有现成的理论或学说可以利用,理论次数是在两因子相互独立的假设下计算;
3.在适合性检验中确定自由度时,只有1个约束条件:个理论次数之和等于各实际次数之和,自由度为属性类别-1在独立性检验时自由度为(r-1)(c-1)。
27.什么是动物试验?动物试验有哪些要求?为什么要遵循?
答:一动物作为试验对象所进行的试验统称为动物实验;(代表性,正确性,重演性);
因为保证试验质量,尽可能控制和排除非实验因素的干扰,准确的进行试验和观测记载,提高试验的可靠程度,使试验结果在推动动物科学和生产的发展上真正发挥作用。
28.什么是试验误差?来源?举例说明。如何避免和降低误差?
答:观测值与真值的差异,这种差异在数值上的表现称为试验误差;
来源:1.试验动物之间的差异;
2.自然环境的差异;
3.饲养管理条件的差异;
4.饲养管理的差异;
5.由一些随机因素引起的偶然差异。
29.试验设计应遵循那三条基本原则?为什么要遵循?
答:重复,随机,局部控制,平衡性。
30.常用的试验设计方法有哪些?各适用于什么情况?
答:完全随机设计:1.设计容易:处理数与重复数都不受限制,适用于实验条件,环境,试验动物差异较小的试验;2.统计分析简单:无论所获得的试验资料个处理重复数相同与否,都可采用T检验或方法分析法进行统计分析。
随机单位组设计 :处理数以不超过20为宜。体现了实验设计三原则,在对试验结果进行分析时,能将单位组间的变异从试验误差中分离出来。有效降低了试验误差,因而试验的精确性高;把条件一致的供试动物分在同一单位组,再将同一单位组的供试动物随机分配到不同处理组内,加大了处理组之间的可比性。
拉丁方设计:试验处理数=横行单位组数=直列单位组数=试验处理的重复数。精确度高,试验结果的分析简便。一般适用于5-8个处理的试验设计。
31.什么是试验方案?如何拟定一个合理的试验方案?什么是唯一差异原则?
答:根据试验目的要求所拟定的进行比较的一组试验处理的总称。
1.根据试验的目的,任务和条件挑选试验因素。
2.根据各试验因素的性质确定因素的水平;
3.试验方案中必须设置作为比较标准的对照;
4.试验处理之间应遵循唯一差异原则;
5.有的试验要设置预试期。
指除了试验处理不同外,其他所有条件应当相同,以保证试验处理具有可比性。
32.一个完整的实验研究分为那六个阶段?
答:1.目的 2.查阅文献:全面 3.起草实验设计; 4.实施; 5.数据整理与分析; 6.发表成果,论文,专利
33.什么是预试期?为什么要设预试期?有什么要求?
答:指在正是试验开始之前根据试验设计进行的过渡试验,为正式试验做好准备。
通过预试,使供试动物适应试验环境,对不合适的的试验动物进行调整和淘汰,同时也使试验人员熟悉操作方法和程序。
1.预试期供试动物的数量应适当多于正式试验所需的供试动物数量;
2.预试期的长短,可根据具体情况决定,一般以10-20d为宜。
34.常用的对照方法有哪些?
答:空白对照,互为对照,标准对照,试验对照,自身对照。
三.计算
(1)t检验
1. 提出无效假设和备择假设:
2. 计算t值:,df=n-1, S==
3. 统计推断
(2)F检验
1. 计算各项平方和与自由度
矫正数:../kn 总平方和:
处理平方和: 误差平方和:
总自由度: 处理自由度:
误差自由度:
2. 列出方差分析表,进行F检验
变异来源 | 平方和SS | 自由度df | 均方MS | F值 |
品种间 |
|
|
|
|
误差 |
|
|
|
|
总变异 |
|
|
|
|
3. 统计推断
(3)检验
| 1 | 2 | 3 | **率 |
1 | A11(T11) | A12(T12) | T1.=A11+A12 | % |
2 | A21(T21) | A22(T22) | T2.=A21+A22 | % |
列合计T.j | T.1=A11+A21 | T.2=A12+A22 | 总合计T..=A11+A12+A21+A22 |
|
1.提出无效假设和备择假设
2.计算理论次数: **率:T.1/80=?
**组的理论**数:T11=T1.*?=
**组的理论未**数:T12=T1.*?=
未**组的理论**数:T21=T2.*?=
未**组的理论未**数:T11=T2.*?=
3.计算值 =;
4.统计推断
(4)
第一章
填空
1.变量按其性质可以分为(连续)变量和(非连续)变量。
2.样本统计数是总体(参数)的估计值。
3.生物统计学是研究生命过程中以样本来推断(总体)的一门学科。
4.生物统计学的基本内容包括(试验设计)和(统计分析)两大部分。
5.生物统计学的发展过程经历了(古典记录统计学)、(近代描述统计学)和(现代推断统计学)3个阶段。
6.生物学研究中,一般将样本容量(n≥30)称为大样本。
7.试验误差可以分为(随机误差)和(系统误差)两类。
判断
1.对于有限总体不必用统计推断方法。(×)
2.资料的精确性高,其准确性也一定高。(×)
3.在试验设计中,随机误差只能减小,而不能完全消除。(∨)
4.统计学上的试验误差,通常指随机误差。(∨)
第二章
填空
1.资料按生物的性状特征可分为(数量性状资料)变量和(质量性状资料)变量。
2. 直方图适合于表示(连续变量)资料的次数分布。
3.变量的分布具有两个明显基本特征,即(集中性)和(离散性)。
4.反映变量集中性的特征数是(平均数),反映变量离散性的特征数是(变异数)。
5.样本标准差的计算公式s=( )。
判断题
1. 计数资料也称连续性变量资料,计量资料也称非连续性变量资料。(×)
2. 条形图和多边形图均适合于表示计数资料的次数分布。(×)
3. 离均差平方和为最小。(∨)
4. 资料中出现最多的那个观测值或最多一组的中点值,称为众数。(∨)
5. 变异系数是样本变量的绝对变异量。(×)
单项选择
1. 下列变量中属于非连续性变量的是( C ).
A. 身高 B.体重 C.血型 D.血压
2. 对某鱼塘不同年龄鱼的尾数进行统计分析,可做成( A )图来表示.
A. 条形 B.直方 C.多边形 D.折线
3. 关于平均数,下列说法正确的是( B ).
A. 正态分布的算术平均数和几何平均数相等.
B. 正态分布的算术平均数和中位数相等.
C. 正态分布的中位数和几何平均数相等.
D. 正态分布的算术平均数、中位数、几何平均数均相等。
4. 如果对各观测值加上一个常数a,其标准差( D )。
A. 扩大√a倍 B.扩大a倍 C.扩大a2倍 D.不变
5. 比较大学生和幼儿园孩子身高的变异度,应采用的指标是(C )。
A. 标准差 B.方差 C.变异系数 D.平均数
第三章
填空
1.如果事件A和事件B为独立事件,则事件A与事件B同时发生的概率P(AB)= P(A)·P(B)。
2.二项分布的形状是由(n )和( p )两个参数决定的。
3.正态分布曲线上,(μ )确定曲线在x轴上的中心位置,( σ )确定曲线的展开程度。
4.样本平均数的标准误 =( )。
5.t分布曲线与正态分布曲线相比,顶部偏( 低 ),尾部偏( 高 )。
判断题
1.事件A的发生和事件B的发生毫无关系,则事件A和事件B为互斥事件。(×)
2.二项分布函数Cnxpxqn-x恰好是二项式(p+q)n展开式的第x项,故称二项分布。( × )
3.样本标准差s是总体标准差σ的无偏估计值。( × )
4.正态分布曲线形状和样本容量n值无关。( ∨ )
5.х2分布是随自由度变化的一组曲线。( ∨ )
单项选择题
1.一批种蛋的孵化率为80%,同时用2枚种蛋进行孵化,则至少有一枚能孵化出小鸡的概率为(A )。
A. 0.96 B. 0.64 C. 0.80 D. 0.90
2. 关于泊松分布参数λ错误的说法是( C ).
A. μ=λ B. σ2=λ C. σ=λ D.λ=np
3. 设x服从N(225,25),现以n=100抽样,其标准误为( B )。
A. 1.5 B. 0.5 C. 0.25 D. 2.25
4. 正态分布曲线由参数μ和σ决定, μ值相同时, σ取( D )时正态曲线展开程度最大,曲线最矮宽.
A. 0.5 B. 1 C. 2 D. 3
5. t分布、F分布的取值区间分别为(A )。
A. (-∞,+∞);[0,+∞) B. (-∞,+∞);(-∞,+∞)
C. [0,+∞);[0,+∞) D. [0,+∞);(-∞,+∞)
重要公式:
二项分布:
泊松分布:
正态分布:
名词解释: 概率;随机误差;α错误;β错误;统计推断;参数估计
第四章
一、填空
1.统计推断主要包括(假设检验)和(参数估计)两个方面。
2.参数估计包括(点)估计和(区间)估计。
3.假设检验首先要对总体提出假设,一般要作两个:(无效)假设和(备择)假设。
4.对一个大样本的平均数来说,一般将接受区和否定区的两个临界值写作()。
5.在频率的假设检验中,当np或nq(<)30时,需进行连续性矫正。
二、判断
1.作假设检验时,若|u|﹥uα,应该接受H0,否定HA。(F)
2.作单尾检验时,查u或t分布表(双尾)时,需将双尾概率乘以2再查表。(R)
3.第一类错误和第二类错误的区别是:第一类错误只有在接受H0时才会发生,第二类错误只有在否定H0时才会发生。(F)
4.当总体方差σ2未知时需要用t检验法进行假设检验。(F)
5.在假设检验中,对大样本(n≥30)用u检验,对小样本(n﹤30)用t检验。(F)
6.成对数据显著性检验的自由度等于2(n-1)。(F)
7.在进行区间估计时,α越小,则相应的置信区间越大。(R)
8.方差的同质性是指所有样本的方差都是相等的。(F)
9.在小样本资料中,成组数据和成对数据的假设检验都是采用t检验的方法。(R)
10.在同一显著水平下,双尾检验的临界正态离差大于单尾检验。(R)
三、单选
1.两样本平均数进行比较时,分别取以下检验水平,以(A)所对应的犯第二类错误的概率最小。
A.α=0.20 B.α=0.10 C.α=0.05D.α=0.01
2.当样本容量n﹤30且总体方差σ2未知时,平均数的检验方法是(A)。
A.t检验 B.u检验 C.F检验 D.χ2检验
3.两样本方差的同质性检验用(C)。
A.t检验 B.u检验 C.F检验 D.χ2检验
4.进行平均数的区间估计时,(B)。
A.n越大,区间越大,估计的精确性越小。
B.n越大,区间越小,估计的精确性越大。
C.σ越大,区间越大,估计的精确性越大。
D.σ越大,区间越小,估计的精确性越大。
5.已知某批25个小麦样本的平均蛋白含量 和σ,则其在95%置信信度下的蛋白质含量的点估计L=(D)。
A. ±u0.05σB. ±t0.05σ C. ±u0.05σ D. ±t0.05σ
第五章
一、填空
1.χ2检验主要有3种用途:一个样本方差的同质性检验、(适应性检验)和(独立性检验)。
2.χ2检验中,在自由度df=(1)时,需要进行连续性矫正,其矫正的χ2c=( )。
3.χ2分布是(连续型)资料的分布,其取值区间为( )。
4.猪的毛色受一对等位基因控制,检验两个纯合亲本的F2代性状分离比是否符合孟德尔第一遗传规律应采用(适应性检验)检验法。
5.独立性检验的形式有多种,常利用(列联表)进行检验。
6.χ2检验中检验统计量χ2值的计算公式为( )。
二、判断
1.χ2检验只适用于离散型资料的假设检验。(F)
2.χ2检验中进行2×c(c≥3)列联表的独立性检验时,不需要进行连续性矫正。(R)
3.对同一资料,进行矫正的χ2c值要比未矫正的χ2值小。(R)
4.χ2检验时,当χ2>χ2α时,否定H0,接受HA,说明差异达显著水平。(F)
5.比较观测值和理论值是否符合的假设检验成为独立性检验。(F)
三、单选
1.χ2检验时,如果实得χ2>χ2α,即表明(C)。
A.P﹤a,应接受H0,否定HA B.P﹥a,应接受H0,否定HA
C.P﹤a,应否定H0,接受HA D.P﹥a,应否定H0,接受HA
2.在遗传学上常用(B)来检验所得的结果是否符合性状分离规律。
A.独立性检验 B.适合性检验 C.方差分析 D.同质性检验
3.对于总合计数n为500的5个样本资料作χ2检验,其自由度为(D)。
A.499 B.496 C.1 D.4
4. r×c列联表的χ2检验的自由度为(B)。
A.(r-1)+(c-1) B.(r-1) (c-1) C.rc-1 D.rc-2
第六章
一、填空
1.根据对处理效应的不同假定,方差分析中的数学模型可以分为(固定模型)、(随机模型)和(混合模型)3类。
2.在进行两因素或多因素试验时,通常应设置(重复),以正确估计试验误差,研究因素间的交互作用。
3.在方差分析中,对缺失数据进行弥补2时,应使补上来数据后,(误差平方和)最小。
4.方差分析必须满足(正态性)、(可加性)和(方差同质性)3个基本假定。
5.如果样本资料不符合方差分析的基本假定,则需要对其进行数据转换,常用的数据转换方法有(平方根转换)、(对数转换)、(反正弦转换)等。
二、判断
1.LSD检验方法实质上就是t检验。(R)
2.二因素有重复观测值的数据资料可以分析两个因素间的互作效应。(R)
3.方差分析中的随机模型,在对某因素的主效进行检验时,其F值是以误差项方差为分母的。(F)
4.在方差分析中,如果没有区分因素的类型,可能会导致错误的结论。(R)
5.在方差分析中,对缺失数据进行弥补,所弥补的数据可以提供新的信息。(F)
6.对转换后的数据进行方差分析,若经检验差异显著,在进行平均数的多重比较时需要用转换后的数据进行计算。(R)
三、单选
1.方差分析计算时,可使用(A)种方法对数据进行初步整理。
A.全部数据均减去一个值 B.每一个处理减去一个值
C.每一处理减去该处理的平均数 D.全部数据均除以总平均数
2. 表示(C)。
A.组内平方和 B.组间平方和 C.总平方和D.总方差
3.在单因素方差分析中, 表示()。
A.组内平方和 B.组间平方和 C.总平方和D.总方差
联系客服