异常数据的剔除与遗失数据的弥补

在处理实验数据的时候，我们常常会遇到个别数据偏离预期或大量统计数据结果的情况，如果我们把这些数据和正常数据放在一起进行统计，可能会影响实验结果的正确性，如果把这些数据简单地剔除，又可能忽略了重要的实验信息。这里重要的问题是如何判断异常数据，然后将其剔除。判断和剔除异常数据是数据处理中的一项重要任务，目前的一些方法还不是十分完善，有待进一步研究和探索。

目前人们对异常数据的判别与剔除主要采用物理判别法和统计判别法两种方法。

所谓物理判别法就是根据人们对客观事物已有的认识，判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果，在实验过程中随时判断，随时剔除。

统计判别法是给定一个置信概率，并确定一个置信限，凡超过此限的误差，就认为它不属于随机误差范围，将其视为异常数据剔除。

第一节 拉依达准则

如果实验数据的总体x是服从正态分布的，则

式中，μ与σ分别表示正态总体的数学期望和标准差。此时，在实验数据中出现大于μ＋3σ或小于μ—3σ数据的概率是很小的。因此，根据上式对于大于μ＋3σ或小于μ—3σ的实验数据作为异常数据，予以剔除。

具体计算方法如下：

对于实验数据x₁, x₂, x₃,……，x_n，先计算其均值

（i=1,2,3,…n）

再计算残差

则标准差

如果某个测量值

的残差满足

则认为x_d为异常数据，予以剔除。

拉依达准则是最常用的异常数据判定与剔除准则。

第二节肖维勒准则

如果某个测量值

的残差满足

则

x_d被视为异常数据，予以剔除。上式中，w_n可查表得到。其中，残差v_d和标准差σ的计算方法同上。

第三节格拉布斯准则

对于服从正态分布的实验数据：

x₁, x₂, x₃,……，x_n，

将实验数据按值的大小排成顺序统计量：

x₍₁₎,≤x₍₂₎,≤ x₍₃₎,……≤x_(n)

格拉布斯导出了

的分布。取置信度α，可得T₀(n, α), 而

如果

则认为x_d为异常数据，应予剔除。

T₀(n, α)的值可查表得到。

T₀(n, α)值表

采用格拉布斯方法判定异常数据的过程如下：

1. 选定危险率α

α是一个较小的百分数，例如1%，2.5%，5%，它是采用格拉布斯方法判定异常数据出现误判的几率。

2. 计算T值

如果x₍₁₎是可疑数据，则令

如果x_(n)是可疑数据，则令

其中

3. 根据n及α，查表得到T₀(n, α)值

4. 如果T≥T₀(n, α),则所怀疑的数据是异常数据，应予剔除。如果T< T₀(n, α)，则所怀疑的数据不是异常数据，不能剔除。

采用此法判异常数据产生误判的几率为α。

第四节狄克逊准则

狄克逊准则是通过极差比判定和剔除异常数据。与一般比较简单极差的方法不同，该准则为了提高判断效率，对不同的实验量测定数应用不同的极差比进行计算。该准则认为异常数据应该是最大数据和最小数据，因此该其基本方法是将数据按大小排队，检验最大数据和最小数据是否异常数据。具体做法如下：

将实验数据x_i按值的大小排成顺序统计量

x₍₁₎,≤x₍₂₎,≤ x₍₃₎,……≤x_(n)

按表1-3-1计算f₀值，然后根据表1-3-1将f₀与f_(n,a)进行比较，如果

f₀ > f_(n,a)

则判定该数据为异常数据，予以剔除。

表1-3-1 狄克逊系数f_(n,a)与f₀的计算公式

第五节 t检验准则（罗马诺夫斯基准则）

t检验准则与狄克逊准则相似，也是检验最大实验数据和最小实验数据。首先将实验数据按大小排列

x₍₁₎,≤x₍₂₎,≤ x₍₃₎,……≤x_(n)

对最小数据和最大数据分别进行检验，如果

或

则x₍₁₎或x_(n)是异常数据，应予剔除。

式中

及

分别为不包括x₍₁₎及x_(n)的均值和标准差。即

t检验中的K(n,α)可查表得到。

第六节遗失数据的弥补

在一些情况下，每个实验点都是经过精心设计选择的，此时每个实验数据都是十分重要的。但是，如果不慎遗失了某些实验数据，或某些实验操作失误缺少了某些实验数据，该如何处理呢？当然最好的办法是补做这些实验。但是，本节要介绍的是一种特殊情况——实验数据遗失，而又无法补做实验时的处理方法，也就是如何用数学的方法来弥补遗失的实验数据。

这里方法主要有两种：

一、当实验数据有重复，并且每一批实验至少有一个数据没有遗失时，可以用未遗失的数据的平均值代替遗失的数据。

表1-3-2所示为一组实验数据，其中a和b为遗失的数据，现在我们来弥补这两个数据：

表1-3-2 有重复实验数据的弥补

=(1.5+2.4+3.5+3.3+2.2+2.1)/6=2.5

=(1.2+1.4+1.2+1.3+1.6+1.5)/6=1.37

这样我们就得到了遗失数据的估计值。

二、如果没有重复数据得实验，则用下法弥补：

表1-3-3所示为一组实验数据，其中a和b为遗失的数据。与表1-3-2不同的是，这组数据没有重复数据。现在我们来弥补这两个数据：

表1-3-3 没有重复实验数据的弥补

令

则总离差平方和

L_T=3.5²＋2.3²＋2.0²＋a²+2.0²+1.9²+2.0²+1.5²+1.2²+1.4²+b²+0.3²-c

组间离差平方和

L_A=[7.8²+(3.9+a)²+4.7²+(1.7+b)²]/3 - c

L_B=[(6.9+a)²+(5.8+b)²+5.4²]/4 – c

剩余离差平方和

L_e= L_T- L_A- L_B

合理的a和b值应使剩余离差平方和L_e最小，因此，我们的任务是求得L_e最小时的a、b值。为此。对L_e求偏导数，并令其等于零：

可求得：

a=2.95

b=0.53

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。