python小技能-缺失数据处理

停更了几周的python基础学习，今天我们跟上，接下来几周将重点学习如何处理缺失数据、重复数据、字符串操作和其它分析数据转换的工具

缺失数据

缺失数据在pandas中呈现的方式有些不完美，但对于大多数用户可以保证功能正常。对于数值数据，pandas使用浮点值NaN（Not a Number）表示缺失数据。在python中其为哨兵值，可以方便的检测出来：

导入神库

import pandas as pd

import numpy as np

    string_data=pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])

## 判断是否为缺失值
string_data.isnull()
0    False
1    False
2     True
3    False

第二种方法判断

pd.isna(string_data)

0    False
1    False
2     True
3    False
dtype: bool

在pandas中，采用了R语言中的惯用法，即将缺失值表示为NA，它表示不可用not available 。在统计应用中，NA数据可能是不存在的数据或者虽然存在，但是没有观察到（例如，数据采集中发生了问题）。当进行数据清洗以进行分析时，最好直接对缺失数据进行分析，以判断数据采集的问题或缺失数据可能导致的偏差。

Python内置的None值在对象数组中也可以作为NA：

string_data[0]==None  ##判断
False
string_data[0]=None  ## 赋值
string_data
0         None
1    artichoke
2          NaN
3      avocado
dtype: object
pd.isnull(string_data)
0     True
1    False
2     True
3    False
dtype: bool

滤除缺失数据

过滤掉缺失数据的办法有很多种。你可以通过pandas.isnull 或布尔索引的手工方法，但dropna可能会更实用一些。对于一个Series ，dropna返回一个仅含非空数据和索引值的Series ：

from numpy import nan as NA
data=pd.Series([1,NA,3,NA,7])
data.dropna()
0    1.0
2    3.0
4    7.0
dtype: float64
#这等价于：
data[data.notna()]
0    1.0
2    3.0
4    7.0
dtype: float64

而对于DataFrame对象，事情就有点复杂了。你可能希望丢弃全NA或含有

NA的行或列。dropna默认丢弃任何含有缺失值的行：

data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],
                    [NA, NA, NA], [NA, 6.5, 3.]])
data

	0	1	2
0	1.0	6.5	3.0
1	1.0	NaN	NaN
2	NaN	NaN	NaN
3	NaN	6.5	3.0

clean_data=data.dropna()

clean_data

	0	1	2
0	1.0	6.5	3.0

### 可以看出，默认删除的是含有NA值的行

##传入how='all' 将只丢弃全为NA的那些行：

data.dropna(how='all')

	0	1	2
0	1.0	6.5	3.0
1	1.0	NaN	NaN
3	NaN	6.5	3.0

# 如果按照列删除缺失值，只需传入axis=1 即可：

data.dropna(how='all',axis=1)

	0	1	2
0	1.0	6.5	3.0
1	1.0	NaN	NaN
2	NaN	NaN	NaN
3	NaN	6.5	3.0

另一个滤除DataFrame行的问题涉及时间序列数据。假设你只想留下一部分

观测数据，可以用thresh 参数实现此目的：

df=pd.DataFrame(np.random.randn(7,3))

df

	0	1	2
0	-0.475024	0.808877	0.846899
1	1.985728	-0.498647	-0.461880
2	-0.121965	-0.647125	1.897084
3	0.408052	-0.491282	0.398916
4	-0.272506	1.000522	-0.114962
5	-0.171780	0.501524	-0.362652
6	-1.376714	0.138974	-0.152652

df.iloc[:4,1]=NA

df.iloc[:2,2]



0    0.846899
1   -0.461880
Name: 2, dtype: float64




df.iloc[:2,2]=NA

df

	0	1	2
0	-0.475024	NaN	NaN
1	1.985728	NaN	NaN
2	-0.121965	NaN	1.897084
3	0.408052	NaN	0.398916
4	-0.272506	1.000522	-0.114962
5	-0.171780	0.501524	-0.362652
6	-1.376714	0.138974	-0.152652

df.dropna()

	0	1	2
4	-0.272506	1.000522	-0.114962
5	-0.171780	0.501524	-0.362652
6	-1.376714	0.138974	-0.152652

df.dropna(axis=1)

	0
0	-0.475024
1	1.985728
2	-0.121965
3	0.408052
4	-0.272506
5	-0.171780
6	-1.376714

 df.dropna(thresh=3) ###thresh 代表的是删除索引从0开始到索引为thresh为止

	0	1	2
4	-0.272506	1.000522	-0.114962
5	-0.171780	0.501524	-0.362652
6	-1.376714	0.138974	-0.152652

填充缺失数据

你可能不想滤除缺失数据（有可能会丢弃跟它有关的其他数据），而是希望通过其他方式填补那些“空洞”。对于大多数情况而言，fillna方法是最主要的函数。通过一个常数调用fillna就会将缺失值替换为那个常数值：

### 比如用0填充
df.fillna(0)

	0	1	2
0	-0.475024	0.000000	0.000000
1	1.985728	0.000000	0.000000
2	-0.121965	0.000000	1.897084
3	0.408052	0.000000	0.398916
4	-0.272506	1.000522	-0.114962
5	-0.171780	0.501524	-0.362652
6	-1.376714	0.138974	-0.152652

#若是通过一个字典调用fillna，就可以实现对不同的列填充不同的值：
df.fillna({1:1,2:2})

	0	1	2
0	-0.475024	1.000000	2.000000
1	1.985728	1.000000	2.000000
2	-0.121965	1.000000	1.897084
3	0.408052	1.000000	0.398916
4	-0.272506	1.000522	-0.114962
5	-0.171780	0.501524	-0.362652
6	-1.376714	0.138974	-0.152652

对reindexing 有效的那些插值方法也可用于fillna：

df=pd.DataFrame(np.random.randn(6,3))
df.iloc[:2,1]
0    0.341521
1   -0.236488
Name: 1, dtype: float64
df.iloc[2:,1]=NA
df

	0	1	2
0	-1.308469	0.341521	0.665815
1	-0.343031	-0.236488	3.169433
2	1.651689	NaN	0.398313
3	-0.601294	NaN	-0.284620
4	1.516970	NaN	1.344071
5	-2.583564	NaN	0.508698

df.iloc[3:,2]=NA
df

	0	1	2
0	-1.308469	0.341521	0.665815
1	-0.343031	-0.236488	3.169433
2	1.651689	NaN	0.398313
3	-0.601294	NaN	NaN
4	1.516970	NaN	NaN
5	-2.583564	NaN	NaN

df.fillna(method='ffill')

	0	1	2
0	-1.308469	0.341521	0.665815
1	-0.343031	-0.236488	3.169433
2	1.651689	-0.236488	0.398313
3	-0.601294	-0.236488	0.398313
4	1.516970	-0.236488	0.398313
5	-2.583564	-0.236488	0.398313

df.fillna(method='ffill', limit=2) ##表示之填充两个

	0	1	2
0	-1.308469	0.341521	0.665815
1	-0.343031	-0.236488	3.169433
2	1.651689	-0.236488	0.398313
3	-0.601294	-0.236488	0.398313
4	1.516970	NaN	0.398313
5	-2.583564	NaN	NaN

df.fillna(df[0].mean()) ## 用第一列均值填充

	0	1	2
0	-1.308469	0.341521	0.665815
1	-0.343031	-0.236488	3.169433
2	1.651689	-0.277950	0.398313
3	-0.601294	-0.277950	-0.277950
4	1.516970	-0.277950	-0.277950
5	-2.583564	-0.277950	-0.277950

df[0]
0   -1.308469
1   -0.343031
2    1.651689
3   -0.601294
4    1.516970
5   -2.583564
Name: 0, dtype: float64

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。

停更了几周的python基础学习，今天我们跟上，接下来几周将重点学习如何处理缺失数据、重复数据、字符串操作和其它分析数据转换的工具

缺失数据

缺失数据在pandas中呈现的方式有些不完美，但对于大多数用户可以保证功能正常。对于数值数据，pandas使用浮点值NaN（Not a Number）表示缺失数据。在python中其为哨兵值，可以方便的检测出来：

导入神库

第二种方法 判断

Python内置的None值在对象数组中也可以作为NA：

滤除缺失数据

过滤掉缺失数据的办法有很多种。你可以通过pandas.isnull 或布尔索引的手工方法，但dropna可能会更实用一些。对于一个Series ，dropna返回一个仅含非空数据和索引值的Series ：

填充缺失数据

你可能不想滤除缺失数据（有可能会丢弃跟它有关的其他数据），而是希望通过其他方式填补那些“空洞”。对于大多数情况而言，fillna方法是最主要的函数。通过一个常数调用fillna就会将缺失值替换为那个常数值：

对reindexing 有效的那些插值方法也可用于fillna：

第二种方法判断