打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
让pandas处理大数据速度变快的三个技巧

上一篇文章 写的是处理GB级数据时datatable比pandas会更高效,但是datatable使用起来毕竟不如pandas来的顺手。所以今天准备介绍pandas的三个使用技巧来让我们的运行效率提高,以便处理较大体量的数据。

一、将数据分批次读取

csv格式是常见的数据存储方式,对于我们普通人而言易于读写。此外,在pandas中有pd.read_csv()函数可以将csv形式的数据进行读取。但当csv文件非常大的时候,直接读取会很吃内存,甚至会出现内存不够用的情况。

这时候我们可以 分批次(分块)读取,而不是一次性读取 这么大体量的数据。操作步骤:

  • 分批次读取

  • 处理每一批次

  • 保存每一批次的结果

  • 对所有的数据重复步骤1-3

  • 将所有的批次结果都结合起来

pd.read_csv(chunksize) 中的chunksize指的的是每一批次的行数

  1. import pandas as pd

  1. chunk_iterator = pd.read_csv("largest_data.csv", chunksize=10000)

  2. chunk_result_list = []

  3. #每一批次都是dataframe类型

  4. for chunk in chunk_iterator:

  5. #根据你的分析问题,设计自己的chunk_manipulate函数

  6. filter_result = chunk_manipulate(chunk)

  7. chunk_result_list.append(filter_result)

  8. #合并所有批次处理结果,形成新的dataframe

  9. df = pd.concat(chunk_result_list)

二、剔除Na数据

有时候我们使用的数据中含有是Na,这时候剔除含有Na的数据会减少很多数据量。这里用到 df.dropna(how,thresh,subset)

  • how: "all"或者"any"。all当记录中的所有特征均为na,才剔除该条记录;any当记录中只要有na,该条记录就剔除

  • thresh: 整数型,每条记录中允许拥有的最大na数,当记录中na数超过thresh数后,剔除该条记录

  • subset:列名列表,选取某些特征进行na检测和处理

  1. import pandas as pd

  2. use_cols = ["stock_price", "stock_volume", "stock_symbol", "dividend", "eps"]

  3. ignore_cols = ["stock_name", "data_of_ipo"]

  4. #usecols使用的特征名

  5. df = pd.read_csv("large_data.csv", usecols=use_cols)

  6. #剔除na数据

  7. df.dropna()

三、设置特征的数据类型

对于大多数数据科学家而言,并不需要设置特征的数据类型,但是当处理的数据极其庞大的时候,我们就不得不考虑设置特征的数据类型以降低内存开销。

例如在csv的特征列中,某一列特征是32bit浮点数类型,但32bit浮点太精确了,实际上我们仅仅使用16bit就够用了。pd.read_csv(dtype)可以设置列的数据类型

  1. import pandas as pd

  2. import numpy as np

  3. #column_A 32bit

  4. #column_B 16bit

  5. df = pd.read_csv("large_data.csv", dtype={'column_A': np.int32,

  6. 'column_B': np.float16})

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
爬虫pandas库是啥呢?
Pandas常用命令汇总,建议收藏!
分享30个超级好用的Pandas实战技巧
Pandas读取数据到Dataframe
esproc vs python 6
Python读取文件代码块已经备好,用的时候光拿(建议收藏)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服