打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
推荐一个python库:Vaex

我在忙什么呢?最近我在研究各种工具产品的智能化趋势,数据的充沛、算法的成熟,以往我们pc互联网创造的工具都有被改造一遍的可能。

我最看重几个机制,比如数据存储与应用分离、模块化、流程自动化、个人/开发者生产内容、平台与插件生态等等。

这些机制理解起来非常简单,但是可以诞生非常强大的复杂系统/生态。

简单的才是最有效的解决方案。

我喜欢关注各种代码的核心运行机制,欣赏开发者所具备的创造力跟想象力。推荐今天看到一个不错的python库。用于日常的数据挖掘工作非常不错。

Vaex是一个开源的DataFrame库。

先感受下速度,如果在笔记本电脑上运行:

Pandas将按每秒数百万字符串的顺序进行;

Spark将以每秒1000万个字符串的顺序执行;

Vaex每秒可以处理大约1亿个字符串;

Vaex可以对表格数据集进行可视化、探索、分析,甚至机器学习,这些数据集和你的硬盘驱动器一样大。它可以在一个n维网格上每秒计算超过10亿(10^9)个对象的平均值、和、计数、标准差等统计信息。

可视化使用直方图、使用直方图、密度图和3D立体渲染进行可视化。为此,Vaex采用了内存映射、高效的外核算法和延迟计算等概念来获得最佳性能(不浪费内存)。所有这些都封装在一个类似Pandas的API中。

GitHub:

https://github.com/vaexio/vaex

有兴趣建议尝试下哈~

最后,mixlab第12期活动开始啦

https://www.huodongxing.com/event/9521928020400

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
vaex 处理海量数据
用Python进行数据可视化的10种方法
「独家」Python数据可视化利器Matplotlib,50 干货分享
常见的5个python数据可视化库!
如何用 Python 执行常见的 Excel 和 SQL 任务
Python常用第三方库——简介及下载地址
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服