打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
2108年最新Python数据库

目前为止,Python仍是最受程序员喜欢的语言,在2018年5月份已经超过Java语言,到现在7月份已经超过Java语言5%d多。过去一年更新的Python数据库都已经被我们收录,现在扩充了原来的清单。排名不分先后,每一个都有它的优势劣势。

1. SciPy

另一个科学计算核心库SciPy,基于NumPy而构建,并扩展了NumPy的功能。SciPy的主要数据结构是多维数组,使用Numpy实现。该库提供了一些用于解决线性代数、概率论、积分计算等任务的工具。

SciPy通过与不同的操作系统进行持续集成的方式带来了重大改进,比如新的函数和方法,更重要的是——最新的优化器。此外,开发团队对很多新的BLAS和LAPACK函数进行了包装。

2. StatsModels

Statsmodels是一个Python模块,为统计数据分析提供了很多可能性,例如统计模型估计、运行统计测试等。你可以借助它来实现很多机器学习方法,并探索不同的绘图可能性。

该库在不断演化,带来了更多的可能性。今年带来了时间序列改进和新的计数模型GeneralizedPoisson、零膨胀模型和NegativeBinomialP,以及新的多变量方法因子分析、MANOVA和ANOVA的重复测量。

3.PandasPandas

Pandas提供了很多内置的方法,用于分组、过滤和组合数据,还提供了时间序列功能。所有这些方法的执行速度都很快。新发布的pandas库还提供了数百个新特性、功能增强、错误修复和API变更。这些改进与Pandas对数据进行分组和排序的能力有关,支持自定义类型操作。是一个Python库,提供了高级的数据结构和各种分析工具。该库的一大特色是能够将相当复杂的数据操作转换为一两个命令。

4. NumPy

在过去一年,开发团队对该库进行了大量改进。除了错误修复和解决兼容性问题之外,关键的变更还包括样式改进,即NumPy对象的打印格式。此外,一些函数现在可以处理任意编码的文件,只要这些编码受Python支持。NumPy是该领域的主要软件库之一。它旨在处理大型的多维数组和矩阵,并提供了很多高级的数学函数和方法,因此可以用它来执行各种操作。

可视化

5. Matplotlib

Matplotlib是一个用于创建二维图表和图形的低级库。你可以用它来构建各种图表,从直方图和散点图到非笛卡尔坐标图。此外,很多流行的绘图库都为Matplotlib预留了位置,可与Matplotlib结合在一起使用。

该库在绘图样式方面做出了很多变更,如颜色、尺寸、字体、图例等。例如,坐标轴图例的自动对齐和对色盲患者更友好的色环。

6. Seaborn

Seaborn实际上是基于matplotlib库构建的高级API。它为处理图表提供了更恰当的默认选项。此外,它还提供了一组丰富的可视化图库,包括时间序列、联合图和小提琴图等复杂的类型。

Seaborn的更新主要是问题修复。不过,FacetGrid(或PairGrid)与增强的交互式matplotlib后端之间的兼容性有所改进,为可视化添加了参数和选项。

7. Bokeh

Bokeh库使用JavaScript小部件在浏览器中创建交互式和可伸缩的可视化图形。该库提供了多种图形、样式、链接图形式的交互能力、添加小部件、定义回调以及更多有用的功能。

Bokeh改进的交互式功能值得称赞,例如可旋转的分类刻度标签,以及小型的缩放工具和自定义工具提示字段增强。

8. Plotly

Plotly是一个可以帮助你轻松构建复杂图形的流行库。该库适用于交互式Web应用程序,它提供了很多很棒的可视化效果,包括轮廓图形、三元图和3D图表。

这个库在持续地增强和改进,带来新的图形和特性,支持“多链接视图”、动画和串扰集成。

9. Pydot

Pydot是一个用于生成面向复杂图形和非面向复杂图形的库。它作为面向Graphviz的一个接口,使用Python编写。我们可以借助它来显示图形的结构,这在构建神经网络和基于决策树的算法时经常会用到。

机器学习

10. Scikit-learn

这个基于NumPy和SciPy的Python模块是处理数据的最佳库之一。它为很多标准的机器学习和数据挖掘任务提供算法,例如聚类、回归、分类、降维和模型选择。

该库有很多增强功能。交叉验证已经获得更新,现在可以使用多个指标。一些训练方法(如邻近取样和逻辑回归等)得到一些小改进。它的主要更新之一是完成了通用术语和API元素词汇表。

11. XGBoost/LightGBM/CatBoost

梯度提升是最流行的机器学习算法之一,它的核心原理在于构建连续精炼的基本模型的集合,即决策树。因此,有些专门的库被设计用于方便快速地实现该方法。我们认为XGBoost、LightGBM和CatBoost是值得关注的。它们都是解决常见问题最强有力的工具,而且使用方式几乎一样。我们可以使用这些库快速实现高度优化且可扩展的梯度提升,所以它们在数据科学家和Kaggle竞争者中非常受欢迎,他们在这些算法的帮助下赢得了很多比赛。

12. Eli5

通常情况下,机器学习模型的预测结果并不完全是清晰的,这个时候可以借助Eli5来解决这个问题。它是一个用于可视化和调试机器学习模型的库,可以逐步跟踪算法的执行过程。它支持scikit-learn、XGBoost、LightGBM、lightning和sklearn-crfsuite库,并可以为每个库执行不同的任务。

深度学习

13. TensorFlow

TensorFlow是一个流行的深度学习和机器学习框架,由Google Brain开发。它支持在人工神经网络中使用多个数据集。最受欢迎的TensorFlow应用场景包括物体识别、语音识别等。还有很多基于TensorFlow构建的库,例如tflearn、tf-slim、skflow等。

这个库发布新版本的速度很快,引入了很多新功能。最新的修复包括潜在的安全漏洞和改进的TensorFlow与GPU的集成,现在可以在单台计算机的多个GPU上运行Estimator模型。

14. PyTorch

PyTorch是一个大型框架,可用它基于GPU加速执行张量计算、创建动态计算图以及自动计算梯度。此外,PyTorch还提供了丰富的API,用于解决与神经网络相关的应用。

该库基于Torch而构建,使用C语言实现,并包含了使用Lua编写的包装器。它的Python API于2017年推出,从那时起,该框架越来越受欢迎,并吸引了越来越多的数据科学家。

15. Keras

Keras是一个用于处理神经网络的高级库,运行在TensorFlow或Theano之上,现在发布的新版本可以使用CNTK或MxNet作为后端。它简化了很多特定任务,并大大减少了样板代码的数量,但它可能不适用于某些复杂的事情。

该库在性能、可用性、文档和API方面进行了改进,并推出了一些新特性,如Conv3DTranspose层、新的MobileNet应用程序和自我规范化网络。

分布式深度学习

16. dist-keras/elephas/spark-deep-learning

深度学习问题变得越来越重要,因为越来越多的场景要求更多的时间和成本。而像Apache Spark这样的分布式计算系统可以更轻松地处理大量数据,这反过来又为深度学习带来更多的可能性。dist-keras、elephas和spark-deep-learning变得越来越流行,并正在迅速发展演化。很难说它们当中哪个更好,因为它们都是为解决一些相同的任务而设计的。这些库和Keras可以直接用在Apache Spark中,用以训练神经网络。spark-deep-learning还提供了工具用于为Python神经网络创建管道。

自然语言处理

17. NLTK

NLTK是一组库的集合,一个完整的自然语言处理平台。你可以借助NLTK以各种方式处理和分析文本,如标记、打标签、提取信息等。NLTK还用于原型设计和构建研究性系统。

该库的增强还包括API和兼容性的微小变更以及面向CoreNLP的新接口。

18. SpaCy

SpaCy是一个自然语言处理库,包含了优秀的示例、API文档和演示应用程序。该库使用Cython(Python的C扩展)编写。它支持将近30种语言,可以方便地与深度学习集成,并保证健壮性和高准确率。SpaCy有一个为处理整个文档而设计的架构,在处理文档时不需要将它分成短语,这也是SpaCy的一个重要特性。

19. Gensim

Gensim基于Numpy和Scipy而构建,是一个用于语义分析、主题建模和向量空间建模的Python库。它提供了主流的NLP算法实现,例如word2vec。Gensim有自己的models.wrappers.fasttext实现,不过仍然可以使用fasttext库进行单词表示的高效学习。

数据抓取

20. Scrapy

Scrapy是一个用于创建扫描网站页面并收集结构化数据的爬虫的库。此外,Scrapy可以从API中提取数据。因为具备良好的可扩展性和可移植性,该库使用起来非常方便。

该库在过去一年里的变化包括代理服务器的若干次升级以及改进的错误通知和问题识别系统。用在元数据设置中的Scrapy解析也有了新的特性。

这是2018年Python数据库的集合,相比上一年有些数据库深受开发人员的喜爱,不过有些景点库也在改进。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
【盘点】深度学习最常用到的20个Python库
2018年数据科学前20名Python库
盘点丨2018 年热门 Python 库丨TOP20
【最强笔记】12张图理解Keras等8个深度学习库(下载)
数据科学家一定要收藏的十个最佳 Python 库
十大最受数据科学欢迎的Python库
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服