陈则老师,从事数据分析培训教学以及实战指导,已经将近10年时间
以我自己的经验来说,很多网络上的推荐,所谓的合集,都是码农推荐的,,,
那么,这次推荐,从数据分析入手,到数据可视化,上手比较容易的工具,当然如果要学习一下SPSS工具的话,可以参考陈则老师的专栏
本文目录:
Part 1:入门数据处理工具(2款)
Part 2:高级数据处理工具(2款)
Part 3:入门数据分析工具(2款)
Part 4:高级数据分析工具(2款)
Part 5:入门数据可视化工具(2款)
Part 6:高级数据可视化工具(2款)
Part 1:入门数据处理工具(2款)
1.最基础的数据处理工具——Excel
相信大家对于Excel都不陌生,
不仅是数据分析师,很多公司的很多事情都是会用到Excel,
Excel具备多种强大功能,
比如创建表单,数据透视表,VBA、函数的应用、数据清理技巧等,
Excel的系统如此庞大,以至于没有任何一项分析工具可以超越它,
确保了大家可以根据自己的需求分析数据。
作为一款基础工具,想要从事数据分析岗位,
成为一名合格的数据分析师,
掌握Excel的数据处理以及分析技巧是非常有必要的。
2.本地化工具——WPS
Excel的国产化,就是WPS
WPS里的表格,可以实现办Excel的大部分功能
最厉害的具有强大插件平台支持,免费提供海量在线存储空间及文档模板
但是,还需要继续加油
Part 2:高级数据处理工具(2款)
Excel或者WPS对于轻量级的数据(比如几万、几十万的数据还可以)
但是数据量一大,比如几百万,几千万,Excel或者WPS估计就会奔溃
1.高级数据处理工具——SQL
这时候,需要一点SQL的基础
结构化查询语言(Structured Query Language)简称SQL,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。
它能在数据量大的情况下,快速的实现:查询、汇总、更新等功能
目前市面上的SQL版本很多,Mysql、Microsoft SQL Serve、Oracle数据库等等
对于入门者来说,先学习一个就可以
2.高级数据处理工具——Python
非常强大,万金油!但是根据我的经验pandas最多能处理100M左右的数据,如果超过100M可以使用with open和readlines转换成DataFrame,亲测可行
数据处理完,就要做分析了
Part 3:入门数据分析工具(2款)
1.最基础的数据分析工具——Excel
Excel能做的数据分析比较基础和入门,但是对于很多企业或者学员来说,也够了
比如做排序、筛选,也可以做相关、回归、方差,还可以做一些敏感度、最优解等的分析
2.统计学领域权威的数据分析工具——SPSS
SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,
每类中又分好几个统计过程,
比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,
而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。
当然,SPSS也能实现一些数据录入、处理以及图形化的功能,但是,统计分析是它的核心
目前广泛应用于:医药、银行、通信、调查研究、学术研究、证券、电商等领域,
世界500强企业,有80%左右的公司,都在用。
详细的课程内容,可以报名陈则老师的《数据分析之SPSS软件从入门到精通》课程,
点上面的专栏链接即可
Part 4:高级数据分析工具(2款)
那么前面的工具,
主要面对的还是:数值化的数据,比如:年龄、收入,
或者数值化后的数据,比如:学历(会变成:1-4,分布代表:小学、初中、高中、大学等等)
但是如果,你要遇到对图片作分析、对一大串网页的文字做分析,怎么办?
或者遇到超级大的数据量,TB级别的,
你会发:Excel、SQL等等这些工具都失效了,怎么办?
1.大数据数据分析工具——Hadoop
只有在超过5TB数据量的规模下,Hadoop才是一个合理的技术选择
根据经验,曾经使用pyspark处理过Hive中30~40TB数据,速度还是很快
hadoop能做什么?
hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。
2.大数据数据分析工具——Spark
那么跟Hadoop差不多一个等级的工具是:Spark
数据处理速度:
Spark,拥有Hadoop、 MapReduce所具有能更好地适用于数据挖掘与机器学习等需要迭代的的优点
数据分析完了,需要做可视化了
Part 5:入门数据可视化工具(2款)
1.最基础的数据可视化工具——Excel
在Excel2010中,常见的图表有10种,
分别为:柱形图、折线图、饼图、条形图、散点图、面积图、股价图、雷达图、组合图、曲面图
Excel2013以后,又增加了:
树状图、旭日图、直方图、箱线图等等
有学员会说,老师,你看网上,好多做数据分析的大咖,都是推荐各种牛逼克拉斯的工具
为什么你推荐的是Excel?
因为,很多企业其实用不到那么多高大上的工具,而且即使用了,需要很高的学习成本
但是Excel,它的普遍性,是任何一个软件,目前都无法代替的
况且,Excel做出来的可视化,也基本可以满足大部分企业的需求了
大家,可以去京东,搜陈则老师的畅销书,就是讲的Excel可视化的内容
2.入门级数据可视化工具——Tableau
那么因为Excel虽然可以满足大部分需求,但是有些需求满足起来,会很吃力
比如:想做个一个全国地图的展示(「从Excel看疫情」用Excel做一个全国疫情分布图)
这种地图,对于小白来说,用Excel做一个估计需要一天
但是用Tableau,对于小白来说,做一个,稍微看一下教程,只需要半天
大大提高了可视化的效率
而且,在最后的报表输出(把图表、文本、标题)整合到一起,Tableau也能体现出它的优势
Part 6:高级数据可视化工具(2款)
1.高级的数据可视化工具——Power BI
Power BI是由微软推出的一整套商业智能解决方案,
它能够挖掘数据中的信息,快速准确地生成可以交互的可视化报表,
从而帮助企业做出明智的业务经营决策。
为什么,高级篇,首推这个?
因为这是微软出的,你看前面数据的处理、统计、分析,是不是Excel最广泛?
所以,Power BI和Excel兼容度非常高
甚至在Excel 2016以后,Power BI已经把部分组件,直接嵌入到Excel里去了
比如:Power Map、Power Query等等
但是学起来,比Excel难度系数要高
2.高级的数据可视化工具——D3.JS
D3.js是一个强大的数据可视化js语言,可以利用svg在网页上展示各种精美的矢量图
被认为是最好的JavaScript可视化框架之一。开发者刚开始学习D3.js时会感到很复杂,但是D3.js功能强大,非常灵活,值得开发者深入学习研究。需要注意的是,D3.js无法在较低版本的IE浏览器中正常显示图形。
当然和D3.JS同级别的还有很多,比如:ECharts等等
总结: 不要被这么多的工具,搞头晕了
适合自己的才是最好的,
希望大家能在数据分析和可视化领域,找到适合自己的工具
联系客服