打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
木舟| 数据整理与分析(第三单元) | 2022年暑期“二次学习微视频”07
(建议在WIFI环境下观看)

PPT及讲稿

今天这个视频我们主要讲《信息技术》教材第三单元“数据处理与应用”的相关内容,具体是数据整理与分析。

数据采集之后,我们就可以进入数据整理的环节了。数据整理是数据分析过程中的重要环节,主要包括检查处理数据的重复值、缺失值和异常值等。

从网页中采集到的数据通常有常见的两种保存方式,一种是TXT文件,还有一种是带有字符分隔文件格式的CSV文件,在前面的学习中我们已经知道:PythonPandas库能够让我们很方便读取CSV文件。

我们简单回顾一下用Python语言读取CSV文件的一般方法,首先是用PIP命令安装Pandas库,然后是在程序中调用这个库,具体使用Pandas库的read_csv()函数来读取文件。

我们来看一个例子:
在这个例子中的filepath其实是一个字符串,表示文件路径和文件名,sep后面的“,”表示CSV文件的分隔符;后面的ANSI,表示存储文件的编码格式,它是一个特定的字符串。例如下面这个例子,就表示读取了一个保存在该Python程序同一目录下的用ANSI格式编码的名为“test”的CSV文件。

在读取了文件之后,我们可以对数据进行整理。第一种是处理重复值,数据中的重复值可能会导致数据的分布发生较大变化,是数据分析出现误差。比如在这个数据样例中,这两条记录在关键字“bike_id”“datetime”等字段是明显重复的。针对这种情况,我们可以采用以下几行语句来进行处理,这段程序代码的第1行表示导入Pandas库,第2行语句表示读取文件;第3行语句表示使用Pandas库的drop_dulicates函数去除bike_iddatetime的重复数据。

除了重复数据外,比如样例中记录标号为“520”的这条记录中,有些数据是没有的,这种情况称为“缺失值”。我们可以采用以下几行语句来进行处理,这段程序代码的第1行表示导入Pandas库,第2行语句表示读取文件;第3行语句表示使用Pandas库的dropna函数按照按行删除的方式处理缺失值。

异常值是指数据中个别值的数值明显偏离其余的数值,有时也称为离群点。比如这两个散点图中,都出现了明显偏离其他数据的离群值。再比如下面这个数据样例中,在关键词为“temp_value”的这一列中,出现了一个和其它数据明显有偏差的数值37,这个也属于异常值。

对于异常值的处理,方法一是直接将含有异常值的记录删除。
方法二是修正异常值,比如在这个例子中,我们可以通过求她上下两条记录的平均值来修正原来的37.

为了从数据中获取有价值的信息,对数据进行采集和整理后,还需要选用适当的工具与方法对数据进行分析。常见的数据分析工具有电子表格软件、在线数据分析平台以及数据分析语言等。我们在此主要介绍数据分析语言,也就是采用Python语言中的相关第三方库来进行数据的可视化处理。采用这样的方式一般经历三个步骤,即分析数据的准备,确定方法,主要指确定相关的分析函数,然后进行编程与调试。

数据可视化是将数据以图形化方式呈现,从而能够清晰、有效地传达与沟通信息。在Python语言中,matplotlib是一中应用较广的绘图工具包,使用其中的pyplot子库所提供的函数可以快速绘制图形,并且可以使用标签进行修饰,从而制作出高质量的数据分析图。
Python语言中,可以通过这条语句“import  matplotlib.pyplot  as  plt”,导入绘图工具库和子库,后面可以用plt相关函数快速绘制图形,进行数据的可视化。
pyplot绘制图形的基本流程是1. 创建画布与创建子图;2. 添加画布内容;3. 保存和显示图形。

Pyplot中绘制图例的函数有以下几个:
scatter( )用于绘制散点图:散点图主要用于分析特征间的相关关系。
plot( )用于绘制折线图:折线图主要用于分析自变量特征和因变量特征之间的趋势关系。
pie( )用于绘制饼图:饼图倾向于查看各分组数据在总数据中的占比。
bar( ) 用于绘制柱形图:柱状图用于查看各分组数据的数量分布以及各分组数据之间的数量比较。
boxplot( )用于绘制箱形图:箱形图是发现整体数据的分布、分散情况。
具体函数及用法可以参考教材P102-P111内容。

接下来我们用两个例子来看看具体的程序代码。
  1. 1. 绘制共享单车数据的折线图

  2. 折线图是一种将数据点按照顺序连接起来的图形,最适合用于显示随时间而变化的连续数据,同时还可以看出数量的差异和增长趋势。

  1. 2.  绘制柱状图

柱状图主要用于查看各分组数据的数量分布以及各组数据之间的数量比较。

运用数据来反映、研究和分析某项实物的现状、问题和原因,发现其本质和规律,得出分析的结论并给出解决方案,是数据分析过程和思路的最后呈现。一份完整的数据分析报告一般由“标题”“目录”“前言”“正文”“结论”五部分组成。数据分析报告还分为不同的种类。常用的数据分析报告有专题分析报告、综合分析报告和日常数据通报等。

比如这个《上海人口老龄化现状和预判》中,对2017-2036年本市常住人口65岁及80岁以上人口变化情况进行了预测,就可以称为是一个专题分析报告。从这里我们可以看出,专题分析报告是对社会现象的某一方面或某一个问题进行专门研究的一种分析报告。

综合分析报告是全面评价一个地区、单位、部门的业务或其他方面发展情况的一种数据分析报告。比如这里的“2019年上海市国民经济和社会发展统计公报”就属于综合性分析报告。

日常数据通报是以定期数据分析报表为依据,反映计划执行情况,并分析其影响和形成原因的一种数据分析报告。比如这里的“12月份本市交通运输基本情况”就属于日常数据通报。
同学们,在本视频的学习中,我们通过对数据整理和可视化处理等,并简单介绍了数据分析报告的相关知识。我们只有提升了驾驭数据的能力,让数据成为我们学习、工作和生活的得力助手,才能在当今信息时代更好的生活、学习,从而成为最好的自己,相信大家都是最棒的。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
在python数据分析中,我们必须注意数据类型的匹配
三分钟教会你Python数据分析—数据导入,小白基础入门必看内容
Pandas:用于数据分析和数据科学的最热门 Python 库
(python3)pandas中统计分析函数——DataFrame.describe()
Python数据分析工具包:Pandas
用pandas进行数据分析实战
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服