打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
如何数据分析

1、直方图

直方图是用于展示分组数据分布的一种图形,用矩形的宽度和高度来表示频数分布,在直角坐标系中,用横轴表示数据分组,纵轴表示频数或频率,各组数据与相应的频数就形成了一个矩形,即直方图。通过直方图,我们可以直观地看出数据分布的形状、数据分布的中心位置及数据分散的程度,由此判断数据是否符合正态分布。

我们仍以某公司“用户消费数据”为例,来了解用户消费金额分布情况。

STEP 01 定义组距,即以一组升序排列的临界点数据集合,Excel将统计在相邻临界点之间的数据频数,也就是个数。我们也可不设置组距,Excel将自动以数据的最大值及最小值之间的范围进行等距分组,本例在当前工作表的E1:E6单元格区域创建组距,如图所示。

STEP 02 单击【数据】选项卡【分析】组中的【数据分析】按钮,在弹出的【数据分析】对话框中,选择【直方图】,单击【确定】按钮。

STEP 03 在弹出的【直方图】对话框中,各类参数分别进行如下设置,如上图所示。

输入

① 输入区域:本例数据源区域为C1:C101。

② 接收区域(可选):输入组距数据的区域,如本例组距数据区域为E1:E6。

③ 标志:本例勾选【标志】。

输出选项

① 输出区域:可选择当前工作表的某个活动单元格、新工作表组或新工作簿,本例将结果输出至当前工作表的G1单元格。

② 柏拉图:若勾选【柏拉图】,则可以在输出表中同时显示按降序排列的频率数据;若未勾选,则Excel将只输出按默认组距排列的频率数据(注:柏拉图需在勾选【图表输出】时才绘制出来)。

③ 累积百分率:若勾选【累积百分率】,则可以在输出表中添加一列累积百分比数值,并同时在直方图表中添加绘制累积百分比的折线。

④ 图表输出:即绘制“直方图”,本例勾选【图表输出】。

STEP 04 单击【确定】按钮,并美化输出结果,在此分别对三种不同输出选项进行勾选组合,以便比较理解【柏拉图】、【累积百分率】选项的作用,如图所示。

现在用Excel分析工具库中的直方图工具,可以便捷地进行数值分组及绘制柏拉图。

柏拉图(图表1)与直方图(图表2、3)的区别就是在于横坐标是否排序。

★ 柏拉图是根据各组频数大小进行降序排列并绘制的图表,另外柏拉图一般采用分类数据进行统计,例如容易出问题的前三大原因。这里对连续数据进行分组统计,是一种特殊的分类。

★ 直方图则是默认按照各组组距从小到大的排序方式进行绘制,顺序是固定的,不能对其进行修改。

Excel分析工具库的“直方图”功能只能处理简单的计数分组,如果与其他分组进行交叉汇总求和等计算,还是需要用Excel透视表“创建组”或VLOOKUP等其他分组方式进行数据处理及分析。

2、抽样分析

在做数据分析的时候,尤其现在我们正往大数据时代迈进,通常会遇到分析的总体数据源过于庞大,这样会大大降低系统分析运行效率,因此,一般会抽取一部分有代表性的样本数据进行分析,并根据这一部分样本去估计与推断总体情况。

公司市场部为刺激客户消费,提升产品销量,经常会策划一些市场优惠活动。其中需要我们随机或有规律地抽取一些在活动中进行交易的客户作为幸运客户,以发放相应的奖品,这时该如何处理呢?

Excel数据分析工具库——“抽样”分析工具,既可以实现随机抽取数据,也可以实现周期性间隔抽取数据。现在我们仍然以某公司“用户消费数据”为例来学习这两种数据抽样方法,抽取10名幸运客户。

STEP 01 单击【数据】选项卡【分析】组中的【数据分析】按钮,在弹出的【数据分析】对话框中,选择【抽样】,单击【确定】按钮。

STEP 02 在弹出【抽样】对话框中,对各类参数分别进行如下设置,如图所示。

输入

① 输入区域:本例数据源区域为B1:B101。

② 标志:本例勾选【标志】。

抽样方法

① 周期间隔:若选择间隔抽样,则需要输入周期间隔,如图上所示,本例周期间隔为10。

② 随机抽样:直接输入样本数,系统自行进行随机抽样,不用受间隔的规律限制,如图所示,本例样本数为10。

输出选项

输出区域:可选择当前工作表的某个活动单元格、新工作表组或新工作簿。本例“周期”抽样结果输出到当前工作表F2单元格。本例“随机”抽样结果输出到当前工作表G2单元格,如上图所示。

STEP 03 单击【确定】按钮,输出相应的抽样结果。

3、相关分析

(1)相关关系

相关关系是指现象之间存在的非严格的、不确定的依存关系。这种依存关系的特点是:某一现象在数量上发生的变化会影响另一现象数量上的变化,而且这种变化具有一定的随机性,即当给定某一现象以一个数值时,另一现象会有若干个数值与之对应,并且总是遵循一定规律,围绕这些数值的平均数上下波动,其原因是影响现象发生变化的因素不止一个。例如,影响销售额的因素除了推广费用外,还有产品质量、价格、渠道等因素。

(2)回归函数关系

回归函数关系是指现象之间存在的依存关系中,对于某一变量的每一个数值,都有另一变量值与之相对应,并且这种依存关系可用一个数学表达式反映出来,例如,在一定的条件下,身高与体重存在的依存关系。

相关分析是研究两个或两个以上随机变量之间相互依存关系的方向和密切程度的方法,直线相关用相关系数表示,曲线相关用相关指数表示,多重相关用复相关系数表示,其中我们常用的是直线相关,所以主要研究相关系数。

相关系数就是反映变量之间线性相关强度的一个度量指标,通常用r表示,它的取值范围为[-1,1]。r的正、负号可以反映相关的方向,当r>0时表示线性正相关,当r<0时表示线性负相关;r的大小可以反映相关的程度,r=0表示两个变量之间不存在线性关系。通常相关系数的取值与相关程度,如图所示。

除了使用CORREL函数计算相关系数外,就需要用Excel分析工具库——“相关系数”分析工具来实现。

接下来我们就以“企业季度数据”为例,来分析“销售额”、“推广费用”及“其他费用”这三个变量间的相关关系。

STEP 01 单击【数据】选项卡【分析】组中的【数据分析】按钮,在弹出的【数据分析】对话框中,选择【相关系数】,单击【确定】按钮。

STEP 02 在弹出的【相关系数】对话框中,对各类参数分别进行如下设置,如图所示。

输入

① 输入区域:本例数据源区域为B2:C48。

② 分组方式:本例选择“逐列”。

③ 标志位于第一行:本例勾选这个复选框。

输出选项

输出区域:本例将结果输出到当前工作表的F1单元格。

STEP03 单击【确定】按钮,结果如上图所示。

3、回归分析

回归模型,预测数据未来的发展趋势。

现在的回归是研究自变量与因变量之间关系形式的分析方法,它主要是通过建立因变量Y与影响它的自变量Xi(i=1,2,3,…)之间的回归模型,来预测因变量Y的发展趋势。例如,销售额对推广费用有着依存关系,通过对这一依存关系的分析,在已确定下一期推广费用的条件下,可以预测将实现的销售额。

相关分析与回归分析的联系是:均为研究及测量两个或两个以上变量之间关系的方法。在实际工作中,一般先进行相关分析,计算相关系数,然后拟合回归模型,进行显著性检验,最后用回归模型推算或预测。

相关分析与回归分析的区别是:

★ 相关分析研究的都是随机变量,并且不分自变量与因变量,回归分析研究的变量有自变量与因变量之分,并且自变量是确定的普通变量,因变量是随机变量。

★ 相关分析主要描述两个变量之间线性关系的密切程度,回归分析不仅可以揭示变量X对变量Y的影响大小,还可以由回归模型进行预测。

回归分析模型主要包括线性回归及非线性回归两种。线性回归又分为简单线性回归与多重线性回归,而对于非线性回归,我们通常通过对数转化等方式,将其转化为线性回归的形式进行研究,所以接下来将重点学习线性回归。

线性回归分析主要有五个步骤,如图所示。

线性回归具体方法明天再议。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
2021届§116 回归分析(一)
第四篇——第31章 使用分析工具库分析数据
每天一点数据分析——抽样分析与相关系数
概率与统计
高考数学纠错笔记-统计
考点28 统计(核心考点讲与练)-2023年高考数学一轮复习核心考点讲与练(新高考专用)(解析版)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服