打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据分析基本概念

1.统计与挖掘

统计和挖掘最大的差别在于:统计是事先设想好的一个动作,然后去验证它。

例如先假设销售收入和销售投入之间有关系,公司多投钱给推销人员去拜访客户,就能获得更多的用户和订单,销售收入就能上升,然后我们用统计的模型去验证它。

在分析这个数据之前,是没有“假定”的,我们不知道最后做出来的结果是什么样的。这就是数据挖掘,从大量的数据中通过各种方法找出隐藏于其中的信息。

2.平均值

在数据量大的情况下,平均值反映的是一个数据“应该”是什么。

如果说平均值反映了数据的“中轴线”,那么标准差就反映了数据的波动情况,也就是说数据是波澜不惊还是起伏不定。

3.标准差

如果说平均值反映了数据的“中轴线”,那么标准差就反映了数据的波动情况,也就是说数据是波澜不惊还是起伏不定。

4.正态分布

正态分布的规律:

1)两边基本是对称的。

2)形状像一个倒扣的“钟”。

3)高峰在中间,越到中间,数据分布的概率越大,越到两边,概率就越小。

这个看上去很简单的正态分布,其实就是统计分析的重要基础,实际上很多统计规律都是建立在数据正态分布的基础上的。或者说,如果数据不是正态分布的,那么很多统计规律则是不成立的。

根据正态分布的规律可以得到,绝大部分(95%)的数据,是分布在居中的位置上的,只有很小概率的事件分布在正态曲线两侧,这个就是假设检验中的单侧和双侧,如图所示。

5.峰度和偏度

峰度和偏度算是数据分析中比较专业的概念了,峰度反映的是数据中极值的情况,请看图峰度的数据。

极值是-10的时候,KURT函数(返回一组数据的峰度系数(Kurtosis)。峰度系数反映与正态分布相比某一分布的相对尖锐度或平坦度。正峰度系数表示相对尖锐的分布。负峰度系数表示相对平坦的分布。)结果为21.86,下面观察一下当极值范围在-10和10之间时,KURT函数的取值结果,如图所示。

当极值与原值的取值范围比较接近的时候,峰值会接近于0,而极值与原值的范围差距比较大时,峰度值会变大,但是无论是正极值还是负极值,峰度的最大值都是23左右。

偏度是衡量数据对称性的一个重要指标,EXCEL中对应的函数是SKEW,它用于比较对象正态分布曲线,如图所示,这是一个左偏的数据图。

数据明显左偏,其偏度值为0.346,再来看看下图,这是一个右偏的数据图。

数据的偏度为-0.098,此时数据明显右偏。因此根据偏度值判断数据对称性的规则如下:

❑ 数据服从正态分布,偏度为0。

❑ 数据左偏,偏度>0。

❑ 数据右偏,偏度<0。

6.连续和离散

连续变量和离散变量是数据分析中经常碰到的概念,所谓连续变量就是一个区间里可以任意变化的量。

离散变量内部也有区分,图所示为离散型变量的分类。

7.因变量和自变量

因变量,一般指的是我们研究和关心的变量,自变量一般就是其发生变化后会引起其他变量变化的变量。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
了解数据分析常用的基本概念
描述性统计分析
六西格玛绿带+黑带教材(第3部分:统计概念)
【独家】考察数据科学家和分析师的41个统计学问题
04描述性统计分析
用Excel做直方图(1):随机数发生器
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服