打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据分析必备五大思维(二)——统计思维
统计思维
本节的思维偏知识类,训练的过程其实就是学习知识的过程。
下边就比较通用的统计知识和方法做简单介绍。
Lary Wasserman 在 《All of Statistics》 的序言里有说过概率论和统计推断的区别:
大意:
统计学:根据手中信息,猜猜桶里有啥?
概率论:根据桶中信息,猜猜手里有啥?
一句话总结:统计是在已知数据的前提下,进行模型的归纳与推断;概率是在已知模型的基础上,对其他样本数据进行预测。
当我们做数据分析时,常需要解决的事情是,针对已知数据,做描述性统计,针对未知总体,抽样和根据样本做推断性统计。针对规律性总结,如预测未来,做统计建模。
描述性统计:统计指标
统计变量有三类,分别是计量、等级和计数。本文主要讲计量变量的统计指标。
集中趋势
1、算术平均(arithmetic mean):所有变量值相加除以n(注:n为数据个数)。如果只说平均数的话,不一定是指算术平均,还有几何平均、调和平均、平方平均和移动平均。当然最常用的是算术平均。
2、中位数(median):是将一组数据按照从小到大的顺序排列,位置居中的那个数,如果总个数是偶数,则居中的有两个数,求平均即中位数。如6、8、5、9、3的中位数就是6。因为中位数只要能够按照大小排序就可以计算,故适用范围更广。因此,一组数据如果不符合对称分布,则不用平均数,考虑用中位数。
3、众数(mode):一组数据中,出现频次最多的那个数。可能一个,也可能有多个。
离散趋势
1、极差(range,R):最大值减去最小值,得到数据分布的最大区间,这个指标就是极差。
极差容易受极端情况或者误差影响,不稳定,且不能代表真实水平。所以出现了四分位数间距(quartile,Q)。
2、四分位数间距(quartile,Q):将数据平均分为四等分,用上四分之一(P75)与下四分之一(P25)之差,来反映离散趋势。前面提到的中位数即P50,另外常常提到的百分位数,其实就是同样道理把数据分成100份,以适用更多情况。第p个百分位数记为Vp,则样本中有且仅有p%的观察值小于等于Vp。
对于不服从正态分布的数据:四分位距
q1:第一个四分位数
q3:第三个四分位数
△ = q3 - q1:四分位距
x > q3 + 3△ 或 x < q1 - 3△:认为是极端异常值或离群值outlier
3、方差、标准差(variance、standard deviation):离均差平方和(sum of square,SS)除以样本量。方差求开方即标准差。
4、变异系数(CV):但当度量衡单位不一样的数据,以及单位一样但均数相差较大时的资料离散趋势比较不可以用标准差。我们用各自的离散趋势标准差除以各自的均数,这样便能很好地实现可比,这就是变异系数。
5、标准分(z-score):对于服从正态分布的数据,z-score 是个无量纲的数,可以消除数据本身的取值范围带来的影响。一般认为z-score > 3 时,可以怀疑异常。
6、相关系数(R):相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母r表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。
抽样与推断
抽样
普查是一件难度很大的事,所以人口普查才十年搞一次。普查是稀有的,抽样是常见的。抽样方法主要有两种,简单随机抽样和分层抽样。
简单随机抽样的定义:总体有限、逐个抽取、等可能性。
分层抽样的定义:在抽样时,将总体分成互不交叉的层,按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本。
系统抽样的定义:系统抽样是将总体中的个体进行编号,等距分组,在第一组中按照简单随机抽样抽取第一个样本,然后按分组的间隔(抽样距)抽取其他样本,这样的方法有时也叫等距抽样或机械抽样。
简单随机抽样与分层抽样的区别和联系
抽样方法
共同点
各自特点
联系
适用范围
简单随机抽样
每个个体被抽到的可能性相等
从总体中逐个抽取
分层/分组抽样时采用简单随机抽样
总体中个体较少、个体差异较小
分层抽样
将总体分成几层,按比例抽取
总体由个体数目较大、且内部差异明显
系统抽样
随机数只有1个,但如果总体具有某一周期性变化,容易出系统性抽样问题
总体中个体数目较大
抽样方法,往往和具体业务场景捆绑紧密。都是抽样,用户抽样可能就是按用户id抽,比如用户id尾号为9的用户池;互联网产品的ABtest,则是先对流量做分桶。
假设检验
假设检验的核心是反证法和小概率思想。
反证法的思想就是将我们要研究的问题凝练为两种可能A和B,然后证明其中的A不可能发生,那就拒绝A接受B。
这里说的“不可能”就是指小概率思想,小概率事件,即发生概率P≤0.05或P≤0.01的事件。小概率事件的应用意义就是小概率事件在一次抽样过程中发生的概率为0。因此,一旦我们判断出某事件的发生概率P≤0.05,我们判断该事件在个体水平不会发生。小概率思想是统计推断的核心,是统计学价值的基础。假设检验就是反证法与小概率事件思想相结合的具体体现。
所以说,假设检验的逻辑是“概率意义上的反证法”。即在假设检验中,先假定原假设成立,在原假设成立的前提下,如果在一次观察(即一次抽样)中小概率事件发生了,根据小概率原理,这是(几乎)不可能的,因此对于原假设应予以否定。
举个例子:我们科研过程中,验证某药是否有疗效,我们将研究结局分为两种可能,H0:药物无效;H1:药物有效。然后采用对应的统计分析方法,去获取H0(药物无效)发生的概率,如果P<0.05,则H0(药物无效)不可能发生,则H1(药物有效)成立。若P>0.05,则H0(药物无效)是可能发生的,则我们不能够拒绝H0,因此尚不能认为该药无效。
两种错误
由于小概率时间发生概率小,但也不是完全不可能发生,所以说小概率事件不可能就会存在误判。有两种误判情况,叫做I类错误和II类错误。
差异性统计
比较两组或多组数据之间是否存在差异,以及差异是否具有统计学意义。
T检验
t检验是基于t分布的统计理论,处理两个总体间的计量资料之间的差异。
方差分析
当我们处理多个总体之间的比较的时候,t检验就已经无能为力了。R.A Fisher就发明了一种处理K个总体间计量变量比较方法——方差分析。方差分析是用变异的思想,将总的变异分为组间变异和组内变异,组内变异往往是个体变异导致,一般不会太大;而组间变异除了个体变异外,还有组间干预措施导致的变异,因此,R.A. Fisher认为,如果组间的变异除以组内的变异,结果远远的大于1,就有理由认为,组间的干预措施在发挥着作用,为了纪念Fisher,这种方法简称F检验。
卡方检验
t检验和F检验是用于比较组间计量资料的。计数资料组间比较采用的方法是卡方检验。该检验被誉为二十世纪科学技术所有分支中的20大发明之一,它的发明者是卡尔·皮尔逊(Karl Pearson)。其基本思想是真实值与理论值的吻合程度,简单到不难理解。
虽然独立样本t检验和方差分析都是要求自变量为定类,但是卡方检验自变量的组别仅仅为两组,方差分析的自变量组别可以是两组以上。
统计模型
统计分析三级,初级说一说,中级比一比,高级找关系。找关系的核心就是建立模型,构建变量之间的数量依存关系,以便进行预测或者控制。
找到关系有几个用处:第一,发现规律,如多因素线性回归模型中的回归系数,可以衡量各个因素的重要性;第二,预测未来,有了公式化的模型,就可以代入可以控制的变量而得到未来期望的因变量。
回归分析
常用的回归有:线性回归(一元、多元)、Logistic回归。
线性回归分为解释性回归与预测性回归,解释性回归用于阐明几个自变量对因变量的作用大小,更是从专业的角度去理解模型,一些P>0.05的变量依据专业可以进入模型,常采用输入法。预测性模型是为了有更好的预测效果,也就是在统计学上追求最佳的模型,此时常采用逐步回归法。
线性回归要求因变量Y为连续性变量,自变量X可以是连续性,也可以是二分类、等级或无序多分类,当是无序多分类时,需要设置哑变量。
一个好的模型,不仅仅是统计学上的最佳模型,更需要得到专业上的可解释。
R方是衡量模型解释度的指标,一般在描述性研究,简单回归中,R2>0.5较好,>0.8就非常好;多重回归>0.3尚可,>0.5良好,>0.6非常好;但对于实验性研究,>0.8以上才有应用的价值。
Logistic回归适用于预测结果是二分类问题,如发病(y =1)与不发病(y =0)。本质上跟线性回归差不多,只是需要多做一个logit变换。
时间序列
时间序列适用于指标数量少的情况,特别是只有一个DAU/销售量的情况。
平滑:用于相对平稳的数据。
自回归:用于趋势性递增、递减的数据。
带季节因素自回归:用于有周期性波动的数据。
探索性分析
聚类
理想的聚类,首先应该稳定,并且专业上很好解释。同时在聚类图上,有一个特点,就是组间的差异很大,而组内的差异较小。
主成分分析
其实就是对变量进行聚类。可用于指标降维。
统计谬误
相关≠因果
人们常常将相关性和因果关系混淆。举个很简单的例子,一个小朋友从8岁到18岁,身高和体重强相关,但我们不能说身高是由体重决定的。身高和体重都与小朋友的年龄相关,随着他年龄的成长而增长了身高和体重。
辛普森悖论
这个悖论一句话总结,就是每个部分都很好的情况下,总体反而更糟糕。一般案例中,当每组数据对比与整体数据给出不同的结果时,我们就称之为辛普森悖论。如此命名是因为它是由爱德华·辛普森(Edward Simpson)于1951年描述的。然而,同样的观念早在1900年就被苏格兰统计学家乔治·尤尔(George Yule)准确地描述过。
举个例子,下边是某个病症的治愈率,从整体情况看,旧方法整体的治愈率为42÷90=46.7%,新治疗方法整体的治愈率为42÷110=38.2%。总体而言,旧的治疗方法有更高的治愈率。
但从患者患病的两种等级下看新的治疗方法对于轻微患者(新方法治愈率为33%,旧方法治愈率为20%)和严重患者(新方法治愈率为60%,旧方法治愈率为50%)来说都有更高的治愈率,新方法比旧方法更有效。
为什么会出现这种情况?
核心原因在于样本分组的不均等。旧方法更多地用在了治愈率更多的轻微患者身上。旧方法的轻微患者占比89%,而新方法的轻微患者占比只有18%。假设新方法用在跟旧方法同样结构的样本上,治愈率将达到57.0%(=33%*11%+11%*89%)
条件概率
我们假设乳房X光检查的准确率是85%:它能准确地判断85%的恶性肿瘤为阳性,判断85%的良性肿瘤为阴性。当你告诉患者她的乳房X光检查结果是阳性时,该告诉她患上癌症的概率是多少呢?
因为乳房X光检查的正确率为85%,大多数人都会认为阳性的结果意味着癌症。研究表明大多数医生也是这样认为的,并告知患者准备治疗癌症。但是更细致的分析却持相反的意见。事实上,患者得癌症的概率相当小,大概为5%。
这是为什么呢?
这是由条件概率引起困惑的案例。处理条件概率问题的合理方法是由托马斯·贝叶斯(Thomas Bayes,1702—1761年)发明的贝叶斯法则。
准确率85%这个数字,是在限定是恶性肿瘤或良性肿瘤条件下,看X光检查结果是阳性或阴性的概率是85%,而如果X光检查结果已知是阳性的情况下,是恶性肿瘤的概率应该是85/1570=5.4%。
这其实也是样本分布不均的影响。如果良性肿瘤的总数也是100,阳性15阴性85的情况下,阳性X光结果下,恶性肿瘤的概率才会是85%=85/(85+15),而我们知道事实上中,良性肿瘤的发生率是99%,要高于恶性肿瘤。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
重庆市巴蜀中学高2021届第8次月考第20题:二项分布
方差分析基础
11统计学题库
2018年7月《医学科研方法学》
统计学名词简述
01-绪论(2015研)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服