打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
算法数学基础-统计的基本概念

这章开始我们开始介绍数理统计的内容。概率论是研究的工具,那么数理统计就是研究的方法。大学里面概率论和统计是一门课,当时其实根本没有学明白,稀里糊涂。现在来理解就是研究的工具和方法的关系,而研究的对象随机现象。在概率论中,我们都假设某个随机变量的分布是已知的,告知了我们一些性质。而数理统计将带来更多的未知,要解决概率论中那些个前提假设如何来的问题,教会我们如何从大量的数据中找到规律、做出推断,是更有用的部分。比如,我们从数据中发现可能一个随机现象可以用正态分布来描述,那么这种感觉或者判断在我们不了解全部信息的情况下是否正确呢?这就需要用到统计学的方法,求得模型的参数、为判断提供依据,告诉我们如何从观察中得到规律!个人觉得学习知识脉络是最重要的,理清楚脉络才能融会贯通,运用自如。

我们先梳理一下统计的基本概念:

1、总体:试验的全部可能的观察值;(是不是样本空间呢?)

2、个体:每一个可能的观察值;(是不是样本点?)

3、容量:总体中包含的个体个数;容量有限的称为有限容量总体,无限容量的称为无限总体。例如投掷硬币,就是一个有限总体,而测量湖水深度就是一个无限总体。(连续随机变量是有限总体么?)担但这个划分也不是绝对的,如果一个很大的量我们也可以将其近似看成无限的,比如测量全国人民身高14亿人就可以近似看成无限总体。

通过上述定义就可以将现实中的样本与概率中的概念联系起来了。总体对应着就是我们的样本空间,个体的观察值(每一次试验结果)对应样本空间的样本点,我们可以用一个随机变量来对应这个样本空间,通过研究随机变量的分布函数和数字特征来研究总体的特点和规律。是不是很顺啊!通过几个定义,从概率论的概念对应到了实际问题。这个就叫建模!把身边的事情用数学模型来描述,是很爽的一件事,如果模型建对了你就可以解释现象、预测未来了,哈哈哈哈。

举个例子吧,比如我们生产了一批零件,这批零件就是一个总体,有合格的也有不合格的。如果我要了解这批零件的合格率但又不能全部每一个都测量一遍,我们就可以用一个随机变量X来对应(X代表这个零件的合格率),模型就建完了。接下来我们可以研究X的分布函数、数字特征了。如何研究呢?不知大家有没有想起大数定律,如果有那么说明你前面的内容掌握的不错了。我们可以采用抽样几批求平均的方法,通过小样本的研究来近似总体的特征。这个就是统计学的方法了。

因为总体的分布通常是未知的,一般都是通过抽样的方法来获得总体特征进行推断。所以抽样概念及方法自然而然就需要提炼出来了。

4、样本:从总体抽取一部分数据对总体进行推断,被抽出的部分个体叫做样本;

5、简单随机样本:在相同条件在对总体进行n次抽样并记录观察值,每一次观察值都是独立的,而且与总体有相同的分布函数,则称为容量为n的简单随机样本。也就是一个简单随机样本包括了n个观察值。比如我想考察北京市的人均收入,那简单随机样本应该怎么选呢?我就不能过多的考虑差异,按地区抽样是比较合理的,因为不同人们的地域分布可以假设是均匀的,高低收入人群的分是类似的。(可能例子不是太恰当,但是大家理解意思就好了),就是要求抽样的前提一致,样本之间无关联。这样我们就可以简单求得总体分布(X1,X2,X3)=F(X1)*F(X2)...F(Xn)-假设样本无关,所以从独立性的定义出发联合分布的概率等于概率之积,即从样本的分布得到了总体的分布。这是从部分感知总体的方法,但是约束也是很清晰的就是部分之间没有联系!

6、统计数据的图形表示:直方图、箱线图。直方图就不解释了,就是将统计数据用曲线的形式表示出来,有很多例子比如图像处理中的灰度图就是典型的直方图,横坐标是灰度纵坐标是点数,这种直方图外部轮廓线从大数定律的角度出发接近于总体的概率密度函数。另外一种图要多说两句,叫箱线图。箱线图就是把数据分布表示在图上的一种方法,非常有利于比较不同组数据之间的差异。分位点就是数据集的划分,通常有第一分位点、第三分位点,通俗理解就是将数据排序后得到的最大、最小、1/4大、1/2大、3/4大以及每个区间的数据个数用图像表示出来。这样不光可以看到数据的个数,还可以知道数据按一个直观分布情况。同时箱线图还可以排除测试中的异常数值。箱线图特别适合用于不同组之间的数据比较。如下图,中间的黑线就是中位数,我们可以看到这些房价的总体是平稳的,99年的房价5万元以下的比较集中,而2003年的房价6-10万这个区间分布比较集中(此例为示意,勿当真)。大家可以感受一下,箱线图中表达的信息还是非常丰富的。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
概率论及数理统计习题Overleaf排版
第六章 数理统计的基本概念1
统计学基础之总体与样本
概率与统计
2018年高考数学提分秘籍 概率统计七大考点突破
高考数学纠错笔记-统计
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服