23. 统计与统计数据。
23.1统计学
23.1.1统计学的定义及两大分支
一、统计学的定义
统计学是一门关数据的学科,概括来讲,统计学是关于收集、整理分析数据和从数据中得出结论的科学。
二、统计学的两大分支
统计学的两大分支是描述统计和推断统计。
【描述统计】研究数据收集、整理和描述的统计方法。
其内容包括:
(1)如何取得所需要的数据。
(2)如何用图表或数学方法对数据进行整理和展示。
(3)如何描述数据的一般特征。
【推断统计】
研究如何利用样本数据推断总体特征的统计方法。其内容包括
(1)参数估计:利用样本信息推断总体特征
(2)假设检验:利用样本信息判断对总体假设是否成立
23.2变量和数据
23.2.1变量和数据的分类
一、变量
变量是研究对象的属性或特征,它是相对于常数而言的。
常数只有一个固定取值,变量可以有两个或更多个可能的取值。
二、数据
数据是对变量进行测量、观测的结果。
数据可以是数值、文字或者图像等形式。
数据的类别如下:
定量数据(数值型数据)是对定量变量的观测结果,其取值表现为具体的数值。
【如】企业的销售额是1000万元
分类数据:
分类变量的观测结果,表现为类别,一般用文字来表述,也可用数字描述。
【如】用1表示“男性”,2表示“女性”
顺序数据:
顺序变量的观测结果,表现为类别,一般用文字描述,也可用数字描述。
【如】用1表示“"硕士及以上”,2表示“本科”,3表示“大专及以下”
23.3数据的来源
23.3.1数据来源的分类
一、按收集方法
【观测数据】
通过直接调查或测量而收集的数据。
几乎所有与社会经济现象有关的统计数据都是观测数据。【如】GDP、CPI、房价等
【实验数据】
通过在实验中控制实验对象以及其所处的实验环境收集到的数据。
【如】。一种新产品使用寿命的数据,一种新药疗效的数据。自然科学领域的数据大多都是实验数据
二、从使用者的角度
【一手数据】
来源于直接的调查和科学实验的数据,对使用者来说这是数据的直接来源。其来源主要有:调查或观察、实验
【提示】在社会经济领域,统计调查是获得数据的主要方法,也是获得一手数据的重要方式。
【二手数据】来源于别人的调查或实验的数据。对使用者来说这是数据的间接来源
23.4统计调查
23.4.1统计调查的种类和方式
一、统计调查的种类
统计调查过程有两个重要特征:
【一是】调查是一种有计划、有方法、有程序的活动;
【二是】调查的结果表现为搜集到的数据。
(二)按调查对象的范围不同
全面调查
对构成调查对像的所有单位进行逐一的、无一遗漏的调查,包括:
1.全面统计报表
2.普查
(1)人口普查:对全国人口无一例外进行登记调查
(2)经济普查:对像是中华人民共和国境内从事第二、第三产业活动的全部法人单位、产业活动单位和个体经营户
非全面调查
对调查对象中的一部分单位进行调查。
包括:非全面统计报表、抽样调查、重点调查和典型调查
(三)按调查登记的时间是否连续
连续调查
观察总体现象在一定时期内的数量变化,说明现象的发展过程,目的是为了解社会现象在一段时期的总量。
【如】工厂的产品生产、原材料的投入、能源的消耗、人口的出生、死亡等
不连续调查
间隔相当长的时间(通常一年以上)所作的调查,为了对总体现象在一定时点上的状态进行研究。
【如】生产设备拥有量、耕地面积等
二、统计调查方式
(一)统计报表
按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方式。
统计报表要以一定的原始数据为基础,按照统一的表式、统一的指标、统一的报送时间和报送程序进行填报。
1按调查对象范围的不同分为全面统计报表和非全面统计报表。目前的大多数统计报表都是全面报表,
2按报送周期长不同可分为日报,月报,季报年报,
3按报表内容和实施范围不同可分为国家的、部门的、地方的统计报表。
(二)普查
为某一特定目的而专门组织的一次性全面调查,主要用于收集处于某一时点状态上的社会经济现象的基本全貌。
(1)普查通常是一次性的或者周期性的
经济普查每10年进行2次,逢年份末尾数字为3、8的年份实施
人口普查每10年进行1次,逢“0”年份实施;
农业普查每10年进行1次,逢“6”年份实施
(2)普查一般要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性,
第五、六、七次人口普查的标准时间为普查年份的11月1日0时。
农业普查和经济普查的标准时间为普查年份的1月1日0时。
标准时间一般定为调查对象比较集中、相对变动较小的时间。
(3)普查数据一般比较准确,规范化程度较高
(4)使用范围比较窄,只能调查基本及特定的现象
(三)抽样调查
从调查对象的总体中抽取部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查。
(1)经济性:最显著的优点
(2)时效性强
(3)适应面广
(4)准确性高:工作量小,各环节可以做的更细致,登记性误差往往较小
(四)重点调查
从调查对像的总体中选择少数重点单位进行调查。所选择的重点单位就调查的标志值来说在总体中占绝大比重。重点调查的适用范围很广,以较少的投入、较快的速度取得某些现象主要标志的基本情况或变动趋势。
【目的】只要求了解基本状况和发展趋势,不要求掌握全面的数据。
举例
(1)为了及时了解全国城市零售物价的变动趋势,就可以对全国的35个大中型城市的零售物价的变化进行调查,这就是重点调查
(2)要及时了解全国工业企业的增加值和资产总额情况,只需对全国大中型工业企业进行重点调查即可。
(3)重点调查能以较少的投入、较快的速度取得某些现象主要标志的基本情况或变动趋势,例如国家统计局的全国5000家工业企业联网直报制度就属于重点调查。
(五)典型调查
根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行的调查。
作用:
(1)弥补全面调查的不足
(2)在一定条件下可以验证全面调查数据的真实性
优点:灵活机动、通过少数典型单位即可取得深入翔实的统计资料。典型调查不是统计活动所特有的方法,但从统计过程来说,是一种必不可少的方法。运用典型调查主要在于了解与统计数字有关的生动的具体情况,【即】与现象数量有关的社会条件及其相互联系,以便进行深入的统计分析。
23.5数据科学与大数据
23.5.1数据科学
1提出者
数据科学这个词最早由丹麦的计算机科学领域先驱彼得・诺尔提出。
2含义
是一门通过系统性研究获取与数据相关的知识体系的学科。
3研究对象
【数据】即从“数据”整合成“信息”进而组织成“知识“的整个过程,包含对数据进行采集、储存、处理、分析、表现等一系列活动。
一方面研究数据本身的特性和变化规律,另一方面通过对数据的研究为自然科学和社会科学提供一种新的方法,从而揭示自然界和人类行为的现象和规律。
4研究目标
获得洞察力和理解力,通过对数据的分析、来解释、预测、洞见和决策,为现实世界服务
5涉及领域
统计学、机器科学、计算机科学、可视化、人工智能、领域知识等
23.5.2大数据
一、大数据的含义
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
二、大数据的特性--4V
1,数据量大Volume
大数据的起始计量单位是PB(1024TB,大约50多万部电影)、EB(约100万TB)或ZB未来甚至会达到YB或BB。
【补充知识:数据的计量单位由小到大是B、KB、MB、GB(大概一部普通电影2GB)、TB(1024GB,大约存储500部电影)、PB、EB等】
2,数据多样性Variety
类型繁多,包括网络日志、音频、视频、图片、地理位置等各种结构化、半结构化和非结构化的数据。
(1)结构化数据:是指存储在数据库里,可以用二维表结构实现表达数据
(2)非结构化数据:是指数据结构不规则或不完整,没有预定义的数据。
包括所有格式的办公文档、文本、图片、报表、图像、音频信息、视频信息等
(3)半结构化数据:是介于完全结构化数据和完全非结构化数据之间的数据,具有一定的结构性。
【例如】员工简历,有的简历只有教育情况,有的简历包括教育、婚姻、户籍、出入境等很多信息。
3.价值密度低Value
大数据价值密度的高低与数据总量的大小成反比。例如视频,在连续不间断的监控中,有用数据可能仅有一两秒。
4,数据的产生和处理速度快Velocity
数据的处理要符合“1秒定律”。大数据的智能化和实时性要求越来越高,一般要在秒级时间范围内给出分析结果,超出这个时间数据就可能失去价值。
23.5.3数据挖掘
一、含义
从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。包含以下几层含义:
1数据源必须是真实的、大量的、有噪声的
2发现的是用户感兴趣的知识
3发现的知识是可接受的、可理解、可运用的
4并不要求发现放之四海而皆准的知识,只支持特定的发现问题。
二、出发点和核心任务
数据挖掘以解决实际问题为出发点;核心任务是对数据关系和特征进行探索。
三、类型
1指导学习或监督学习
监督学习是对目标需求的概念进行学习和建模,通过探索数据和建立模型来实现从观察变量到目标需求的有效解释。
2无指导学习或非监督学习
无监督学习没有明确的标识变量来表达目标概念,主要任务是探索数据之间的内在联系和结构
四、常用的算法
1.分类
(1)【含义】确定目标对象属于哪个预定类别,以实现对未来潜在的预测需求。分类技术属于一种监督学习,即使用已知类别的训川练数据建立分类模型的方法。
(2)【实际应用】在邮件系统中区分出垃圾邮件,在贷款客户中判断出有风险客户等。
(3)【常用方法】决策树分类法、贝叶斯分类法、关联分类法、支持向量机、神经网络等。
2聚类分析
(1)【含义】把一组数据按照差异性和相似性分为几个类别,使得同类的数据相似性尽量大,不同类的数据相似性尽可能小,跨类的数据关联性尽可能低。聚类是一种无监督学习。其要划分的类是未知的,聚类分析是根据观察学习来确定数据之间的关系。
(2)【实际应用】用于客户细分、文本归类、结构分组、行为跟踪等问题
(3)【方法】基于划分的方法、基于分层的方法基于密度的方法、基于网格的方法和基于模型的方法。
3关联分析
(1)【含义】是对数据集中反复出现的相关关系和关联性进行挖掘提取,从而可以根据一个数据项的出现预测其他数据项的出现。
(2)【实际应用】啤酒尿布案例,数据挖掘发现大型超市中购买啤酒的男士经常同时购买小孩纸尿裤,基于这一发现,超市把啤酒和纸尿裤摆放在一起,结果两种商品的销售量明显提升。
(3)【方法】购物篮分析,目的是发现交易数据中不同商品之间的联系规则,让营销商制定更好的营销策略。
4.趋势与演化分析
包括数据变化趋势、序列模式分析、周期性分析以及相似程度分析等内容。统计学的回归分析方法经常用于这类问题的分析。
5其他分析方法
特征分析、异常分析等。
23.5.4数据可视化
含义
借助图形手段清贼有效地传达与沟通信息。
【优势】在于简单,表现清晰。利用人对形状、颜色、运动的敏感,有效传递信息,帮助用户从数据中发现关系、规律和趋势。
科学可视化:面向科学与工程领域的数据。【如】包含空间坐标和几何信息的三维空间测量数据、计算机模拟数据和医学影像数据。重点探索以几何、拓扑和形状特征来呈现数据中蕴含的规律。
信息可视化:处理对象是非结构化、非几何的抽象数据,【如】金融交易社交网络和文本数据。大数据时代,信息可视化面临的挑战是要在海量、动态变化的信息空间中辅助人类理解进而挖掘信息、发现知识
24. 描述统计。
对数据分布特征的测度
分布的集中趋势,反映数据向其中心值靠拢或聚集的程度
分布的离散程度,反映各数据之间的差异程度,也能友映中心值对数据的代表程度
分布的偏态反映数据分布的不对称性
对于两个变量之间的相关分析,经常采用的描述方法是散点图和相关系数统计量。
24.1集中趋势的测度
24.1.1集中趋势的含义及测度指标
一、集中趋势的含义
集中趋势是指一组数据向某一仲心值靠拢的程度,集中趋势的测度就是寻找数据一般水平的代表值或中心值。
二、集中趋势的测度指标
(一)均值
均值也就是平均数,就是数据组中所有数值的总和除以该组数值的个数。
1均值是集中趋势中最主要的测度值,是一组数据的重心所在,解释了一组数据的平均水平。
2均值主要适用于数值型数据,但不适用于分类数据和顺序数据。
3均值易受极端值的影响,极端值会使得均值向极大值或极小值方向倾斜,使得均值对数据组的代表性减弱。
(二)中位数
1.含义
把一组数据按从小到大或从大到小的顺序进行排列,位置居中的数值叫做中位数。中位数将数据分为两部分,其中一半的数据小于中位数,另一半数据大于中位数。
2.计算
根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置
3.适用
中位数是一个位置代表值
主要适用于:顺序数据和数值型数据
不适用于:分类数据
中位数不受极端值的影响,抗干扰性强,尤其适用于收入这类偏斜分布的数值型数据。
(三)众数
1.含义
众数是指一组数据中出现次数(频数)最多的变量值。
2.适用
众数适于描述分类数据和顺序数据的集中趋势。尤其是分布明显呈偏态时,众数的代表性更好。而定量数据中,可能出现多众数和无众数的情况,因此众数不适用于描述定量数据的集中位置。有些情况下可能出现双众数、多众数或者没有众数,难以描述数据的集中趋势
24.2离散程度的测度
24.2.1离散程度的含义及测度指标
一、离散程度的含义
离散程度反映的是数据之间的差异程度。
集中趋势的测度值是对数据水平的一个概括性的度量,它对一组数据的代表程度,取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差,离散程度越小,其代表性就越好。
二、离散程度的测度指标
衡量离散程度的指标包括方差、标准差、离散系数
标准差:方差的平方根
【例如】身高的方差是100(cm2),则身高的标准差就是10cm
(1)不仅能度量数值与均值的平均距离,还与原始数值具有相同的计量单位
(2)标准差越小,说明数据值与均值的平均距离越小,均值的代表性越好
(3)标准差的大小不仅与数据的计量单位有关,也与观测值的均值大小有关
(4)不能直接用标准差比较不同变量的离散程度
离散系数:
离散系数(变异系数,标准差系数)
标准差与均值的比值
【例如】平均身高是170cm,标准差是10cm则离散系数=10cm/170cm
(1)离散系数主要用于才同类别数据离散程度的比较。
(2)离散系数消除了测度单位和观测值水平不同的影响,因而可以直接用来比较变量的离散程度。
24.3分布形态的测度
24.3.1偏态系数
偏度:数据分布的偏斜方向和程度,描述的是数据分布对称程度。
偏态系数:测度数据分布偏度的统计量,取决于离差三次方的平均数与标准差三次方的比值。
24.3.2标准分数标准分数(也称为“Z”分数)
一、标准分数适用及计算
在统计上,均值和标准差不同时,不同变量的数值是不能比较的,来自不同分布的变量值不可比,但是每个数值在变量分布中相对于均值的相对位置是可比的,因此可以通过计算标准分数来比较不同变量的取值。标准分数可以给出数值距离均值的相对位置,
二、标准分数的实际应用
在实际应用中,当数据服从对称的钟形分布时,可以运用经验法则来判断与均值的距离在特定倍数标准差之内的数据项所占比例。
24.4变量间的相关分析
24.4.1变量间的相关关系
【完全相关】一个变量的取值变化完全由另一个变量的取值变化所确定,称这两个变量完全相关。【如】价格不变的条件下,某种商品的销售总额由其销售量决定
【不完全相关】介于完全相关和不相关之间,一般的相关现象都属于不完全相关。大部分相关现象均属于不完全相关
【不相关】两个变量的取值变化彼此互不影响【如】股票的价格与气温的高低
正相关:一个变量的取值由小变大,另一个变量的取值也相应的由小变大即两个变量同方向变化(两个变量同方向变化)
负相关:一个变量的取值由小变大,另一个变量的取值由大变小,即两个变量反方向变化(两个变量反方向变化)
相关的形式:
【线性相关】两个相关变量之间的关系大致呈现为线性关系
【非线性相关】两个相关变量之间的关系近似于某种曲线方程的关系
【提示】相关关系并不等于因果关系。比如夏天雪糕和遮阳伞的销售量。
24.4.2相关系数的度量
相关关系的度量(散点图和相关系数)
一、散点图
两变量之间的关系可以用散点图来展示
二、相关系数
相关系数是度量两个变量之间相关关系的统计量。最常用的相关系数是Pearson(皮尔逊)相关系数。
相关系数的取值范围在[-1,1]之间。
散点图和相关系数通常会结击在起考核,给出散点图需要知道相关系数的大致取值范围。给相关系数的范围也应能大致判断散点图的形状。重点考核正线性相关和负线性相关,
25. 抽样调查。
25.1.抽样调查的基本概念
25.1.1.抽样调查的基本概念
抽样调查是使用频率最高的一种调查方式
抽样调查是指按照某种原则和程序,从总体中抽取一部分单位,通过对这一部分单位进行调查得到信息,以达到对总体情况的了解,或者对总体的有关参数进行估计
1.总体→调查对象的全体
2.样本→样本是总体的一部分,由从总体中按一定原则或程序抽出的部分个体所组成。样本也是一个集合。抽样调查中调查的具体实施是针对样本而言的
3.总体参数→总体指标值,它是未知的常数,是根据总体中所有单位的数值计算的,是通过调查想要了解的,不受样本的抽选结果影响。常用的总体参数包括总体总量、总体均值、总体比例、总体方差等
4.样本统计量或估计量→是根据样本中各单位的数值计算的,是对总体参数的估计,也称估计量。它是一个随机变量,取决于样本设计和正好被选入样本的单元特定组合。常用的样本统计量有样本均值、样本比例、样本方差
5.抽样框→供抽样所用的所有抽样单元的名单,是抽样总体的具体表现。【如】企业名录、电话簿、人员名册等。样框中的单位必须是有序的,便于编号
25.1.2.概率抽样与非概率抽样
1概率抽样(随机抽样)
(1)按一定概率以随机原则抽取样本
(2)总体中每个单元被抽中的概率是已知的或者是可以计算出来的
(3)当采用样本对总体参数进行估计时,要考虑到每个样本单元被抽中的概率
【提示】若每个单位被抽中的概率相等,称为等概率抽样;若每个单位被抽入样本的概率不同则称为不等概率抽样。无论等概率或不等概率抽样,抽取时都要通过一定的随机化程序来实现
【抽样方法】
简单随机抽样;分层抽样;系统抽样;整群抽样;多阶段抽样
2非概率抽样:
抽取样本时并不是依据随机原则,调查者根据自己的方便或注观判断抽取样本
【抽样方法】
(1)判断抽样:调查人员依据调查目的和对调查对象情况的了解,人为确定样本单元。例如选平均型单元作为样本。
(2)方便抽样:依据方便原则,以达到最大限度降低调查成本的目的,比如拦截式调查,在街边或居民小区拦住行人进行调查。
(3)自愿样本:不是经过抽取,而是自愿接受调查的单元所组成的样本,典型的是网上调查,
(4)配额抽样:将总体中各单元按一定标准划分为若干类型,将样本数额分配到各类型中,从各类型中抽取样本的方法则没有严格限制。一般采用方便抽样的方法抽取样本单元。
25.1.3.抽样调查的一般步骤
25.1.4.抽样误差与非抽样误差
样本估计值和总体参数值之间的差异称为误差。
抽样误差:由抽样的随机性造成的用样本统计量估计总体参数时出现的误差。
非抽样误差:除抽样误差外,由其他原因引起的样本统计量与总体真值之间的差异。
非抽样误差
(1)抽样框误差:样本框不完善造成的
(2)无回答误差:调查人员没能够从被调查者那里得到所需要的数据。无回答误差分为:
随机因素造成的,如被调查者恰巧不在家;
非随机因素造成的,如被调查者不愿告诉实情而拒绝回答。
(3)计量误差:由于调查所获得的数据污其真值之间不一致造成的误差。这种误差可能是由调查人员、问卷设计、受访者等原因造成的。
【例如】调查员在调查中有意无意诱导被调查者:
调查中的提问错误或记录答案错误;
调查人员有意作弊;
由于问卷的原因受访者对调查问题的理解有偏误;受访者记忆不清、受访者提供虚假数字等。
25.2几种基本概率抽样方法
25.2.1五种基本概率抽样方法
一、简单随机抽样
1.分类
(1)有放回简单随机抽样:从总体中随机抽出一个样本单位,记录观测结果后,将其放回总体中去再抽取第二个,以此类推,直到抽满n个单位为主。该方法容易造成信息重叠而影响估计效率,较少采用。
(2)不放回简单随机抽样:从包含N个单元的总体中逐个随机地抽取单元并不放回,每次都在所有尚未被抽入样本的单元中等概率地抽取下一个单元直到抽取n个单元为止。该法每个单位最多只能被抽中一次,比有放回抽样的抽样误差低。
2.特点
最基本的随机抽样方法,每个单位的入样概率相同样本估计量形式比较简单。但该抽样方法没有利用抽样框中更多的辅助信息,样本分布分散时,会增加调查的时间和费用
3.适用条件
抽样框中没有更多可以利用的辅助信息;调查对象分布的范围不广阔;个体之间的差异不是很大
4.应用举例
在调查某部门平均工资时,从该部门10人中随机抽取5人进行调查,这种抽样方法属于简单随机抽样
二、分层抽样
1.概念
先按照某种规则把总体分为不同的层,然后在不同的层内独立、随机地抽取样本。
【提示】如果每一层都是简单随机抽样,则称为分层随机抽样。为了组织调查的方便,各层还可以采用不同的抽样方法。由于每层都要抽取一定的样本单位,这样样本在总体中分布比较均匀,可以降低抽样误差
2,应用举例
在调查某部门(共10人)的平均工资时,先将该部门员工分为经理(4人)和普通职员(6人)两类,再采用随机原则分别在经理和普通职员中抽取样本,这种抽样方法属于分层抽样
【提示】分层抽样中,样本量在各层中分配的方法有等比例分配和不等比例分配两类。
(1)等比例分配下,层的样本单位比例与该层中的总体单位比例一致,等比例分配操作简单,易于理解
(2)不等比例分配
各层单位数相差悬殊时,可在总体单位少的层适当增大样本量或有些层内方差过大,为了降低抽样误差,在方差大的层中多抽,在方差小的层中少抽。
【提示】在条件具备时,如果各层的总体方差已知,不等比例抽样的抽样误差可能比等比例抽样更小。
3,适用条件
抽样框中有足够的辅助信息,能够将总体单位按某种标准划分到各层之中,实现在同一层内,各单位之间的差异尽可能小,不同层之间各单位的差异尽可能大。(层内差异小,层间差异大)
三、系统抽样
1.概念
将总体中的所有单元按一定顺序排列,在规定范围内随机抽取一个初始单元,然后按事先规定的规则抽取其他样本单元。
最简单的系统抽样是等距抽样【即】将总体N个单位按直线排列,根据样本量确定抽样间隔,抽样间隔=N/n≈k,k为最接近N/n的一个整数,在1~k范围内随机抽取一个整数,令位于位置上的单位为起始单位,往后每隔k抽取一个单位,直至抽满n)
2.应用举例
调查一个居委会4000户家庭人均收入,编号1~4000,要抽取40户,在1~100号中随机确走15号,抽取的样本为15:15+100;15+200;15+300;..15+3900,这种抽样方法属于系统抽样中的等距抽样
3.优点
对抽样框的要求比较简单,它只要求总体单位按一定顺序排列,系统抽样的估计效果与总体排列顺序有关
四、整群抽样
1.概念
将总体中所有的基本单位按照一定规则划分为互不重叠的群,抽样时直接抽取群,对抽中的群调查其全部的基本单位,对没有抽中的群则不进行调查。与简单随机抽样相比,整群抽样的优点是:
(1)实施调查方便,可以节省费用和时间,调查效率较高;
(2)抽样框编制得以简化,抽样时只需要群的抽样框而不要求全部基本单位的抽样框
2.应用举例
(1)调查某城市在职的房地产从业人员工资水平,将房地产行业所有在职人员按照所属企业分群,直接抽取企业单
位,入样企业单位内所有职工均接受调查,没有入样的企业单位员工都不调查;
(2)以家庭为群,采用整群抽样估计某地区的男女比例
3.适用
如果群内各单位之间存在较大差导,群与群的结构相似,整群抽样会降低估计误差
五、多阶段抽样
1.概念
经过两个或两个以上抽样阶段才能抽到最终样本单位,这就是多阶段抽样。
如果经过两个阶段抽样,抽取到接受调查的最终单位,称为二阶段抽样;以此类推。
在大范围的抽样调查中,采用多阶段抽样是必要的
2,应用举例
某城市为调查居民对市政建设的满意度,先从该市所有居委会中随机抽取20个居委会,再从每个被抽中的居委会中随机抽取30个居民家庭进行入户调查,该项调查采用的抽样方式是多阶段抽样,第一阶段采用整群抽样,第二阶段采用了简单随机抽样
25.3估计量和样本量
25.3.1估计量的性质
不同的抽样方法下:同一估计量也会有不同的估计效果
同一抽样方法下:也会有不同的估计量可供选择
估计量的选择标准,即估计量的性质如下:
一致性/无偏性/有效性
【一致性】
随着样本量的增大,估计量的值如果稳定于总体参数的真值,这个估计量就有一致性,也称为一致估计量
【无偏性】
对于不放回简单随机抽样,所有可能的样本均值取值的平均值总等于总体均值
【有效性】
估计量的性质考核方式有两种:
3个性质都是什么。记忆方法是一首歌曲名即”一无所有”,”一”是指一致性;"无”是指无偏性;"“有”是指有效性。
2每一个性质都是什么含义。一致性对应的关键词是“稳定”;无偏性对应的关键词是“等于”;有效性对应的关键词是“密集”
25.3.2抽样误差的估计
一、抽样误差无法避免,但可以计算
在不放回简单随机抽样方法中,将样本均值作为总体均值的估计量。则估计量的方差为:
【提示】实践中,总体方差是未知的,通常用样本方差替代。
二、影响抽样误差的因素
1抽样误差与总体分布有关,总体单位值之间差异越大,即总体方差越大,抽样误差越大。
2抽样误差与样本量n有关,其他条件相同,样本量越大抽样误差越小。
3抽样误差与抽样方式和估计量的选择也有关。例如分层抽样的估计量方差一般小于简单随机抽样。
4利用有效辅助信息的估计量也可以有效的减小抽样误差。
25.3.3样本量的影响因素
确定样本量需要对影响样本量的因素进行分析,影响样本量的因素如下:
1.调查的精度:调查的精度是指用样本数据对总体进行估计时以接受的误差水平,要求的调查精度越高,所需要的样本量就越大
2.总体的离散程度:在其他条件相同情况下,总体方差越大,所需要的样本量也越大
3.总体的规模:对于大规模的总体,总体规模对样本量的需求几乎没有影响但对于小规模的总体,总体规模越大,为保证相同估计精度样本量也要随之增大
4.无回答情况:无回答减少了有效样本量,在无回答率较高的调查项目中,样本量要大一些,以减少无回答带来的影响
5.经费的制约:样本量是调查经费与调查精度之间的某种折中和平衡
6.其他因素:调查的限定时间、实施调查的人力资源等
26. 回归分析。
26.1回归模型
26.1.1回归分析的概念
回归分析就是根据相关关系的具体形态,选择一个合适的数学模型来近似的表达变量间的依赖关系。
进行回归分析时,首先需要确定因变量和自变量。
回归分析中,被预测或被解释的变量称为因变量,用Y表示;用来预测或解释因变量的变量称为自变量,一般用X表示。【例如】在研究边际消费倾向时,目的是预测一定人均收入条件下的平均人均消费金额,因此人均消费金额是因变量,而人均收入为自变量。
26.1.2回归分析与相关分析的关系
1联系
(1)它们具有共同的研究对像。
(2)在具体应用时,常常必须互相补充。
相关分析需要依靠回归分析来表明现象数量相关的具体形式;而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有高度相关时,进行回归分析寻求其相关的具体形式才有意义。
2区别
相关分析与回归分析在研究自的动仿法上具有明显的区别:
(1)相关分析研究变量之间相关的贞响和相送的程度。
(2)回归分析是研究变量之间相送关系的俱体形式,它对具有相关关系的变量之间的数量联系进行测定,确定相关的数学方程或,根据这个数学方程式可以丛已知量来推测未知量,从而为估算和预测提供了一个重要方法
26.1.2回归模型
一、回归模型分类
描述因变量如何依赖自变量和误差项的方程称为回归模型回归模型的类别如下:
1.根据自变量的多少,回归模型可以分为一元回归模型和多元回归模型
2.根据回归模型是否线性,回归模型分为线性回归模型和非线性回归模型。
二、一元线性回归模型
一元线性回归模型是研究两个变量之间相关关系的最简单的回归模型,只涉及一个自变量。
回归分析的一个重要应用就是预测,即利用估计的回归模型预估因变量数值。
26.2最小二乘法
在现实中,模型的参数β0和β1都是未知的,需要利用样本数据去估计,采用的估计方法是最小二乘法。
26.3模型的检验及预测
26.3.1回归模型的拟合效果分析
一、回归模型检验的内容
一般情况下,使用估计的回归方程之前,需要对摸型进行检验。
其内容包括:
(1)结合经济理论和经验分析回归系数的经济含义是否合理
(2)对模型进行假设检验
(3)分析估计的模型对数据的拟合效果如何
二、决定系数
一元线性回归模型拟合效果的一种测度方法是决定系数。
1.决定系数,也称为R2,可以测度回归直线对样本数据的拟合程度。
2,决定系数的取值:在0到1之间,大体说明了回归模型所能解释的因变量变化占因变量总变化的比例。
决定系数越接近1,回归直线的拟合效果越好。
R2=1,说明回归直线可以解释因变量的所有变化。
R2=0,说明回归直线无法解释因变量的变化,因变量的变化与自变量无关。
三、回归系数的显著性检验
在大样本假定的条件下,回归系数的最小二乘估计量β0,β1渐进服从正态分布,可以用t检验法验证自变量X对因变量Y是否有显著影响。
t检验的原理是反证法。
四、模型预测
回归分析的一个重要应用就是预测,【即】利用估计的回归模型预估因变量数值。
五、多元回归模型
多元回归模型在实际应用中,随着自变量个数的增加,即使在有些自变量与因变量完全不相关的情况下,决定系数R2也会增大。为避免因增加自变量个数而高估拟合效果的情况,多元回归模型一般使用修正了自由度的调整后R2。调整后R2考虑了自变量个数增加带来的影响,在数值上小于R2。
27. 时间序列分析。
27.1时间序列的含义、分类
1.时间序列的含义及分类
一、时间序列的含义
1时间序列的含义
时间序列也称动态数列,是将某一统计指标在各个不同时间上的数值按时间先后顺序编制形成的序列,
2时间序列的构成要素
(1)被研究现象所属时间
(2)反映该现象一定时间条件下数量特征的指标值
同一时间序列中,各指标值的时间单位一般要求相等,可以是年、季、月、日。
二、时间序列的分类
按统计指标值的表现形式
绝对数时间序列:统计指标值是总量
时期序列:反映现象在一定付期内发展的结果,是过程总量。【如】国内生产总值时间序列
时点序列:反映现象在一定时点上的瞬间水平。【如】年末总人口时间序列
相对数时间序列:统计指标值是相对数【如】城镇人口比重时间序列
平均数时间序列:统计指标值是平均数【如】人均国内生产总值序列
27.2平均发展水平
1.平均发展水平的计算
一、发展水平的有关概念
1.发展水平
发展水平是时间序列中对应于具体时间的指标数值
2.最初水平、最末水平、中间水平
时间序列中第一项的指标值称为最初水平,最末项的指标值称为最末水平,处于二者之间的各期指标值则称为中间水平
3.基期水平和报告期水平
基期水平:是作为对比的基础时期的水平;
报告期水平:是所要反映与研究的那一时期的水平。
4.平均发展水平
也称序时平均数或动态平均数,是对时间序列中各时期发展水平计算的平均数,它可以概括性描述现象在一段时期内所达到的一般水平。
二、平均发展水平的计算
(一)绝对数时间序列序时平均数的计算
1.由时期序列计算序时平均数:就是简单算术平均数。
2,由时点序列计算序时平均数:
(1)连续时点序列
①资料逐日排列且每天登记。即已掌握了整段考察时期内连续性的时点数据,可采用简单算术平均数的方法计算。
②指标值变动才登记:采用加权算术平均数的方法计算序时平均数,权重是每一指标值的持续天数占总天数的比例
(2)间断时点序列
①间隔时间相等的间断时点序列
计算思想是“两次平均”:先求各个时间间隔内的平均数,再对这些平均数进行简单算术平均。
②间隔时间不相等的问断时点序列。
计算思路“两次平均”第一次的平均计算与间隔相等的间断序列相同;进行第二次平均时,由于各间隔不相等所以应当用间隔长度作为权数,计算加权算术平均数。
(二)相对数或平均数时间序列序时平均数的计算
相对数或平均数时间序列是派生数列,相对数或平均数通常是由两个绝对数对比形成的
【计算思路】分别求出分子指标和分母指标时间序列的序时平均数,然后再进行对比,用公式表示如下
27.2.2.增长量与平均增长量
增长量:
报告期水平-基期水平
反映报告期比基期增加(或减少)的绝对数量
根据基期的不同确定方法
1)逐期增长量:报货期水平-报告期前一期水平
2)累计增长量:报告期水平-最初水平
同一时间序列中,累增长量等于相应时期逐期增长量之和
平均增长量:时间序列中逐期增长量的序时平均数
27.3时间序列速度分析
1.发展速度与增长速度
发展速度:以相对数形式表示的两个不同时期发展水平的比值--报告期水平基期水平
根据基期的选择不同
1)环比发展速度:报告期水平除以报告期前一期水平
2)定基发展速度:报告期水平除以最初水平
定基发展速度与环比发展速度的关系
二、增长速度
报告期增长量与基期水平的比值表明报告期比基期增长(或降低)了百分之几或若干倍
2.平均发展速度与平均增长速度
平均发展速度:是一定时期内各期环比发展速度的序时平均数,目前计算平均发展速度通常采用几何平均法
平均增长速度:一定时期内逐期增长(降低)变化的般程度,平均增长速度=平均发展速度-1
3.速度分析应注意的问题
速度的分析与应用
一、当时间序列中的指标值出现0或负数时,不宜计算速度
二、速度指标的数值与基数的大小有密切关系。
三、在环比增长速度时间序列中,各期的基数不同,因此运用这一指标反映现象增长的快慢时,往往要结合“增长1%的绝对值”分析,这一指标反映同样的增长速度,在不同时间条件下所包含的绝对水平。
27.4平滑预测法
1.平滑预测法的含义及方法
平滑法的目的是“消除”时间序列的不规则成分所引起的随机波动;平滑法适用于平稳时间序列的预测,即没有明显的趋势、循环和季节波动的时间序列:平滑预测法包括移动平均法和指数平滑法等。
移动平均法:使用时间序列中离预测期最近K期数据值的平均数作为下一期的预测值
指数平滑法的特点是,观测值离预测时期越久远,其权重也变得越小,呈现出指数下降
联系客服