打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
ZhangDixiang: 从线性模型到广义线性模型(1)——模型假设篇 | 统计之都 (中国统计学...
在统计学里,对特定变量之间的关系进行建模、分析最常用的手段之一就是回归分析。回归分析的输出变量通常记做YY,也称为因变量(dependent)、响应变量(response)、被解释变量(explained)、被预测变量(predicted)、从属变量(regressand);输入变量通常记做x1x1,…,xpxp,也称为自变量(independent)、控制变量(control&controlled)、解释变量(explanatory)、预测变量(predictor)、回归量(regressor)。本文根据作者自己的一些学习心得和理解,简单且不严格地介绍在模型假设方面普通线性模型和广义线性模型的区别和联系/推广(generalization)。广义线性模型的拟合检验、推断、诊断等方面的方法和手段依赖于模型所采用的分布类型,难以一概而论,将在作者后续的学习心得文章里具体介绍。
  1.普通线性模型的简单回顾
  普通线性模型(ordinary linear model)可以用下式表示:
  Y=β0 β1x1 β2x2 … βp?1xp?1 ?Y=β0 β1x1 β2x2 … βp?1xp?1 ?                          (1.1)
  这里βiβi,i=1i=1,…,p?1p?1称为未知参数,β0β0称为截矩项。
  普通线性模型的假设主要有以下几点:
  1.响应变量YY和误差项??正态性:响应变量YY和误差项??服从正态分布,且??是一个白噪声过程,因而具有零均值,同方差的特性。
  2.预测量xixi和未知参数βiβi的非随机性:预测量xixi具有非随机性、可测且不存在测量误差;未知参数βiβi认为是未知但不具随机性的常数,值得注意的是运用最小二乘法或极大似然法解出的未知参数的估计值β^iβ^i则具有正态性。
  3.研究对象:如前所述普通线性模型的输出项是随机变量YY。在随机变量众多的特点或属性里,比如分布、各种矩、分位数等等,普通线性模型主要研究响应变量的均值E[Y]E[Y]。
  4.联接方式:在上面三点假设下,对(1.1)式两边取数学期望,可得
  E[Y]=β0 β1x1 β2x2 … βp?1xp?1E[Y]=β0 β1x1 β2x2 … βp?1xp?1                                        (1.2)
  从 (1.2)式可见,在普通线性模型里,响应变量的均值E[Y]E[Y]与预测量的线性组合β0 β1x1 β2x2 … βp?1xp?1β0 β1x1 β2x2 … βp?1xp?1通过恒等式(identity)联接,当然也可认为通过形为f(x)=xf(x)=x的函数(link function)联接二者,即
  E[Y]=f(β0 β1x1 β2x2 … βp?1xp?1)=β0 β1x1 β2x2 … βp?1xp?1E[Y]=f(β0 β1x1 β2x2 … βp?1xp?1)=β0 β1x1 β2x2 … βp?1xp?1
  2.广义线性模型的简单介绍
  广义线性模型(generalized linear model)正是在普通线性模型的基础上,将上述四点模型假设进行推广而得出的应用范围更广,更具实用性的回归模型。
  1.响应变量的分布推广至指数分散族(exponential dispersion family):比如正态分布、泊松分布、二项分布、负二项分布、伽玛分布、逆高斯分布。exponential dispersion family的详细定义限于篇幅这里不做详细介绍。
  2.预测量xixi和未知参数βiβi的非随机性:仍然假设预测量xixi具有非随机性、可测且不存在测量误差;未知参数βiβi认为是未知且不具有随机性的常数。
  3.研究对象:广义线性模型的主要研究对象仍然是响应变量的均值E[Y]E[Y]。
  4.联接方式:广义线性模型里采用的联连函数(link function)理论上可以是任意的,而不再局限于f(x)=xf(x)=x。当然了联接函数的选取必然地必须适应于具体的研究案例。同时存在着与假设2.1里提及的分布一一对应的联接函数称为标准联接函数(canonical link or standard link),如正态分布对应于恒等式,泊松分布对应于自然对数函数等。标准联接函数的推导及其应用上的优点涉及到指数分散族的标准化定义,这里不做详述。
  3.简单的例子
  考虑这样一个简单的退保案例:一个保险产品一共卖出12份保单(当然了这在现实中不可能,这里仅为示例),在保单期限内一共有6人退保。那么采用这12个投保人的特征数据如收入、职业、年龄等做为预测变量对退保/退保率进行回归分析时,普通线性模型不再适用,因为这里退保这一事件不再服从正态分布,而是二项分布(当然了如果观测值的个数足够大,比如大于30,正态分布是一个很好的近似)。此时就可采用广义线性模型(目标分布采用二项分布)进行建模。
  4.补充:指数分布族的简介
  指数分布族(exponential dispersion family)实质上是对一类具有以下形式的概率密度函数或具有此类密度函数的分布的总括:
  fY(y;θ,Ψ)=exp[(yθ–b(θ))/Ψ c(y;Ψ)]fY(y;θ,Ψ)=exp[(yθ–b(θ))/Ψ c(y;Ψ)]
  这里ΨΨ和θθ是实参数,b(.)b(.)和c(.;.)c(.;.)是实函数,该密度函数的支集(support)DΨDΨ是RR的子集,且不依赖于θθ。满足θ=η=g(μ)θ=η=g(μ)的联接函数g(μ)g(μ)称为标准联接函数(standard or canonical link)。
  一般情况下参数ΨΨ的值是未知常数(fixed and unknown),因此在许多GLM文献里指数分布族又被称为单参数指数族(one-parameter exponential family)。对于比较常用的分布,ΨΨ和θθ的取值具有特殊的形式:
  正态分布N(μ,σ2)N(μ,σ2):Ψ=σ2Ψ=σ2和θ=μθ=μ
  泊松分布Poisson(λ)Poisson(λ):Ψ=1Ψ=1和θ=logλθ=logλ
  二项分布Binomial(m,p)Binomial(m,p):Ψ=1Ψ=1和θ=log(p/(p?1))θ=log(p/(p?1))
  负二项分布NegativeBinomial(r,p)NegativeBinomial(r,p):Ψ=1Ψ=1和θ=log(1?p)θ=log(1?p)
  伽玛分布Gamma(α,β)Gamma(α,β):Ψ=1/αΨ=1/α和θ=?β/αθ=?β/α
  30
  其他心得:我把你的问题理解为线性回归模型、非线性回归模型和广义线性模型的区别,和方差分析与它们的关系。
  解答如下:
  1、线性回归模型(有PPT)
  适用于自变量X和因变量Y为线性关系,具体来说,画出散点图可以用一条直线来近似拟合。
  模型可以表达为:$\left\{ \begin{align}& y=X\beta \varepsilon  \\  & \varepsilon \sim MVN(0,{{\sigma }^{2}}{{I}_{n}}) \\ \end{align} \right.$,其中$\varepsilon $是随机误差,$MVN$为多元正态分布。
  模型有几个基本假设:自变量之间无多重共线性;随机误差随从0均值,同方差的正态分布;随机误差项之间无相关关系。
  参数使用最小二乘法进行估计。
  假设检验有两个,一个是参数的检验,使用t检验;另一个是整个模型的检验,使用F检验,在构造F统计量时,需要把模型的平方和进行分解,会使用到方差分析。
  此外,判定系数R2和修正判定系数${{\bar{R}}^{2}}$都需要使用到方差分析的结果。
  2、线性混合模型(有PDF)
  我记得我学过,可是没怎么用过。我的理解为在线性模型中加入随机效应项。
  模型可以表达为:$\left\{ \begin{align}  & Y=X\beta Z\gamma \varepsilon  \\  & \gamma \sim MVN(0,G) \\  & \varepsilon \sim MVN(0,R) \\ \end{align} \right.$,其中$Y,X\beta $的意义和线性回归的意义相同,$X\beta $是固定效应部分,$Z\gamma $是随机效应部分,G,R都是协方差矩阵。
  同时假定$Cov(G,R)=0$,即G和R之间无相关关系。
  为了使用上的麻烦,统计学家提供了几种协方差的形式供大家使用。
  3、广义线性模型
  广义线性模型,是为了克服线性回归模型的缺点出现的,是线性回归模型的推广。
  首先自变量可以是离散的,也可以是连续的。离散的可以是0-1变量,也可以是多种取值的变量。
  与线性回归模型相比较,有以下推广:
  (1)随机误差项不一定服从正态分布,可以服从二项、泊松、负二项、正态、伽马、逆高斯等分布,这些分布被统称为指数分布族。
  (2)引入联接函数$g(\cdot )$。因变量和自变量通过联接函数产生影响,即$Y=g(X\beta )$,联接函数满足单调,可导。常用的联接函数有恒等($Y=X\beta $),对数($Y=\ln (X\beta )$),幂函数($Y={{(X\beta )}^{k}}$),平方根($Y=\sqrt{X\beta }$),logit($\ln (\frac{Y}{1-Y})=X\beta $)等。
  根据不同的数据,可以自由选择不同的模型。大家比较熟悉的Logit模型就是使用Logit联接、随机误差项服从二项分布得到模型。
  其他心得1:对连接的方式和因变量的分布有所限制只是因为极大似然估计(包括其方差)有近似的加权最小二乘的形式吧?这样做迭代什么的会方便些。但我感觉这些都不是必要的吧,因为GLM的估计和检验都是建立在极大似然估计和似然比检验的基础上的,理论上连接和分布都可以任意吧?这方面我没细想过,不知道是不是这样。
关于GLM的思想,我感觉很重要的一点就是把传统回归中“误差”的概念进行了升华。还记得当初学线性回归时书里提到了Logistic回归,我当时就郁闷,这回归怎么没有误差项呢?怎么没有误差项呢??怎么能没有误差项呢???
后来才意识到,在传统回归中,我们有意无意地弱化了因变量分布的概念,而只是说误差如何如何,就好像因变量特别不情愿成为一名随机变量似的,它之所以是随机的全是因为那个误差强加到它身上了。不知是不是我个人的感觉,我会潜意识地认为,所谓的因变量其实是指那个期望,而不是期望加上误差后的随机变量。举个例子来说,我们会这样报告回归的结果:给我一个自变量,我就能给出因变量的期望值,以及它的误差大小。这句话的潜台词是,因变量本来就应该是那个期望值的,只是因为误差的影响,才使得它实际的取值有所偏离。
但GLM不这么认为,它一开始就要你意识到,“根本不存在什么误差”,因变量本身就是随机变量。当你建完模后,你能得出的结论是,给我一个自变量,我就能给出因变量的分布。显然说分布如何如何比说误差如何如何更符合统计思维。(当然,传统回归的结果实际上也给出了分布,但我们下意识地忽略了这一点)
总之我感觉,传统回归中我们的思维一直是围绕误差来的,而到GLM中就应该转向直接关注因变量的分布。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
广义线性模型到底是个什么鬼?| 协和八
广义线性模型(Generalized Linear Model, GLM)简介
第五章:利用Python线性回归预测模型
在统计学中为什么要对变量取对数?
你在 或者不在 需要逻辑回归来算 | 协和八
【视频】线性混合效应模型(LMM,Linear Mixed Models)和R语言实现案例
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服