打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
偏最小二乘回归及其SAS实现
userphoto

2020.07.18

关注

偏最小二乘回归可用于解决多重共线性问题,其用途比主成分回归更为广泛。最初由经济计量学家Herman Wold于20世纪70年代提出比较系统的算法体系,被许多统计学家称为“第二代多元统计分析方法”。

偏最小二乘回归综合了线性回归、主成分分析及典型相关分析的优点,其目的是研究多因变量对多自变量的回归建模,能够在自变量存在严重相关性条件下建模,尤其适用于含量较小的情形。

偏最小二乘回归的SAS程序主要通过proc pls过程实现:

proc pls <option(s)>; model 因变量=自变量 </option(s)>;run;

proc pls命令常用的选项有:

** cv=:**指定交叉确认方法以确定适当因子数。常用的有cv=one,cv=split, cv=block, cv=random
cvtest: 对交叉确认方法选择的不同成分的模型进行比较检验
method=: 指定因子提取方法,常用有pls(偏最小二乘回归法)、pcr(主成分回归法)、rrr(降秩法);这些方法在多因变量分析时由于侧重不同有较大的差别;单因变量分析时差别不大,可直接选method=pls

model语句常用的选项有:

solution:给出以0为中心的标准化(即均数为0,标准差为1)回归系数和原始变量的回归系数

SAS程序例子

pls程序.png

结果分析

第一部分 交叉确认法确定提取的因子数并给出检验结果

交叉确认法分析结果.png

看上面的第三个表:第1列为提取因子数,第4列为提取相应因子数与PRESS(预测残差平方和)最小因子数相比的P值。

结果显示:

  • 提取1个因子与提取2个因子所提供的信息并无统计学差异(P=0.4920);
  • 提取3个因子与提取2个因子所提供的信息也无统计学差异(P=0.8630)。

再看第四个表:第一行结果为2,第二行结果为0.3651,提示提取两个因子时PRESS均方最小(0.3651);第三行结果为1,表明最小因子数为1,且1个因子的模型与2个因子的模型相比无统计学差异。既然差别不大,从简化角度来看,提取1个因子显然比提取2个或3个因子更为可取。

第二部分 偏最小二乘回归法提取因子及其贡献率

偏最小二乘回归法提取因子及其贡献率.png

结果表明:

  • 提取的1个因子已经涵盖了97.39%的自变量信息以及88.57%的因变量信息。

第三部分 标准化回归系数估计

标准化回归系数估计.png

第四部分 原始变量的回归系数估计

原始变量回归系数估计.png

得最终原始变量的模型为:
xin = -14.13105929 0.26465955 x height 0.42241598 x weight 0.56172162 x cir

偏最小二乘回归应用特点:

  • 适用于样本含量相对较小的情形,甚至可用于样本含量小于自变量数的特殊情况。(传统线性回归一般要求样本含量是自变量个数的5~10倍)
  • 适宜处理多因变量和多自变量的数据,尤其是因变量之间和自变量之间均存在较强相关性的情形。
  • 偏最小二乘回归可利用VIP(variable important forprojection)指标进行变量筛选。

偏最小二乘回归变量筛选

SAS程序

vip程序.png

结果:

vip plots.png
vip.png

结果显示:

  • 三个变量的VIP非常接近,表明三个自变量对因变量的影响大小差不多,很难确认删除哪个。如果用多重性回归进行逐步回归分析,结果只能保留体重一个变量,显然过于片面。(逐步回归过程略)
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
logistic模型(logit和logistic模型的区别?)
SAS系列34:多元线性回归SAS实践
使用SAS进行变量筛选、模型诊断、多元线性回归分析
结构方程实战演练|如何调节变量效果确定?
戏说统计学习笔记(9)——结构方程模型
线性回归原理及其Excel实现方式 谁都能学会 | 调查问卷分析 | 问卷调查资料
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服