打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【统计知识】史上最全的哑变量问题总结

哑变量就是模型的细节,哑变量设置是我们在做回归分析时,当自变量是多分类变量常常需要考虑的问题。其实很多人在学习统计学时关注高深的统计模型,对于一些基本问题如哑变量问题反而生疏,鉴于咨询哑变量相关问题的朋友较多,本期特对哑变量设置相关问题,做一次系统的解释和解读,希望可以帮助大家,此处应该有掌声。

1哑变量的定义及实质

答:哑变量(Dummy Variable),也称虚拟变量,其目的是将不能够定量处理的变量量化,如职业、年龄层对发病情况的影响等等。这种“量化”通常是通过引入哑变量来完成的,根据这些因素的属性类型,构造出只取“0”或”1”的人工变量,称之为哑变量(dummy variables),记为D。

2为什么哑变量个数一定是n-1个?

答:相信大家都知道哑变量设置的个数一般均为n-1个,我们通过下面这个例子解释给大家看:

年龄层

D1

D2

D3

少年

1

0

0

青年

0

1

0

中年

0

0

1

老年

0

0

0

如上表所示,有一个四分类的年龄层变量,我们对其设置了3个哑变量,D1哑变量(1代表少年/0代表非少年); D2哑变量(1代表青年/0代表非青年); D3哑变量(1代表中年/0代表非中年),这时候就不用再设置一个新变量了,因为总共只有四个分类,如果非少年,非青年,非中年,那就是老年了,所以老年(D1=0,D2=0,D3=0),这就是为什么哑变量的个数是n-1的原因哦,你懂了吗。

3是不是所有分类资料均设置哑变量?

答:分类资料中最简单的二分类资料无需设置哑变量(其自主选择相应对照组);无需多分类需要设置哑变量;有序多分类,要具体看情况分析,见下解。

4有序分类变量如何设置哑变量?

答:一是从专业出发,如果认为在不同等级对因变量的影响程度是一致的,如每增加一个等级,相应的y的比数[P/(1-P)]的自然对数增加幅度也相同,这时可以按照连续性变量进行处理,这样的模型也更简洁,结果的解释也更方便;当专业上不能给出上述假设时,则需要将该有序变量分别以哑变量和连续型变量的方式引入模型,观察各哑变量的回归系数是否存在等级关系,以及对两个模型进行似然比检验,似然比卡方值等于两模型的-2log(L)之差,自由度为两个模型中自变量个数之差,如果似然比检验无统计学意义,且哑变量的回归系数间存在等级关系,可以将该变量作为连续型变量引入模型,否则最好还是采用哑变量的方式引入模型。

5针对连续性变量,在进行变量转换时可以考虑设定哑变量?

答:针对连续性变量,我们一般直接带入到模型中,但有些时候根据临床实际意义,我们需要做变量转换,将它转换成分类变量,例如血压,直接带入模型,它表示血压每增加一个单位,y的该变量,其效应时微弱的,这时候我们往往进行有序变量离散化处理。在实际应用中,离散化的处理也是一门学问,比如年龄可按10岁为一档,这时候的解释可变为每增加10岁y的该变量;例如某研究在探索pm2.5对疾病结局的影响时,是将pm2.5按四分位间距处理成四分类的资料,解释为每增加一个四分位的量,结局y的改变量。当然上述的情况,仍然是将分类化后的变量以连续性变量的形式带入模型,探讨与y之间的线性关系,所以前提是两者间存在线性关系。因此,当我们无法确定自变量和因变量之间的变化关系,将连续性自变量离散化时,可以考虑进行哑变量转换,即当做普通的多分类变量一样。

6哑变量设置后该如何带入模型?

参数说明:自变量x1和自变量x2都设置成了哑变量,x1为部位,共5个部位(分别命名为部位1、部位2、部位3、部位4、部位5,以部位1为对照),x2为原因,共5个原因(分别命名为原因1、原因2、原因3、原因4、原因5,以原因1为对照),spss运行结果如图所示。应变量y为成功与否,成功为1,失败为0。问题1:自变量x1和自变量x2的系数还有吗?

答:设置哑变量后,原变量变成相应的哑变量,所有的回归系数仅为与你所设置的参照相比所得回归系数,原变量的线性回归系数不再提供。问题2:结果的解释以哪个为准呢?

答:通过上图可以发现,软件会对原变量x1和x2进行总的检验,本例中p均小于0.05,说明部位和原因对成功与否有影响,如果此处的两个p均大于0.05,将不再对哑变量进行讨论,也不纳入到模型;如果总的P值小于0.05,再考虑哑变量的情况,并做相应解释。问题3:哑变量中有的有意义,有的没意义该怎么办?

答:再总的检验有差异的前提下,即使有的哑变量无统计学意义,我们也要坚持“同进同出”的原则,仍然要在模型中纳入所有的哑变量,以保证哑变量所代表含义的正确性。问题4:参照组的选择是否是固定的?

答:哑变量设置中的参照选择是可选择的,一般选择最关心的比较组,默认以第一个或者最后一个为参照组。

7哑变量设置注意事项?

(1)参照水平的选择最好有实际意义,否则会失去比较的意义,不便于结果的解释,在多分类中往往会设置“其它”这一类,不推荐选用此做为参照。

(2)参照水平组要有一定的频数做保障,如果频数过小,将导致其它与之相对比的水平参数估计的标准误过大,进而可信区间过大,精度过低。(一般不少于30)。

(3)有的模型中午分类对话框自动产生哑变量,可能需要自己生成系列哑变量,在逐步回归时,哑变量要坚持“同进同出”原则。

8SPSS中如何设置哑变量?

答:SPSS中logistic和COX回归中可直接自动设置哑变量,而多重线性回归中无法自动设置哑变量,需要手工自定义哑变量,在带入模型进行逐步筛选时,一定要坚持同进同出原则,下面是SPSS中logistic回归哑变量的介绍:    [哑变量在spss中的设置]

图1为SPSS23中的“logistic回归”对话框,若要进行哑变量的设置,点击右上角“分类”按钮,将需要设置为哑变量的变量选入右侧对话框,如图2所示,此时SPSS会对取值有n个水平的自变量X默认产生n-1个哑变量,并以第n水平为参照水平。如图3,在分类变量编码矩阵中,会输出具体的赋值情况,矩阵中元素均为0的那一行表示该自变量相对应的取值水平作为参照水平。

图1:“logistic回归”对话框

图2:“定义分类变量”对话框

图3:输出窗口中的分类变量编码

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
科研写作 | SPSS-PROCESS插件的使用—安装与中介效应篇
spss教程
案例分析 | 有序多分类logistic回归及SPSS操作
SPSS 10.0高级教程十三:分类资料的Logistic回归分析
逻辑回归的常见问题
SPSS教程:两个有序分类变量的趋势性检验
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服