【统计知识】史上最全的哑变量问题总结

哑变量就是模型的细节，哑变量设置是我们在做回归分析时，当自变量是多分类变量常常需要考虑的问题。其实很多人在学习统计学时关注高深的统计模型，对于一些基本问题如哑变量问题反而生疏，鉴于咨询哑变量相关问题的朋友较多，本期特对哑变量设置相关问题，做一次系统的解释和解读，希望可以帮助大家，此处应该有掌声。

1哑变量的定义及实质

答：哑变量（Dummy Variable），也称虚拟变量，其目的是将不能够定量处理的变量量化，如职业、年龄层对发病情况的影响等等。这种“量化”通常是通过引入哑变量来完成的，根据这些因素的属性类型，构造出只取“0”或”1”的人工变量，称之为哑变量（dummy variables），记为D。

2为什么哑变量个数一定是n-1个？

答：相信大家都知道哑变量设置的个数一般均为n-1个，我们通过下面这个例子解释给大家看：

年龄层

少年

青年

中年

老年

如上表所示，有一个四分类的年龄层变量，我们对其设置了3个哑变量，D1哑变量（1代表少年/0代表非少年）; D2哑变量（1代表青年/0代表非青年）; D3哑变量（1代表中年/0代表非中年），这时候就不用再设置一个新变量了，因为总共只有四个分类，如果非少年，非青年，非中年，那就是老年了，所以老年（D1=0，D2=0，D3=0），这就是为什么哑变量的个数是n-1的原因哦，你懂了吗。

3是不是所有分类资料均设置哑变量？

答：分类资料中最简单的二分类资料无需设置哑变量（其自主选择相应对照组）；无需多分类需要设置哑变量；有序多分类，要具体看情况分析，见下解。

4有序分类变量如何设置哑变量？

答：一是从专业出发，如果认为在不同等级对因变量的影响程度是一致的，如每增加一个等级，相应的y的比数[P/(1-P)]的自然对数增加幅度也相同，这时可以按照连续性变量进行处理，这样的模型也更简洁，结果的解释也更方便；当专业上不能给出上述假设时，则需要将该有序变量分别以哑变量和连续型变量的方式引入模型，观察各哑变量的回归系数是否存在等级关系，以及对两个模型进行似然比检验，似然比卡方值等于两模型的-2log(L)之差，自由度为两个模型中自变量个数之差，如果似然比检验无统计学意义，且哑变量的回归系数间存在等级关系，可以将该变量作为连续型变量引入模型，否则最好还是采用哑变量的方式引入模型。

5针对连续性变量，在进行变量转换时可以考虑设定哑变量？

答：针对连续性变量，我们一般直接带入到模型中，但有些时候根据临床实际意义，我们需要做变量转换，将它转换成分类变量，例如血压，直接带入模型，它表示血压每增加一个单位，y的该变量，其效应时微弱的，这时候我们往往进行有序变量离散化处理。在实际应用中，离散化的处理也是一门学问，比如年龄可按10岁为一档，这时候的解释可变为每增加10岁y的该变量；例如某研究在探索pm2.5对疾病结局的影响时，是将pm2.5按四分位间距处理成四分类的资料，解释为每增加一个四分位的量，结局y的改变量。当然上述的情况，仍然是将分类化后的变量以连续性变量的形式带入模型，探讨与y之间的线性关系，所以前提是两者间存在线性关系。因此，当我们无法确定自变量和因变量之间的变化关系，将连续性自变量离散化时，可以考虑进行哑变量转换，即当做普通的多分类变量一样。

6哑变量设置后该如何带入模型？

参数说明：自变量x1和自变量x2都设置成了哑变量，x1为部位，共5个部位（分别命名为部位1、部位2、部位3、部位4、部位5，以部位1为对照），x2为原因，共5个原因（分别命名为原因1、原因2、原因3、原因4、原因5，以原因1为对照），spss运行结果如图所示。应变量y为成功与否，成功为1，失败为0。问题1：自变量x1和自变量x2的系数还有吗？

答：设置哑变量后，原变量变成相应的哑变量，所有的回归系数仅为与你所设置的参照相比所得回归系数，原变量的线性回归系数不再提供。问题2：结果的解释以哪个为准呢？

答：通过上图可以发现，软件会对原变量x1和x2进行总的检验，本例中p均小于0.05，说明部位和原因对成功与否有影响，如果此处的两个p均大于0.05，将不再对哑变量进行讨论，也不纳入到模型；如果总的P值小于0.05，再考虑哑变量的情况，并做相应解释。问题3：哑变量中有的有意义，有的没意义该怎么办？

答：再总的检验有差异的前提下，即使有的哑变量无统计学意义，我们也要坚持“同进同出”的原则，仍然要在模型中纳入所有的哑变量，以保证哑变量所代表含义的正确性。问题4：参照组的选择是否是固定的？

答：哑变量设置中的参照选择是可选择的，一般选择最关心的比较组，默认以第一个或者最后一个为参照组。

7哑变量设置注意事项？

（1）参照水平的选择最好有实际意义，否则会失去比较的意义，不便于结果的解释，在多分类中往往会设置“其它”这一类，不推荐选用此做为参照。

（2）参照水平组要有一定的频数做保障，如果频数过小，将导致其它与之相对比的水平参数估计的标准误过大，进而可信区间过大，精度过低。（一般不少于30）。

（3）有的模型中午分类对话框自动产生哑变量，可能需要自己生成系列哑变量，在逐步回归时，哑变量要坚持“同进同出”原则。

8SPSS中如何设置哑变量？

答：SPSS中logistic和COX回归中可直接自动设置哑变量，而多重线性回归中无法自动设置哑变量，需要手工自定义哑变量，在带入模型进行逐步筛选时，一定要坚持同进同出原则，下面是SPSS中logistic回归哑变量的介绍： [哑变量在spss中的设置]

图1为SPSS23中的“logistic回归”对话框，若要进行哑变量的设置，点击右上角“分类”按钮，将需要设置为哑变量的变量选入右侧对话框，如图2所示，此时SPSS会对取值有n个水平的自变量X默认产生n-1个哑变量，并以第n水平为参照水平。如图3，在分类变量编码矩阵中，会输出具体的赋值情况，矩阵中元素均为0的那一行表示该自变量相对应的取值水平作为参照水平。

图1：“logistic回归”对话框

图2：“定义分类变量”对话框

图3：输出窗口中的分类变量编码

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。