191问答库 > 请问Logistic回归时，类型较多的分类自变量一定要转为虚拟变量吗？如“教育水平”

请问Logistic回归时，类型较多的分类自变量一定要转为虚拟变量吗？如“教育水平”

2024-11-20 08:30:47

推荐回答（3个）

回答1：

可以用相关分析或者t检验去掉一些变量的。

回答2：

(1)如果分类变量“教育水平”有6个分类：“文盲”、“小学”、“初中”、“高中”、“大专”、“大学及以上”，显然需要（6-1）=5个虚拟变量。
(2)如果你嫌虚拟变量太多的话，可以合并分类。例如把“文盲”，“小学”合并为一个分类“小学及以下”，“初中”、“高中”、“大专”合并为一类“初中-大专”，这样合并以后就只剩下3类了，只需设置2个虚拟变量。当然合并分类需要根据问题的实际情况进行适当合并。
(3)不可以用一个变量的1,2,3,4,5,6代替！这样相当于把“教育水平”当做Interval变量，而不是当做Ordinal变量来处理。也就是加上了假设条件：“大学及以上”-“大专”=“大专”-“高中”
=“高中”-“初中”=“初中”-“小学”=“小学”-“文盲”！按常识的话，这种限制条件显然很难成立。当然，在实际问题中，你可以对这个假设条件进行检验！

回答3：

（1）如果六大类分类变量“教育程度”，“文盲”，“小学”，“初中”，“高中”，“大学”，“大学及以上，很明显（6-1 ）= 5个虚拟变量。
（2），如果你认为太多的虚拟变量，可以结合分类，如“文盲”，“小学”组合成一个分类的“小学及以下”，“初中合并后的学校“，”高中“，”大学“合并为一类初中 - 大学，所以只有三类简单的设置了两个虚拟变量。课程合并归类，根据问题的实际情况，适当地合并。
（3）不能使用的变量，而不是1，2，3，4，5，6，这是一个相当于“教育程度”作为区间的变量，而不是作为序号的变量来处理。即，与假设：“大学及以上” - ？“大学”“大学” - “高中
=”高中“ - ”初中“=”初中学校“ - ”主“ “主” - “文盲”！这种限制是常识，显然很难成立。当然，在实际问题中，你可以测试这个假设！

请问Logistic回归时，类型较多的分类自变量一定要转为虚拟变量吗？ 如“教育水平”

请问Logistic回归时，类型较多的分类自变量一定要转为虚拟变量吗？如“教育水平”