数据分组,根据分析目的将数值型数据进行等距或非等距分组,这个过程也称为数据离散化,一般用于消费分布,收入分布,年龄分布等。
在excel中,使用vlookup函数的模糊匹配功能进行数据分组操作,非常方便。那么在spss中介绍一个功能叫做“可视分箱”。这里以“用户明细”数据为例了解一下用户的年龄分布特征。,"用户明细"数据中已经有“年龄”变量,现在需要将“年龄”变量进行分组操作,得到一个新的变量“年龄段”。
第一步:打开“用户明细”数据文件,单击【转换】-【可视分箱】,弹出【可视分箱】第一步对话框。
第二步:将“年龄”变量移入“要分箱的变量”框中。单击【继续】按钮,弹出【可视分箱】第二部对话框
第三步:在弹出的【可视分箱】第二步对话框中,在【分箱化变量】栏中输入“年龄段”,单击【生成分割点】
第四步:弹出【生成分割点】对话框,在【第一个分割点位置】栏中输入“20”,在【分割点数】栏中输入“4”,在【宽度】栏中输入“5”,单击【应用】按钮,返回【可视分箱】第二步对话框。
在【可视分箱】第二部对话框中,单击【生成标签】按钮,将生成对应的区间范围标签。
单击【确定】按钮既可以得到“年龄段”变量。
扩展:在【生成分割点】对话框中,为何分别设置20、4、5三个参数?
这个要从【可视分箱】第二步对话框说起,对话框中给出了一个年龄分布预览图,我们观察这个图,最小值是16,最大值是78,年龄主要集中在20-35之间,我们可以把第一个分割点定在20,组距定为5,这样20-35之间按组距5进行分组可以得到3个组,在加上前后2个组,就是5个组,4个分割点,分割点大致就是这样子分的没有绝对的标准,只要能达到解决问题的目的即可。
以上分组可以算是等距分组,那如果进行不等距分组,该如何操作?
如果需要不等距分组,则可以在【可视分箱】第二步对话框中【网格】中直接填入自定义的分割点,例如分别填入“20”、“25”、“35”,第四个“高”会自动生成,然后点击【生成标签】如下图: