调查数据处理:变量创建、缩放与结构认知
1. 创建新变量
在处理调查数据时,创建新变量是常见的操作,以下是几种创建新变量的方式:
- 创建汇总变量
- 二分法处理李克特量表数据 :假设使用10分制李克特量表进行客户满意度调查,“10”表示非常满意,“1”表示非常不满意。可以将其分为两部分,例如将评分为8、9、10的受访者归类为“满意”,其他为“不满意”。可以使用列表推导式来实现这一转换,代码如下:
[ 1 if x >= 8 else 0 for x in df.satisfaction ]
此代码会对DataFrame `df` 中的 `satisfaction` 变量进行迭代处理,将大于等于8的值转换为1,小于8的值转换为0,并将结果存储在新变量 “t3b” 中。
- **从出生年份计算年龄**:在调查中,询问受访者出生年份(YOB)比直接询问年龄更不容易引起反感。若调查在2010年进行,可通过 `2010 - YOB` 计算年龄,并将其添加到DataFrame中。
- **汇总多个变量**:以退伍军人调查为例,受访者需勾选曾服役的军事分支,有陆军、海军、空军、海军陆战队、海岸警卫队和其他六个选项。可以创建新变量来表示服役分支数量,还可创建另一个变量表示若只服役于一个分支则显示该分支名称,若服役于多个分支则显示 “Multiple”。也可使用Pandas的 `sum` 方法对各分支的指示变量求和,计算每个退伍军人的分支数量,代码如下:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



