专业调查分析与复杂调查解析
1. 专业调查分析之文本分析
在各类调查问卷中,逐字回答是常见特征。以多伦多市议会关于是否允许新建赌场及选址的调查为例,发放了“赌场反馈表”,收集到 17,780 份回复,最终样本量为 17,766 份(14 份记录因未知原因删除)。调查使用了两个问题:一是用 5 点李克特量表表明对在多伦多新建赌场的感受;二是询问给出该评分的主要原因(逐字回答)。
- 数据处理
- 处理缺失数据 :逐字问题“Reason”存在大量缺失数据,可使用 Pandas 的
dropna()方法,代码为df_casino.dropna(inplace = True),其中df_casino是 DataFrame 的名称。 - 数据清理 :在进行文本数据分析前,需清理数据,即去除前导空格和标点符号,分两步进行:
- 去除空格 :使用 Pandas 的
str访问器及其方法,如strip方法去除前导和尾随空格,代码示例为df.myString.str.strip( )。str访问器还有upper、lower、replace、
- 去除空格 :使用 Pandas 的
- 处理缺失数据 :逐字问题“Reason”存在大量缺失数据,可使用 Pandas 的
专业调查分析与复杂设计解析
超级会员免费看
订阅专栏 解锁全文
1237

被折叠的 条评论
为什么被折叠?



