调查数据处理全攻略
1. 调查数据的初步处理
在处理调查数据时, pyreadstat 是一个实用的工具。调用 pyreadstat 会返回两个对象,依次为数据和元数据。数据会自动格式化为 Pandas DataFrame,方便后续操作。元数据包含了众多属性,其中比较重要的有变量名、标签和值标签。为了方便,列名及其关联的值标签被整合在 variable_value_labels 属性中。以下是 pyreadstat 返回的部分重要元数据属性列表:
| 对象 | 元属性 |
| ---- | ---- |
| 变量(列)名 | column_names |
| 变量问题 | column_labels |
| 值标签 | value_labels |
| 变量和值标签 | variable_values_labels |
2. 处理缺失值
缺失值是调查分析乃至所有数据分析中令人头疼的问题。没有数据集是 100% 完整和完美的,总会存在数据缺失的情况。若缺失值过多,研究可能因数据不足而无法得出充分且可接受的结论和建议。因此,处理缺失值需要遵循以下步骤:
1. 识别缺失值
Pandas 的数据读取函数可帮助我们识别并对缺失值进行适当编码,以便在显示中识别它们。Pandas 有一些预定义的代码,但也可能存在其他特殊代码。例如,调查的 CSV 文件中常使用 99、999 等数字符号表示缺失值,SFO 问卷用 0 表示“空白/多重响应”,“不知道”和“拒
超级会员免费看
订阅专栏 解锁全文
556

被折叠的 条评论
为什么被折叠?



