Excel表格可以用来学习初级的数据分析。有一些数据清理阶段遇到的小技巧,在此记录一下。
数据清理主要的工作步骤是:调整样式→删除重复值→处理缺失值→一致化处理→数据排序→异常值处理
调整样式
- 打开Excel表之后乱码:
造成乱码的原因和编程中时常遇到的字符编码出错是同一个道理,一般是因为导进来的时候本来表格是用csv或者是文本的形式,这样编码方式是阿斯卡码,而不是utf-8,总之目标是将utf-8的格式赋给表格里的数据。
解:选择“数据”→“从文本/css”,按照指引步骤完成导出转换 - 进入表格后发现原来的表格里面有很多冗余的空白行,删又删不掉
解:选中空白栏第一行,然后按ctrl+shift+↓ 可以一路选完下面的所有行,右键选择删除,保存文件退出重进。 - 调整表格的宽度让表格变得容易看,在开始→自动换行
- 隐藏掉不需要的列,在列名上右键点隐藏。
处理缺失值
- 处理缺失值有几种可选的做法:
- 删掉整行,丢弃数据
- 利用前后的平均值估算并且补齐数据
- 利用已知的信息尝试填写数据
- 标注缺失
- 到缺失的值,选出一整列或一整行然后在开始→查找与选择→定位条件→空值,可以锁定选中的行或者列中的空值,填补空值,按ctrl + Enter可以将一次填补的内容赋到所有空格里。
- 删除重复值:找到主键,因为主键应当唯一,然后选择数据→删除重复值
一致化处理
- 进行分列,要注意分列这个操作会覆盖掉后面的一列,所以要先把要分列的列复制到表格最后列,然后把原来的列隐藏,对新的列全选,数据→分列,然后选其他,输入与分隔数