数据异常检测与处理全解析
1. 数据读取与特定值替换
在处理数据时,我们可以利用 Pandas 等工具在读取数据时指定特定的哨兵值,并进行替换。例如,在读取 sorstokken-no.csv.gz 文件时,我们可以指定 DATE 列中的 UNKNOWN 、 VISIB 和 GUST 列中的 999.9 为缺失值,并对日期列进行解析:
import pandas as pd
sorstokken = pd.read_csv('data/sorstokken-no.csv.gz',
na_values={'DATE': 'UNKNOWN',
'VISIB': '999.9',
'GUST': '999.9'},
parse_dates=['DATE'])
sorstokken.head()
执行上述代码后,输出结果如下:
| | STATION | DATE | TEMP | VISIB | GUST | DEWP |
| — | — | — | — | — | — | — |
| 0 | 1001499999 | 2019 - 01 - 0
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



