在数据处理工作中,缺失值是一种常见问题,尤其是在风电场数据监控等场景中,数据采集不完整可能导致分析结果失准。本文以风电机组数据为例,详细介绍如何使用 Python 脚本批量处理 CSV 文件,并动态补全缺失值。
数据场景描述
假设我们有以下原始数据,部分数值列中存在缺失值(用 -- 表示),需要根据前后数据进行随机补全:
风机 时间 风向2(°) 风速1(m/s) 有功功率(kW) 发电机转速(rpm) 日发电时间(min)
1号 2024-10-01 00:00:00 – – – – –
1号 2024-10-01 00:10:00 -270 3 5404 687 9
1号 2024-10-01 00:20:00 – – – – –
我们希望将缺失值补全为根据上下文生成的合理随机值,输出如下:
风机 时间 风向2(°) 风速1(m/s) 有功功率(kW) 发电机转速(rpm) 日发电时间(min)
1号 2024-10-01 00:00:00 -270.0 3.0 5404.0 687.0 9.0
1号 2024-10-01 00:10:00 -270 3 5404 687 9
核心思路
1. 批量读取文件:遍历指定文件夹中的所有 CSV 文件,逐一读取和处理。
2. 缺失值检测:将 -