数据清洗,利用 Python 自动补全 CSV 数据缺失值

b6c14199c69e46a010fe7cc4d81fcf9f.png

在数据处理工作中,缺失值是一种常见问题,尤其是在风电场数据监控等场景中,数据采集不完整可能导致分析结果失准。本文以风电机组数据为例,详细介绍如何使用 Python 脚本批量处理 CSV 文件,并动态补全缺失值。

76c3f5bf2a54e91c3e66b19b1d555b47.png

数据场景描述

假设我们有以下原始数据,部分数值列中存在缺失值(用 -- 表示),需要根据前后数据进行随机补全:

风机 时间 风向2(°) 风速1(m/s) 有功功率(kW) 发电机转速(rpm) 日发电时间(min)

1号 2024-10-01 00:00:00 – – – – –

1号 2024-10-01 00:10:00 -270 3 5404 687 9

1号 2024-10-01 00:20:00 – – – – –

我们希望将缺失值补全为根据上下文生成的合理随机值,输出如下:

风机 时间 风向2(°) 风速1(m/s) 有功功率(kW) 发电机转速(rpm) 日发电时间(min)

1号 2024-10-01 00:00:00 -270.0 3.0 5404.0 687.0 9.0

1号 2024-10-01 00:10:00 -270 3 5404 687 9

核心思路

1. 批量读取文件:遍历指定文件夹中的所有 CSV 文件,逐一读取和处理。

2. 缺失值检测:将 -

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值