问题描述

在处理时间数据的时候会遇到日期缺失和日期重复的问题,如上图所示,2点、7点的数据重复了,缺少了4点的数据。那么怎么处理这些数据。
处理日期重复
#读取数据,输出前十行
import pandas as pd
df = pd.read_csv('D:\data-mining\data1/#89.csv')
power=df.loc[:, ['DataTime','fValueData']]
print(power[:10])

#打印重复值
print(power[power.duplicated()==True])

#删除重复行
power.drop_duplicates(inplace=True)
power=power.reset_index(drop=True)#重置索引
print(power[:10])

日期缺失
power = power.set_index(pd.to_datetime(power['DataTime'])).drop('DataTime',axis=1)
power = power.resample('H').mean().interpolate()
print(power[:10])

本文介绍了在处理时间序列数据时遇到的日期重复和缺失值问题。针对日期重复,通过使用pandas的drop_duplicates()函数删除重复行并重置索引。对于日期缺失,利用set_index()设置时间戳为索引,然后用resample()和interpolate()方法填补缺失值。这些方法有助于确保数据的准确性和完整性。
411

被折叠的 条评论
为什么被折叠?



