我们的目标是将原始数据处理成每隔30秒一个数据样本,且每个30秒内使用均值计算,如下图所示:
代码:
import pandas as pd
# 转化为时间戳格式
df.loc[:, 'datetime'] = pd.to_datetime(df.loc[:, 'datetime'])
# 按时间排序
df = df.sort_values(by='datetime')
# 将‘time’列转化为索引
df = df.set_index('datetime')
# >>> 关键代码:时间粒度均匀化 <<<
df = df.resample('T').mean() # 也可以取.max()或者.min()
'''
说明:
- 参数说明:D天,H小时,T分钟,S秒,T==60S,A年,M月,W周
- 无需担心不同的文件在重采样后会出现时间错位的现象,即A、B文件都是每隔30重采样一次,但A文件是从00:00秒开始,而B文件是从00:04秒开始,
这种现象是不会发生的,放心使用即可,resample函数会自动对齐的。
'''