使用pandas对时间序列数据进行等距重采样处理

最新推荐文章于 2023-01-16 19:04:51 发布

Jnchin

最新推荐文章于 2023-01-16 19:04:51 发布

阅读量4.1k

点赞数 3

分类专栏： python 文章标签： python

本文链接：https://blog.youkuaiyun.com/qq_38237214/article/details/115678634

版权

python 专栏收录该内容

14 篇文章

订阅专栏

我们的目标是将原始数据处理成每隔30秒一个数据样本，且每个30秒内使用均值计算，如下图所示：
在这里插入图片描述
代码：

import pandas as pd


# 转化为时间戳格式
df.loc[:, 'datetime'] = pd.to_datetime(df.loc[:, 'datetime'])

# 按时间排序
df = df.sort_values(by='datetime')

# 将‘time’列转化为索引
df = df.set_index('datetime')

# >>> 关键代码：时间粒度均匀化 <<<
df = df.resample('T').mean()  # 也可以取.max()或者.min()

'''
说明：
- 参数说明：D天,H小时,T分钟,S秒,T==60S，A年,M月,W周

- 无需担心不同的文件在重采样后会出现时间错位的现象，即A、B文件都是每隔30重采样一次，但A文件是从00:00秒开始，而B文件是从00：04秒开始，
这种现象是不会发生的，放心使用即可，resample函数会自动对齐的。


'''