pandas时间序列数据处理(时间序列归一化,对齐,映射,空值填充)
实现功能
- 将下面的csv数据对应到每间隔五分钟的时间序列上保证数据完整
- 详细描述: 时间区间数据对应 主要是将把每五分钟区间内的数据对应到五分钟倍数的区间上:example 将0,1 ,2分钟数据对应到00:00, 将3, 4, 5到10分钟之间的数据,将5, 6 ,7分钟数据对应到第五分钟,将7, 8 ,9, 10, 11 12 分钟数据对应到第10分钟, 13, 14, 15, 16, 17对应到第15分钟 依此类推
原始数据

将ct列对应成每五分钟一条数据的对齐
处理后数据

方法一 自定义时间判断函数
import pandas as pd
from datetime import datetime
def fill_data(df):
# 均值填充pv
df['pv'].fillna(value=df.mean(), inplace=True)
# 前向填充 后向填充 _id pid (均值填充id会出问题)
df.fillna(method='bfill', inplace=True)
df.fillna(method='ffill', inplace=True)
return df
def merge_type_transform(df, tran_list):
# 处理merge后的类型变化问题 float >>>> str
df[tran_list] = df[tran_list].astype('str')
for i in tran_list:
df[i] = df[i].apply(lambda x: x.replace('.0', '').strip())
# 一些价格数据或者短数字转字符串可用以下数据
# 方法一
# df['price'] = df['price'].map(lambda x:str(x))))
# 方法二
# df['price'] = df['price'].astype('str'))
return df
def time_seq_map(df, ymd_time=None):
"""
时间对齐 数据填充
"""
# 手动传入时间
time = pd.date_range(ymd_time + ' 00:00:00', ymd_time + ' 23:59:59', freq="5min")
# 自动提取时间
# extract_date_df = df.loc[:1, 'ct'].apply(lambda x: x.strftime('%Y-%m-%d'))
# time = pd.date_range(extract_date_df[0] + ' 00:00:00', extract_date_df[0] + ' 23:59:59', freq="5min")
# 生成一个标准每五分钟一行的时间序列dataframe
df1 = pd.DataFrame({
'ct1': time})
# 与原始数据合并
df = df.merge(df1, left_on='ct', right_on='ct1',

该博客介绍了如何使用Pandas处理时间序列数据,包括数据归一化、对齐、映射和空值填充。通过自定义时间函数实现5分钟间隔的数据对齐,并使用resample方法进行时间序列归一化。此外,还涉及数据类型转换和空值填充策略,确保数据完整性。
最低0.47元/天 解锁文章
1139





