pandas resample时间序列数据处理（时间序列归一化，对齐，映射，空值填充）

最新推荐文章于 2025-11-16 13:32:44 发布

原创

最新推荐文章于 2025-11-16 13:32:44 发布 · 4k 阅读

21 ·

CC 4.0 BY-SA版权

该博客介绍了如何使用Pandas处理时间序列数据，包括数据归一化、对齐、映射和空值填充。通过自定义时间函数实现5分钟间隔的数据对齐，并使用resample方法进行时间序列归一化。此外，还涉及数据类型转换和空值填充策略，确保数据完整性。

pandas时间序列数据处理（时间序列归一化，对齐，映射，空值填充）

实现功能

将下面的csv数据对应到每间隔五分钟的时间序列上保证数据完整
详细描述：时间区间数据对应主要是将把每五分钟区间内的数据对应到五分钟倍数的区间上：example 将0，1 ，2分钟数据对应到00：00，将3， 4， 5到10分钟之间的数据，将5， 6 ，7分钟数据对应到第五分钟，将7， 8 ，9， 10， 11 12 分钟数据对应到第10分钟， 13， 14， 15， 16， 17对应到第15分钟依此类推

原始数据

在这里插入图片描述
将ct列对应成每五分钟一条数据的对齐

处理后数据

在这里插入图片描述

方法一自定义时间判断函数

import pandas as pd
from datetime import datetime


def fill_data(df):
    # 均值填充pv
    df['pv'].fillna(value=df.mean(), inplace=True)
    # 前向填充 后向填充  _id  pid (均值填充id会出问题)
    df.fillna(method='bfill', inplace=True)
    df.fillna(method='ffill', inplace=True)
    return df


def merge_type_transform(df, tran_list):
    # 处理merge后的类型变化问题 float >>>> str
    df[tran_list] = df[tran_list].astype('str')
    for i in tran_list:
        df[i] = df[i].apply(lambda x: x.replace('.0', '').strip())
    #  一些价格数据或者短数字转字符串可用以下数据
    # 方法一
    # df['price'] = df['price'].map(lambda x:str(x))))
    # 方法二
    # df['price'] = df['price'].astype('str'))
    return df


def time_seq_map(df, ymd_time=None):
    """
    时间对齐  数据填充
    """
    # 手动传入时间
    time = pd.date_range(ymd_time + ' 00:00:00', ymd_time + ' 23:59:59', freq="5min")
    # 自动提取时间
    # extract_date_df = df.loc[:1, 'ct'].apply(lambda x: x.strftime('%Y-%m-%d'))
    # time = pd.date_range(extract_date_df[0] + ' 00:00:00', extract_date_df[0] + ' 23:59:59', freq="5min")
    # 生成一个标准每五分钟一行的时间序列dataframe
    df1 = pd.DataFrame({
   
   'ct1': time})
    # 与原始数据合并
    df = df.merge(df1, left_on='ct', right_on='ct1',