交通流预测爬坑记（三）：使用pytorch实现LSTM预测交通流

原创

已于 2024-06-17 17:06:03 修改 · 1.7w 阅读

269 ·

CC 4.0 BY-SA版权

文章标签：

#python #pytorch #lstm

于 2022-03-23 21:49:31 首次发布

本文介绍如何使用Pytorch构建LSTM模型预测交通流。内容涵盖数据加载、数据集构造、LSTM模型定义、模型预测及评估。通过自定义Dataset和DataLoader处理数据，简化模型构建和训练过程。

很长时间没有更新内容了，上一篇可以看做是刚接触深度学习写的，看法非常狭隘，内容非常粗糙。
在最近的学习中接触到了Pytorch，不得不承认，相对于TensorFlow来讲，灵活很多。
这次就使用pytroch来进行一下交通流预测，数据和上一篇文章数据一样。

百度网盘: https://pan.baidu.com/s/19vKN2eZZPbOg36YEWts4aQ
密码 4uh7

准备开始

加载数据

导入数据的时候，需要把Network这一列删除
在这里插入图片描述

f = pd.read_csv('..\Desktop\AE86.csv')
# 从新设置列标
def set_columns():
    columns = []
    for i in f.loc[2]:
        columns.append(i.strip())
    return columns
f.columns = set_columns()
f.drop([0,1,2], inplace = True)
# 读取数据
data = f['Total Carriageway Flow'].astype(np.float64).values[:, np.newaxis]
data.shape # (2880, 1)

构造数据集

pytorch对于Batch输入，提供了规范的划分数据的模块， Dataset 和 DataLoader，这两个是很多刚使用pytorch的朋友头疼的地方，我简单说一下就不专门讲太多了可以去官网或者其他博客看一下

Dataset相当于装东西的大箱子，比如装苹果的箱子，一个大箱子里可以有很多小盒子，小盒子里装着苹果，不同的大箱子里小盒子装的苹果个数可以是不同的
Dataloader相当于使用什么方法在大箱子里拿盒子，比如，可以按顺序一次拿10个小盒子或者随机的拿5个小盒子

但这种使用Dataset和DataLoader创建数据集并不是唯一的方法，比如也可以使用上篇文章中使用的方法直接形成数据

当然，既然是使用pytorch那就使用它的特色吧，下面基于以上Dataset的方法，我们就可以构造自己的数据集

定义自己的Dataset比较麻烦， Dataset必须包括两部分:len 和 getitem

len 用来统计生成Dataset的长度
getitem 是可以index来获取相应的数据

同时为了方便，这Dataset中，增加了数据标准化以及反标准化的过程

构造Dataset

class LoadData(Dataset):
    def __init__(self, data, time_step, divide_days, train_mode):
        self.train_mode = train_mode
        self.time_step = time_step
        self.train_days = divide_days[0]
        self.test_days = divide_days[1]
        self.one_day_length = int(24 * 4)
        # flow_norm (max_data. min_data)
        self.flow_norm, self.flow_data = LoadData.pre_process_data(data)
        # 不进行标准化
#         self.flow_data = data
        
    def __len__(self, ):
        if self.train_mode == "train":
            return self.train_days * self.one_day_length - self.time_step
        elif self.train_mode == "test":
            return self.test_days * self.one_day_length
        else:
            raise ValueError(" train mode error")
    def __getitem__(self, index):
        if self.train_mode == "train":
            index = index
        elif self.train_mode == "test":
            index += self.train_days * self.one_day_length
        else:
            raise ValueError(' train mode error')
        data_x, data_y = LoadData.slice_data(self.flow_data, self.time_step, index,
                                            self.train_mode)
        data_x = LoadData.to_tensor(data_x)
        data_y = LoadData.to_tensor(data_y)
        return {"flow_x": data_x, "flow_y": data_y}
    # 这一步就是划分数据的重点部分
    @staticmethod
    def slice_data(data, time_step, index, train_mode):
        if train_mode == "train":
            start_index = index
            end_index = index + time_step
        elif train_mode == "test":
            start_index = index - time_step
            end_index = index
        else:
            raise ValueError("train mode error")
        data_x = data[start_index: end_index, :]
        data_y = data[end_index]
        return data_x, data_y
    # 数据与处理
    @staticmethod
    def pre_process_data(data, ):
    # data N T D
        norm_base = LoadData.normalized_base(data)
        normalized_data = LoadData.normalized_data(data, norm_base[0], norm_base[1])
        return norm_base, normalized_data
    # 生成原始数据中最大值与最小值
    @staticmethod