Time-Series-Library 项目中的多变量预测数据处理问题解析-优快云博客

Time-Series-Library 项目中的多变量预测数据处理问题解析

在 Time-Series-Library 项目中，当用户尝试使用自定义数据进行多变量时间序列预测时，遇到了数据处理方面的一个技术问题。项目代码在处理数据时会默认移除"OT"列，这在基准测试数据集中没有问题，因为这些数据集都包含"OT"列。但当用户使用自己的数据集时，这一设计会导致程序出错。

在项目的 data_loader.py 文件中，__read_data__ 函数包含以下关键代码段：

cols = list(df_raw.columns)
cols.remove(self.target)
cols.remove('date')

这段代码会在检查 self.features 设置之前执行，直接尝试移除"OT"列。对于多变量预测(MS setting)场景，这种硬编码的设计限制了数据输入的灵活性。

项目维护者提出了一个临时解决方案：建议用户在自定义数据集中将其中一个变量标记为"OT"。这样可以绕过代码中的硬编码检查，但这不是最优雅的解决方案。

另一种更合理的改进方案是修改代码逻辑，使其更加灵活：

if self.features == 'S' or self.features == 'MS':
   cols.remove(self.target)
   df_raw = df_raw[['date'] + cols + [self.target]]

这种修改可以：

对于希望使用自定义数据进行多变量预测的用户，建议采取以下步骤：

这个问题反映了时间序列预测库设计中一个常见挑战：如何在保持基准测试兼容性的同时，提供足够的灵活性来支持各种自定义数据集。理想的解决方案应该：

这种类型的问题在开源时间序列项目中很常见，正确处理这类问题可以显著提高库的易用性和适用范围。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考