数据处理:从清洗到应用的全流程解析
1. 通货膨胀调整与金融数据清洗
在金融数据处理中,通货膨胀调整是一项重要的修正工作。货币具有时间价值,通常来说,今天的一美元比一年后的一美元更有价值,利率是对未来美元进行贴现的合理方式。通货膨胀率通过跟踪一篮子物品的价格变化来估算,它能使美元的购买力在不同时间标准化。如果在模型中使用未调整的价格,尤其是在较长时间段内,很可能会引发问题。
例如,有一组学生发现股票价格和石油价格在三十年的时间里存在很强的相关性,于是试图将股票价格用于商品预测模型。但这两种商品的价格都以美元计价,且未对通货膨胀进行调整。实际上,当不考虑通货膨胀时,几乎任何一对物品的价格时间序列都会在一段时间内呈现出很强的相关性。
为了更有意义地表示价格随时间的变化,使用回报率(returns)比价格差异更合适。回报率的计算公式为:
[r_i = \frac{p_{i + 1} - p_i}{p_i}]
这个公式类似于百分比变化,并且对该比率取对数后,收益和损失具有对称性。
金融时间序列还存在许多其他需要清洗的细节。以股票分红为例,很多股票会在每年的特定日期向股东发放定期股息。比如微软会在1月16日支付每股2.50美元的股息。如果你在当天开盘时持有微软的股票,就会收到这笔股息,但股息发放后,股票价值会立即下降2.50美元。这种价格下降对股东来说并非实际损失,但在清洗数据时,需要将股息因素考虑到股票价格中。否则,一个基于未修正价格数据训练的模型可能会学会在股票发放股息前卖出股票,并错误地认为自己的策略很成功。
2. 处理缺失值
并非所有数据集都是完整的,识别缺失数据的字段并进行适当补偿是数据清洗的重要
数据处理全流程解析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



