6、数据科学中的关键概念:自相关与对数的应用

数据科学中的关键概念:自相关与对数的应用

1. 自相关分析

自相关是数据科学中用于识别序列中循环模式的重要方法。在一个序列 (S) 里,为了识别循环模式,我们可以将 (S_i) 的值与 (S_{i + p}) 的值进行关联,其中 (1 \leq i \leq n - p)。若对于特定的周期长度 (p),这些值是同步的,那么该序列与其自身的相关性相对于其他可能的滞后值会异常高。将一个序列与其自身进行比较的过程被称作自相关,而对于所有 (1 \leq k \leq n - 1) 的相关性系列则被称为自相关函数。

例如,在图 2.11 展示的每日销售时间序列及其对应的自相关函数中,7 天(以及 7 的倍数天)的位移处出现峰值,这表明销售存在每周的周期性,周末的销售量更多。

自相关在预测未来事件方面意义重大,因为它意味着我们能够把先前的观测结果作为模型的特征。例如,“明天的天气与今天相似”这一经验法则就基于自相关,其滞后 (p = 1) 天。通常情况下,我们会认为这样的模型比基于六个月前天气数据(滞后 (p = 180) 天)的预测更为准确。

一般而言,许多数量的自相关函数在非常短的滞后时往往达到最高值。这就是长期预测不如短期预测准确的原因,因为自相关性通常要弱得多。不过,周期性循环有时也会持续更长时间。实际上,由于季节性影响,基于滞后 (p = 365) 天的天气预报会比 (p = 180) 天的预报好得多。

计算完整的自相关函数需要计算时间序列点上的 (n - 1) 个不同相关性,对于较大的 (n),这可能成本高昂。幸运的是,有一种基于快速傅里叶变换(FFT)的高效算法,它使得即使对于非常长的序列也能构建自相关函数。

下面是

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值