prophet outliers异常值

本文探讨了异常值如何影响Prophet的时间序列预测模型,包括趋势预测的合理性及不确定性区间的宽度。通过实例展示了异常值对预测结果的影响,并提供了处理异常值的有效方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

例子代码

https://github.com/lilihongjava/prophet_demo/tree/master/outliers

# encoding: utf-8
"""
@author: lee
@time: 2019/8/8 9:35
@file: main.py
@desc: 
"""
from fbprophet import Prophet
import pandas as pd


def main():
    df = pd.read_csv('./data/example_wp_log_R_outliers1.csv')
    m = Prophet()
    m.fit(df)
    future = m.make_future_dataframe(periods=1096)
    forecast = m.predict(future)
    fig = m.plot(forecast)
    fig.show()

    df.loc[(df['ds'] > '2010-01-01') & (df['ds'] < '2011-01-01'), 'y'] = None
    model = Prophet().fit(df)
    fig = model.plot(model.predict(future))
    fig.show()

    df = pd.read_csv('./data/example_wp_log_R_outliers2.csv')
    m = Prophet()
    m.fit(df)
    future = m.make_future_dataframe(periods=1096)
    forecast = m.predict(future)
    fig = m.plot(forecast)
    fig.show()

    df.loc[(df['ds'] > '2015-06-01') & (df['ds'] < '2015-06-30'), 'y'] = None
    m = Prophet().fit(df)
    fig = m.plot(m.predict(future))
    fig.show()


if __name__ == "__main__":
    main()

异常值有两种主要方式可以影响prophet的预测。以下,我们对之前例子中记录维基百科中R语言页面访问数的数据进行预测,但是我们造了一段问题数据(2010-01到2010-05都是5,2010-06到2011-01都是8,2010-06-01为6.76272950693188):

df = pd.read_csv('./data/example_wp_log_R_outliers1.csv')
m = Prophet()
m.fit(df)
future = m.make_future_dataframe(periods=1096)
forecast = m.predict(future)
fig = m.plot(forecast)

趋势预测看似合理,但不确定性区间似乎过于宽泛。Prophet能够处理历史数据中的异常值,但只能通过趋势变化来拟合它们。不确定性模型预计未来趋势变化的幅度与历史是相似的。

处理异常值的最佳方法是删除它们 - prophet对丢失数据是不影响的。如果将历史数据的值设置NA为但在future里保留对应的日期,则Prophet将能提供其值的预测。

df.loc[(df['ds'] > '2010-01-01') & (df['ds'] < '2011-01-01'), 'y'] = None
model = Prophet().fit(df)
fig = model.plot(model.predict(future))

在上面的例子中,异常值扰乱了不确定性估计,但没有影响预测值yhat。情况并非总是如此,例如在以下示例中添加了异常值:

df = pd.read_csv('./data/example_wp_log_R_outliers2.csv')
m = Prophet()
m.fit(df)
future = m.make_future_dataframe(periods=1096)
forecast = m.predict(future)
fig = m.plot(forecast)

 

此例中,在2015年6月造了一组极端异常值的数据来扰乱季节性估计,因此它们将影响到预测的值。和上个例子一样,正确的方法是删除它们:

df.loc[(df['ds'] > '2015-06-01') & (df['ds'] < '2015-06-30'), 'y'] = None
m = Prophet().fit(df)
fig = m.plot(m.predict(future))

 

 

 

参考资料:

https://facebook.github.io/prophet/docs/outliers.html 

### 使用 Prophet 进行时间序列异常点检测的方法 Prophet 是一种用于时间序列分析的强大工具,能够有效地处理缺失值和异常值[^2]。对于异常点检测而言,可以通过比较实际观测值与模型预测值之间的差异来进行。 #### 安装依赖库 为了使用 Prophet 库,需先安装必要的 Python 包: ```bash pip install fbprophet pandas matplotlib ``` #### 数据准备 假设有一个包含日期列 `ds` 和数值列 `y` 的 CSV 文件作为输入数据源。加载并查看前几条记录如下所示: ```python import pandas as pd data = pd.read_csv('your_time_series_data.csv') print(data.head()) ``` #### 构建基础模型 创建一个简单的 Prophet 模型实例,并拟合给定的数据集: ```python from fbprophet import Prophet model = Prophet() model.fit(data) ``` #### 预测未来值 基于已训练好的模型对未来一段时间内的走势做出推测: ```python future = model.make_future_dataframe(periods=30) # 向后推算一个月 forecast = model.predict(future) # 打印预测结果概览 print(forecast[['ds', 'yhat', 'yhat_lower', 'yhat_upper']].tail()) ``` #### 计算残差 计算原始观察值 y 减去预期估计值得到的误差项 resids,即所谓的“残差”。当某个时刻 t 处的实际测量显著偏离其对应的区间范围 `[yhat_lower, yhat_upper]` 时,则认为存在潜在的异常情况发生。 ```python residuals = data.set_index('ds')['y'] - forecast.set_index('ds')['yhat'] anomalies = residuals[(abs(residuals) > abs(forecast['yhat_upper'] - forecast['yhat']))] print(anomalies.describe()) # 输出统计描述信息 ``` #### 可视化展示 最后一步是绘制图表以便更直观地理解哪些位置出现了异常波动现象: ```python import matplotlib.pyplot as plt plt.figure(figsize=(16,8)) ax = anomalies.plot(style='ro') # 绘制红色圆圈标记异常点 forecast.set_index('ds')[['yhat','yhat_lower','yhat_upper']].plot(ax=ax,alpha=.5); data.set_index('ds').plot(style='b.', ax=ax); # 原始散点图用蓝色表示 plt.title('Time Series with Anomaly Detection'); plt.show(); ``` 通过上述过程可以实现利用 Prophet 对时间序列中的异常情况进行识别。值得注意的是,在具体应用过程中还可以进一步微调诸如节假日效应、周期模式等因素以提高准确性[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程小泓哥

你的鼓励是我创作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值