机票异常票价检测与 IPO 市场预测
1. 机票异常票价检测
1.1 异常值定义与算法选择
异常值是数据集中远离其他观测值的极端值。有多种参数和非参数技术可用于识别异常值,如 DBSCAN、隔离森林和 Grubbs 检验等。由于我们处理的是单变量时间序列数据,因此选择广义极端学生化偏差(Generalized ESD)检验算法。时间序列是指按固定间隔记录的数据,如股票的每日收盘价。
1.2 数据正态性检验
可以使用多种测试来确保数据近似正态分布,也可以使用正态概率图进行可视化检查。以下是使用 SciPy 库对莫斯科市数据进行正态性检查的代码:
from scipy import stats
import matplotlib.pyplot as plt
fix, ax = plt.subplots(figsize=(10,6))
stats.probplot(list(city_dict.values()), plot=plt)
plt.show()
在评估正态概率图或分位数 - 分位数(Q - Q)图时,数据越接近直线,表明数据越接近正态分布。
1.3 异常值检测代码
使用 PyAstronomy 库实现广义 ESD 算法进行异常值检测,代码如下:
from PyAstronomy import pyasl
r = pyasl.generalizedESD(prices, 3, 0.025, f
超级会员免费看
订阅专栏 解锁全文

10

被折叠的 条评论
为什么被折叠?



