构建寻找廉价机票和预测 IPO 市场的实用工具
寻找廉价机票
在寻找廉价机票时,我们可以看到机票价格存在较大的波动,从低于 600 美元到超过 1200 美元不等。我们的目标是创建一个异常值检测系统,来找出那些廉价机票。
异常值检测技术
异常值是数据集中远离其他观测值的极端值。有多种参数和非参数技术可用于识别异常值,如基于密度的空间聚类应用与噪声(DBSCAN)、隔离森林和 Grubbs 检验等。由于我们处理的是单变量时间序列数据,因此选择了广义极端学生化偏差(Generalized ESD)检验算法。
在使用该算法之前,我们需要检查数据是否近似正态分布。可以使用 SciPy 库中的功能,通过正态概率图进行可视化检查:
from scipy import stats
fix, ax = plt.subplots(figsize=(10,6))
stats.probplot(list(city_dict.values()), plot=plt)
plt.show()
在评估正态概率图时,数据越接近直线,表明数据越接近正态分布。
接下来,我们使用 PyAstronomy 库进行异常值检测:
from PyAstronomy import pyasl
r = pyasl.generalizedESD(prices, 3, 0.025, fullOutput=True)
print('Total Outliers:', r[0])
out_dat
超级会员免费看
订阅专栏 解锁全文
1274

被折叠的 条评论
为什么被折叠?



