数据异常值检测:线性回归、K近邻与孤立森林方法
在数据分析过程中,识别异常值是一项至关重要的任务。异常值可能会对模型的准确性和可靠性产生重大影响,因此需要使用合适的方法来找出这些异常数据点。本文将介绍三种不同的异常值检测方法:线性回归、K近邻和孤立森林,并通过COVID - 19病例和死亡数据进行示例演示。
1. 使用线性回归识别有显著影响的数据点
线性回归是一种常用的统计方法,可用于识别对目标变量模型有过大影响的观测值。
1.1 准备工作
在使用线性回归进行异常值检测之前,需要安装 matplotlib 和 statsmodels 库。可以在终端或PowerShell(Windows)中输入以下命令进行安装:
pip install matplotlib
pip install statsmodels
我们将使用各国的COVID - 19总病例和死亡数据进行分析。
1.2 操作步骤
- 导入库并加载数据 :
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
covidtotals = pd.read_csv("data/covidtotals.csv")
covidtotals.se
超级会员免费看
订阅专栏 解锁全文
675

被折叠的 条评论
为什么被折叠?



