数据子集中异常值的识别与处理
在数据分析中,异常值和意外值并不一定意味着数据错误。个体和事件本身就很复杂,可能会让分析师感到意外。然而,极端值可能会对我们的分析产生过大的影响,尤其是在使用假设数据呈正态分布的参数技术时。因此,识别和处理异常值是数据分析项目中最重要的数据准备任务之一。本文将介绍一系列检测和处理异常值的策略,包括单变量异常值识别、双变量关系中的异常值和意外值识别等。
技术要求
完成本文中的示例需要安装以下库:
- pandas
- NumPy
- Matplotlib
- statsmodels
- scipy
- seaborn
- openpyxl
可以使用以下命令进行安装:
pip install pandas numpy matplotlib statsmodels scipy seaborn openpyxl
单变量异常值识别
异常值的概念有些主观,它与特定分布的属性密切相关,包括中心趋势、离散程度和形状。在识别异常值之前,我们需要了解变量的分布情况。以下是使用COVID - 19病例数据进行单变量异常值识别的步骤:
- 加载必要的库和数据
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
impo
异常值识别与处理方法解析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



