数据科学中的异常值检测与处理
在数据科学领域,准确处理数据是取得有效结果的关键。其中,避免参考框架错误以及检测和处理异常值是两个重要的方面。
避免参考框架错误
为了避免参考框架错误,关键在于确保所有相关方能够建立相似的参考框架。这需要各方具备相似的经验知识,以保证数据在人与人之间的准确传递。然而,当处理记录的静态数据集时,如果潜在的查看者缺乏必要的经验知识,参考框架错误仍可能发生。
算法在处理数据时也会面临参考框架问题,因为算法本身缺乏创造经验的能力。虽然可以建立一个包含事实的数据银行,但经验不仅仅基于事实,还包括当前技术无法复制的结论。
异常值的检测与影响
异常值是指在样本中与其他数据显著不同的数据点。它们可能是由于一个或多个值过高或过低,或者是具有几乎独特的值组合。例如,在分析大学学生记录时,年龄过大或过小的学生,以及学习不寻常课程组合的学生都可能是异常值。
异常值会对数据分布和基本统计指标产生影响,如均值、中位数和方差。以下是一个简单的示例,展示了单个异常值对1000个正常观测值的影响:
import matplotlib.pyplot as plt
plt.style.use('seaborn-whitegrid')
%matplotlib inline
import numpy as np
from scipy.stats.stats import pearsonr
np.random.seed(101)
normal = np.random.normal(loc=0.0, scale= 1.0, size=1000)
pr
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



