(一)异常值分析
箱型图分析
plt.figure()
plt.rc('font', size=13)
p = plt.boxplot(words_series.head(10),whis=1.5)
plt.show()
结合describe()函数查看数据的基本情况
words_series.head(10).describe()
以上两条结合起来过滤数据集中的无效数据。
(二)过滤指定值
Series指定值过滤(也可以过滤空值或nan值)
words_series[words_series != 1]
Dataframe过滤指定列的指定值
data[data['three']>5]
(三)贡献度分析:帕累托图
(待补充)