在使用Python进行数据分析时,我们经常会看一个数据的分布,然后对数据进行处理。比如说有一个场景:
以下数据是某个产品的提前预定期:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
%matplotlib inline
data = (pd.read_csv('D:/Users/Merchants_portrait.csv')).astype('int')
avg_days_befor = (data['avg_days_befor'].value_counts()).reset_index()
sns.barplot(x = avg_days_befor.index, y = avg_days_befor['avg_days_befor'])
plt.show() # 图3
这个图看起来比较丑,因为天数比较多,所以横坐标密密麻麻
我们看下提前预定天数和每个预定天数的产品的情况
avg_days_befor.head()
看下分布情况
#观察下提前预定天数的分布
avg_days_befor.describe()
从下面表格可以看出,提前预定天数在0-633之间,75%的分布在200以内
index
avg_days_befor
count
259.000000
259.000000
mean
139.382239
485.555985