目录
1. 直方图、箱线图和密度图
直方图、箱线图和密度图是数据分析中十分常用的图形。它们可以帮助我们更好地理解数据的分布情况,从而更好地进行数据分析和处理。在这篇博客中,我们将介绍它们的基本原理、用途以及如何在Python中使用代码来实现。
1.1 直方图
直方图是一种常用的数据分布图,它将数据分成若干个区间,然后统计每个区间内数据的个数。通常情况下,直方图的横轴表示数据范围,纵轴表示数据出现的频数或者频率。直方图适用于连续性数据的分布情况。
下面是Python绘制直方图的代码,使用的是matplotlib库:
import matplotlib.pyplot as plt
import numpy as np
# 生成一组随机数据
data = np.random.randn(1000)
# 绘制直方图
plt.hist(data, bins=30, density=True, alpha=0.5,
histtype='stepfilled', color='steelblue',
edgecolor='none')
plt.title('Histogram')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()
其中,
np.random.randn(1000)
生成了1000个标准正态分布的随机数,plt.hist()
函数用于绘制直方图,bins
表示将数据分成的区间数量,density
表示是否对频数进行归一化,alpha
表示透明度,histtype
表示直方图的类型,color
表示填充颜色,edgecolor
表示边框颜色。最后使用plt.show()
函数显示图形。在上面的代码中,我们设置了
density=True
,这样直方图的纵轴就表示概率密度,而不是频数。如果需要绘制频数直方图,只需要将density
设置为False
即可。
1.2 箱线图
箱线图是用于展示数据分布情况的一种图形,它由五个数值点组成:最小值、最大值