Seaborn使用笔记(一)
一、热度图
使用热度图可以描述两个变量之间的关联强度。比如Kaggle里面的经典Housing问题。可以先计算变量之间的相关系数,得到一个N×N的矩阵。然后用热度图来可视化这个相关系数矩阵。
运行代码
plt.subplots(figsize=(20, 16))
sns.heatmap(data_corr,annot=True)
# Mask unimportant features
sns.heatmap(data_corr, mask=data_corr < 1, cbar=False)
plt.show()
其中data_corr为已经计算好了的相关系数矩阵。画出的图示效果如下:
TODO
二、概率分布图
依旧使用的例子是Kaggle里面的经典Housing问题。
运行代码
sns.distplot(dataTrain['SalePrice']);
其中dataTrain[‘SalePrice’]相当于是记录了所有出售价格的list。
画出的图示效果为:
三、回归图
依旧使用的例子是Kaggle里面的经典Housing问题。
运行代码
sns.regplot(x=np.log(y_valid), y=y_valid_pred-np.log(y_valid));
其中两个坐标分别对应的是房屋预测价格的实际值和预测值与实际值之间的差距。(个人觉得这幅图的统计学意义并不是很大)
画出的图示效果为: