用数据可视化直观理解数据--iris数据集为例

原文:https://www.kaggle.com/benhamner/d/uciml/iris/python-data-visualizations
See Kaggle Datasets for other datasets to try visualizing. The World Food Facts data is an especially rich one for visualization.

比较常用的图表有:

  • 查看目标变量的分布。当分布不平衡时,根据评分标准和具体模型的使用不同,可能会严重影响性能。
    -iris[“Species”].value_counts()
  • 对 Numerical Variable,可以用 Box Plot 来直观地查看它的分布。
    -sns.boxplot(x=”Species”, y=”PetalLengthCm”, data=iris)
  • 对于坐标类数据,可以用 Scatter Plot 来查看它们的分布趋势和是否有离群点的存在。
    -iris.plot(kind=”scatter”, x=”SepalLengthCm”, y=”SepalWidthCm”)
    -sns.jointplot(x=”SepalLengthCm”, y=”SepalWidthCm”, data=iris, size=5)
  • 对于分类问题,将数据根据 Label 的不同着不同的颜色绘制出来,这对 Feature 的构造很有帮助。
    -sns.FacetGrid(iris,hue=”Species”,size=5).map(plt.scatter,”SepalLengthCm”,”SepalWidthCm”).add_legend()
  • 绘制变量之间两两的分布和相关度图表。
    -sns.pairplot(iris, hue=”Species”, size=3)
    -sns.pairplot(iris, hue=”Species”, size=3, diag_kind=”kde”)

详细例子说明

# coding=utf-8
import pandas as pd
from sklearn.datasets import load_iris

# 载入seaborn,因为载入时会有警告出现,因此先载入warnings,忽略警告。
import warnings 
warnings.filterwarnings("ignore")
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(style="white", color_codes=True)

iris = pd.DataFrame(load_iris().data)
iris.columns = ['SepalLengthCm','SepalWidthCm',
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值