0. 介绍
0.1 概论
统计分析是理解数据集中的变量如何互相关联以及这些关系如依赖其他变量的一个过程。而可视化则是这个过程的一个核心部分,因为只有数据被正确的可视化,人们才能看到主导关系的趋势和模式。
0.2 可视化统计关系 relplot( )
relplot( ),(即:relational plots )是绘制统计关系最常见的函数。
seaborn.relplot(x=None, y=None,
hue=None, size=None, style=None,
data=None,
row=None, col=None,
col_wrap=None, row_order=None, col_order=None, palette=None, hue_order=None, hue_norm=None, sizes=None, size_order=None, size_norm=None, markers=None, dashes=None, style_order=None, legend='brief',
kind='scatter',
height=5, aspect=1, facet_kws=None, **kwargs)
relplot() 主要使用以下两种方法:
2.1 两个方法
scatterplot()
(with kind=“scatter”; the default)
即 relplot( )默认是绘制散点图
lineplot()
(with kind=“line”)
2.2 几个参数
说明:
- 可以通过输入 hue 、style、size 三个参数来增加变量;或者改变相应颜色、样式、大小(若输入相同的变量)
- 通过 row、col 两个参数可以按照行和列展开多个子图;
kind
- kind=“scatter”(默认):绘制散点图 scatterplot()
- kind=“line” :绘制线图 lineplot()
ci
ci:通过设置参数 ci (confidence interval) 来控制阴影部分。
- 默认使用 ci;
- ci=None 取消;
- ci=“sd” 使用标准偏差而不是置信区间
hue
hue:在某一维度上, 用颜色区分(增加变量/维度/特征数量)
style
style:在某一维度上, 线的表现形式不同, 如 点线, 虚线等(增加变量/维度/特征数量)
size
size:控制数据点大小或者线条粗细(增加变量/维度/特征数量)
row、 col
显示分面图
1. relplot(kind=‘scatter’ ) 散点图
散点图(scatter plot):相关关系(两个变量)
散点图是统计可视化的中流砥柱。它使用点云来描述两个变量的联合分布。散点图的描述可以让我们直接看到大量的信息,帮我们判断出它们之间是否存在有意义的关系。
在 Seaborn 中有许多方法可以绘制散点图,但是最基本的是使用 scatterplot()。记住,当两个变量是数值型的时候,只能使用这种方式。
scatterplot() 是 relplot( ) 的默认种类,当然也可以手动设置 kind=“scatter”。
代码示例:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style="darkgrid")