DW动手学数据分析Task4：数据可视化

最新推荐文章于 2025-12-15 09:50:45 发布

原创

最新推荐文章于 2025-12-15 09:50:45 发布 · 892 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#信息可视化 #数据分析 #python

本文介绍了Python中的数据可视化库matplotlib和Seaborn，详细讲解了各种图表的使用，如柱状图、条形图、折线图、散点图等，并通过泰坦尼克号数据集展示了如何利用这些图表进行数据分析，包括生存人数分布、生存与死亡比例、票价与存活人数的关系、仓位等级与生存死亡分布以及年龄分布等。

1 了解matplotlib

Matplotlib：是 Python 的绘图库，它可与 NumPy 一起使用，提供了一种有效的 MatLab 开源替代方案。

2 可视化图案

基本可视化团及场景使用
- 柱状图
  - 场景：展示多个分类的数据变化和同类别各变量之间的比较情况。
  - 适用：对比分类数据
  - 局限：分类过多则无法展示数据特点
- 条形图
  - 场景：类似柱状图，只不过两根轴对调一下
  - 适用：类别名称过长，将有大量空白位置标示每个类别的名称
  - 局限：分类过多则无法展示数据特点
- 折线图
  - 场景：展示数据随时间或有序类别的波动情况的趋势变化
  - 适用：有序的类别，比如时间
  - 局限：无序的类别无法展示数据特点
- 柱线图
  - 场景：结合柱状图和折线图在同一个图表展现数据
  - 适用：要同时展现两个项目数据的特点
  - 局限：有柱状图和折线图两者的缺陷
- 散点图
  - 场景：用于发现各变量之间的关系
  - 适用：存在大量数据点，结果更精准，比如回归分析
  - 局限：数据量小的时候会比较混乱
- 饼图
  - 场景：用来展示各类别占比，比如男女比例
  - 适用：了解数据的分布情况
  - 局限：分类过多，则扇形越小，无法展现图表
- 雷达图
  - 场景：将多个分类的数据量映射到坐标轴上，对比某项目不同属性的特点
  - 适用：了解同类别的不同属性的综合情况，以及比较不同类别的相同属性差异
  - 局限：分类过多或变量过多，会比较混乱
- 漏斗图
  - 场景：用梯形面积表示某个环节业务量与上一个环节之间的差异
  - 适用：有固定流程并且环节较多的分析，可以直观地显示转化率和流失率
  - 局限：无序的类别或者没有流程关系的变量
- 瀑布图
  - 场景：采用绝对值与相对值结合的方式，展示各成分分布构成情况，比如各项生活开支的占比情况
  - 适用：展示数据的累计变化过程
  - 局限：各类别数据差别太大则难以比较

3 matplotlib用法

plt.figure()函数：生成一个画布
- 格式：figure(num=None, figsize=None, dpi=None, facecolor=None, edgecolor=None, frameon=True)
- num：图像编号或名称，数字为编号，字符串为名称
- figsize：指定figure的宽和高，单位为英寸
- dpi：指定绘图对象的分辨率
- facecolor：背景颜色
- edgecolor：边框颜色
- frameon：是否显示边框
plt.plot()函数：用于画图
- kind：图形种类，可以使’line’,'bar’等
- grid：显示轴网格线
添加轴坐标标签、表头
- plt.xlabel：添加x轴坐标标签
- plt.ylabel：添加y轴坐标标签。可以设置字体大小(fontsize=)
- plt.title：添加表头，有很多参数可以设置
  - fontsize：字体大小
  - backgroudcoloe：背景颜色
  - fontweight：字体粗细，[‘light’,‘normal’,‘bold’]
  - color：字体颜色
  - verticalalignment：对齐方式， ‘center’ , ‘top’ , ‘bottom’ ,‘baseline’
plt.legend()：给绘图加上图例
plt.show()：显示绘图

【任务二：可视化展示泰坦尼克号数据集中男女中生存人数分布情况】

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
text = pd.read_csv(r'result.csv')

sex

最低0.47元/天解锁文章