62、数据可视化：Seaborn与Pandas的应用

rust6ferris

于 2025-10-03 03:45:38 发布

阅读量33

点赞数

CC 4.0 BY-SA版权

分类专栏： NLP与机器学习入门指南文章标签： Seaborn Pandas 数据可视化

本文链接：https://blog.youkuaiyun.com/rust6ferris/article/details/152431583

NLP与机器学习入门指南专栏收录该内容

62 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据可视化：Seaborn与Pandas的应用

1. 引言

数据可视化是数据分析和机器学习中至关重要的环节，它能够帮助我们直观地理解数据的特征和规律。本文将介绍如何使用Seaborn和Pandas进行数据可视化，通过实际的代码示例展示不同数据集的处理和可视化方法。

2. Seaborn内置数据集的使用

Seaborn是一个基于Matplotlib的Python数据可视化库，它提供了一些内置的数据集，方便我们进行测试和学习。

2.1 小费数据集（Tips Dataset）

以下是读取小费数据集并显示前五行的代码：

import seaborn as sns
df = sns.load_dataset("tips")
print(df.head())

运行上述代码后，输出结果如下：
| | total_bill | tip | sex | smoker | day | time | size |
|—:|:-------------|------:|:--------|:---------|:------|:-------|-------:|
| 0 | 16.99 | 1.01 | Female | No | Sun | Dinner | 2 |
| 1 | 10.34 | 1.66 | Male | No | Sun | Dinner | 3 |
| 2 | 21.01 | 3.5 | Male | No | Sun | Dinner | 3 |
| 3 | 23.68 | 3.31 | Male | No | Sun | Dinner | 2 |
| 4 | 24.59 | 3.61 | Female | No | Sun | Dinner | 4 |

这个数据集包含了餐厅顾客的消费信息，如总账单、小费金额、性别、是否吸烟等。

2.2 鸢尾花数据集（Iris Dataset）

下面的代码展示了如何绘制鸢尾花数据集的散点图：

import seaborn as sns
import matplotlib.pyplot as plt
# Load iris data
iris = sns.load_dataset("iris")
# Construct iris plot
sns.swarmplot(x="species", y="petal_length", data=iris)
# Show plot
plt.show()

在这段代码中，我们首先导入Seaborn和Matplotlib.pyplot库，然后加载鸢尾花数据集。接着，使用 sns.swarmplot() 函数绘制散点图，横轴为鸢尾花的品种（species），纵轴为花瓣长度（petal_length）。最后，使用 plt.show() 函数显示图形。

2.3 泰坦尼克号数据集（Titanic Dataset）

以下代码用于绘制泰坦尼克号数据集的柱状图：

import matplotlib.pyplot as plt
import seaborn as sns
titanic = sns.load_dataset("titanic")
g = sns.factorplot("class", "survived", "sex", data=titanic, 
kind="bar", palette="muted", legend=False)
plt.show()

这里，我们同样导入必要的库，加载泰坦尼克号数据集。然后，使用 sns.factorplot() 函数绘制柱状图，展示不同舱位（class）、性别（sex）下的幸存情况（survived）。

3. 从泰坦尼克号数据集提取数据

除了可视化，我们还可以从泰坦尼克号数据集中提取特定的数据子集。

3.1 基本信息和前几行

import matplotlib.pyplot as plt
import seaborn as sns
titanic = sns.load_dataset("titanic")
print("titanic info:")
titanic.info() 
print("first five rows of titanic:")
print(titanic.head())

这段代码会输出泰坦尼克号数据集的基本信息，如数据类型、列名、行数等，以及数据集的前五行。

3.2 特定数据提取

print("first four ages:")
print(titanic.loc[0:3,'age'])
print("fifth passenger:")
print(titanic.iloc[4])

上述代码分别提取了前四个乘客的年龄和第五个乘客的详细信息。

3.3 条件查询

query = titanic[
    (titanic.sex == 'female')
    & (titanic['class'].isin(['First', 'Third']))
    & (titanic.age > 30)
    & (titanic.survived == 0)
]
print("query:",query)

此代码通过条件筛选，找出了在一等舱或三等舱、年龄大于30岁且未幸存的女性乘客信息。

4. 使用Seaborn可视化Pandas数据集

我们可以使用Seaborn对Pandas数据集进行可视化。以下是一个示例：

import pandas as pd
import random
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.DataFrame()
df['x'] = random.sample(range(1, 100), 25)
df['y'] = random.sample(range(1, 100), 25)
print("top five elements:")
print(df.head())
# display a scatterplot of the data points
sns.lmplot('x', 'y', data=df, fit_reg=False)
plt.show()

在这个例子中，我们创建了一个Pandas数据框，包含两列随机数据。然后，使用 sns.lmplot() 函数绘制散点图，展示数据点的分布。

5. Pandas中的数据可视化

除了Seaborn，Pandas本身也提供了一些数据可视化的功能。

5.1 创建随机数据框

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
df = pd.DataFrame(np.random.rand(16,3), 
columns=['X1','X2','X3'])
print("First 5 rows:")
print(df.head())
print()
print("Diff of first 5 rows:")
print(df.diff().head())

这段代码创建了一个包含16行3列随机数的数据框，并输出了前五行和前五行的差值。

5.2 绘制不同类型的图表

# bar chart:
#ax = df.plot.bar()
# horizontal stacked bar chart:
#ax = df.plot.barh(stacked=True)
# vertical stacked bar chart:
ax = df.plot.bar(stacked=True)
# stacked area graph:
#ax = df.plot.area()
# non-stacked area graph:
#ax = df.plot.area(stacked=False)
#plt.show(ax)

这里提供了多种图表的绘制代码，如柱状图、水平堆叠柱状图、垂直堆叠柱状图、堆叠面积图和非堆叠面积图。你可以根据需要取消相应代码的注释来显示不同的图表。

6. 总结

通过本文的介绍，我们了解了如何使用Seaborn和Pandas进行数据可视化。Seaborn提供了丰富的内置数据集和可视化函数，方便我们对不同类型的数据进行可视化展示。Pandas则在数据处理和简单可视化方面表现出色。在实际应用中，我们可以根据具体需求选择合适的工具和方法，以更好地理解和分析数据。

下面是一个mermaid流程图，展示了数据可视化的基本流程：

graph LR
    A[数据准备] --> B[选择可视化工具]
    B --> C{工具类型}
    C -- Seaborn --> D[加载内置数据集]
    C -- Pandas --> E[创建或加载数据框]
    D --> F[选择可视化方法]
    E --> F
    F --> G[绘制图表]
    G --> H[显示或保存图表]

通过这些工具和方法，我们可以更高效地进行数据可视化，从而更好地挖掘数据中的信息。

数据可视化：Seaborn与Pandas的应用

7. 数据可视化的进一步探索

在前面的内容中，我们已经介绍了Seaborn和Pandas在数据可视化方面的基本应用。接下来，我们将进一步探索一些更高级的用法和技巧。

7.1 Seaborn中的其他可视化方法

除了前面提到的散点图和柱状图，Seaborn还提供了许多其他类型的可视化方法，如密度图、箱线图、小提琴图等。以下是一些示例代码：

import pandas as pd
import random
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.DataFrame()
df['x'] = random.sample(range(1, 100), 25)
df['y'] = random.sample(range(1, 100), 25)

# display a density plot
sns.kdeplot(df.y)
plt.show()

# display a boxplot
sns.boxplot([df.y, df.x])
plt.show()

# display a violin plot
sns.violinplot([df.y, df.x])
plt.show()

在这段代码中，我们首先创建了一个包含随机数据的Pandas数据框。然后，分别使用 sns.kdeplot() 绘制密度图，展示数据的分布情况；使用 sns.boxplot() 绘制箱线图，展示数据的四分位数、中位数和异常值；使用 sns.violinplot() 绘制小提琴图，结合了箱线图和密度图的特点。

7.2 Pandas中的数据处理与可视化结合

Pandas不仅可以进行简单的可视化，还可以与数据处理操作相结合，生成更有意义的图表。例如，我们可以对数据进行分组、聚合，然后绘制相应的图表。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = pd.DataFrame({
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': np.random.randn(6)
})

# 按类别分组并计算均值
grouped = df.groupby('category').mean()

# 绘制柱状图
grouped.plot.bar()
plt.show()

在这个例子中，我们创建了一个包含类别和数值的数据框。然后，使用 groupby() 方法按类别分组，并计算每组的均值。最后，使用 plot.bar() 方法绘制柱状图，展示不同类别的均值。

8. 数据可视化的最佳实践

在进行数据可视化时，遵循一些最佳实践可以使图表更加清晰、准确地传达信息。

8.1 选择合适的图表类型

不同的图表类型适用于不同的数据和分析目的。例如：
- 柱状图 ：适用于比较不同类别之间的数值大小。
- 折线图 ：适用于展示数据随时间或其他连续变量的变化趋势。
- 散点图 ：适用于展示两个变量之间的关系。
- 饼图：适用于展示各部分占总体的比例。

以下是一个选择图表类型的决策流程图：

graph LR
    A[数据类型] --> B{是否为分类数据}
    B -- 是 --> C{比较数值大小}
    C -- 是 --> D[柱状图]
    C -- 否 --> E{展示比例}
    E -- 是 --> F[饼图]
    E -- 否 --> G[其他]
    B -- 否 --> H{是否为连续数据}
    H -- 是 --> I{展示变化趋势}
    I -- 是 --> J[折线图]
    I -- 否 --> K{展示关系}
    K -- 是 --> L[散点图]
    K -- 否 --> M[其他]

8.2 保持图表的简洁性

避免在图表中添加过多的元素，以免干扰读者对主要信息的理解。例如，减少不必要的网格线、标签和颜色。同时，确保图表的标题和轴标签清晰明了，能够准确描述图表的内容。

8.3 注意数据的准确性

在绘制图表之前，确保数据的准确性和完整性。对数据进行必要的清洗和预处理，去除异常值和缺失值。同时，在图表中提供必要的统计信息，如均值、中位数、标准差等，以便读者更好地理解数据。

9. 实际案例分析

为了更好地说明数据可视化的应用，我们来看一个实际案例。假设我们有一个销售数据集，包含不同产品在不同地区的销售数量和销售额。

9.1 数据准备

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 创建示例数据
data = {
    'product': ['Product A', 'Product B', 'Product A', 'Product B'],
    'region': ['Region 1', 'Region 1', 'Region 2', 'Region 2'],
    'sales_quantity': [100, 200, 150, 250],
    'sales_amount': [1000, 2000, 1500, 2500]
}

df = pd.DataFrame(data)

9.2 可视化分析

不同产品在各地区的销售数量比较

# 绘制柱状图
sns.barplot(x='product', y='sales_quantity', hue='region', data=df)
plt.title('Sales Quantity by Product and Region')
plt.show()

这个柱状图可以直观地展示不同产品在不同地区的销售数量差异。

销售数量与销售额的关系

# 绘制散点图
sns.scatterplot(x='sales_quantity', y='sales_amount', hue='product', data=df)
plt.title('Relationship between Sales Quantity and Sales Amount')
plt.show()

通过散点图，我们可以观察到销售数量和销售额之间的关系，以及不同产品的分布情况。