基本机器学习算法数据可视化备忘录

原创于 2025-11-27 00:09:58 发布 · 272 阅读

10 ·

CC 4.0 BY-SA版权

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

文章标签：

#榛樿鍒嗙被

榛樿鍒嗙被专栏收录该内容

711 篇文章

订阅专栏

原文：towardsdatascience.com/data-visualization-cheat-sheet-for-basic-machine-learning-algorithms-770c8e61729d

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6d10bcdd4851760936de251da5745471.png

Charlesdeluvio 在Unsplash上的照片。

备忘录可以作为指南，为我们提供初步想法。我个人有时会使用一些备忘录，并发现它们非常有帮助，尤其是在我开始学习机器学习算法时。

除了理解和应用之外，检查获得的结果是重要的步骤，这有助于我们了解或看到数据发生了什么。在这种情况下，使用数据可视化是一个不错的选择，因为它可以直观地展示算法的结果。

尽管有各种图表可供选择，但选择合适的图表可以帮助我们有效地展示结果。因此，我认为制作一个快速选择图表的备忘录是个好主意。结果就是下面的基本机器学习数据可视化备忘录。

哇哦！！

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d55e9e3d315904963de678a700bc0336.png

基本机器学习数据可视化备忘录 – 由作者创建。

在继续之前，请记住备忘录中推荐的数据可视化只是一些快速初步想法。可能存在这些图表不适合使用的情况。接下来，我将通过示例指导您如何使用 Python 绘制图表。

让我们开始吧。

获取数据

从导入库开始：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

本文将使用鸢尾花数据集，该数据集可以直接从 Sklearn 库中下载。数据集也可以在UCI ML 鸢尾花数据找到，并受CC BY 4.0许可协议的许可。

本文将主要关注“花瓣长度”和“花瓣宽度”属性。如果您想尝试其他数据集，请随意修改下面的代码或跳过这部分。

from sklearn.datasets import load_iris
data = load_iris()

df = pd.DataFrame(data = data.data, columns = data.feature_names)
df_t = pd.DataFrame(data = data.target, columns = ['label'])

df_iris = pd.concat([df,df_t], axis=1)
df_iris.head()

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8b92b2697f19a0576642fc442d47f917.png

在应用任何机器学习技术之前，进行 EDA（探索性数据分析）以了解数据或发现模式总是一个好主意。为了进行 EDA，数据可视化扮演着重要的角色，它帮助我们直观地看到数据。

接下来，我们将使用散点图来展示选定的变量。

sns.set_style('darkgrid')
fig, ax = plt.subplots()
sns.scatterplot(data = df_iris, x = 'sepal length (cm)',
                y = 'sepal width (cm)',
                hue='label',
                palette=['red', 'blue', 'orange'],
                ax=ax)
ax.set_xlim(4,8)
ax.set_ylim(1.9,4.5)
plt.legend([],[], frameon=False)
plt.show()