基本机器学习算法数据可视化备忘录

原文:towardsdatascience.com/data-visualization-cheat-sheet-for-basic-machine-learning-algorithms-770c8e61729d

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6d10bcdd4851760936de251da5745471.png

Charlesdeluvio 在Unsplash上的照片。

备忘录可以作为指南,为我们提供初步想法。我个人有时会使用一些备忘录,并发现它们非常有帮助,尤其是在我开始学习机器学习算法时。

除了理解和应用之外,检查获得的结果是重要的步骤,这有助于我们了解或看到数据发生了什么。在这种情况下,使用数据可视化是一个不错的选择,因为它可以直观地展示算法的结果。

尽管有各种图表可供选择,但选择合适的图表可以帮助我们有效地展示结果。因此,我认为制作一个快速选择图表的备忘录是个好主意。结果就是下面的基本机器学习数据可视化备忘录。

哇哦!!

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d55e9e3d315904963de678a700bc0336.png

基本机器学习数据可视化备忘录 – 由作者创建。

在继续之前,请记住备忘录中推荐的数据可视化只是一些快速初步想法。可能存在这些图表不适合使用的情况。接下来,我将通过示例指导您如何使用 Python 绘制图表。

让我们开始吧。


获取数据

从导入库开始:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

本文将使用鸢尾花数据集,该数据集可以直接从 Sklearn 库中下载。数据集也可以在UCI ML 鸢尾花数据找到,并受CC BY 4.0许可协议的许可。

本文将主要关注“花瓣长度”和“花瓣宽度”属性。如果您想尝试其他数据集,请随意修改下面的代码或跳过这部分。

from sklearn.datasets import load_iris
data = load_iris()

df = pd.DataFrame(data = data.data, columns = data.feature_names)
df_t = pd.DataFrame(data = data.target, columns = ['label'])

df_iris = pd.concat([df,df_t], axis=1)
df_iris.head()

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8b92b2697f19a0576642fc442d47f917.png

在应用任何机器学习技术之前,进行 EDA(探索性数据分析)以了解数据或发现模式总是一个好主意。为了进行 EDA,数据可视化扮演着重要的角色,它帮助我们直观地看到数据。

接下来,我们将使用散点图来展示选定的变量。

sns.set_style('darkgrid')
fig, ax = plt.subplots()
sns.scatterplot(data = df_iris, x = 'sepal length (cm)',
                y = 'sepal width (cm)',
                hue='label',
                palette=['red', 'blue', 'orange'],
                ax=ax)
ax.set_xlim(4,8)
ax.set_ylim(1.9,4.5)
plt.legend([],[], frameon=False)
plt.show()

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2ac039a4f921436580ff6d5e8c5d2f74.png

散点图 – 图片由作者提供。

现在一切准备就绪,让我们继续到机器学习部分。


如本文开头所示,该表由四个主要部分组成:

  • 分类

  • 聚类

  • 回归

  • 维度降低

让我们开始吧…

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8437762b11f04cb87e60294a5ef98628.png

绘制分类结果的标准 – 图像由作者提供。

分类是一种监督机器学习方法,它使用训练数据集创建模型以预测或标记测试数据集。简单来说,如果你想用离散的类别标签标记测试数据,分类算法就是你要寻找的技术。

数据分类有多种方法。在本文中,我们将使用 K-Nearest Neighbors (KNN) 方法,该方法通过接近度或相似性来分类数据。由于是监督学习,我们需要通过 训练和测试数据集的过程。

以下代码展示了如何使用 Sklearn 中的 train_test_split 将数据集划分为训练数据和测试数据。然后,使用 KNeighborsClassifier 类从训练数据中创建一个分类模型。最后,将获得的模型用于标记测试数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值