Charlesdeluvio 在Unsplash上的照片。
备忘录可以作为指南,为我们提供初步想法。我个人有时会使用一些备忘录,并发现它们非常有帮助,尤其是在我开始学习机器学习算法时。
除了理解和应用之外,检查获得的结果是重要的步骤,这有助于我们了解或看到数据发生了什么。在这种情况下,使用数据可视化是一个不错的选择,因为它可以直观地展示算法的结果。
尽管有各种图表可供选择,但选择合适的图表可以帮助我们有效地展示结果。因此,我认为制作一个快速选择图表的备忘录是个好主意。结果就是下面的基本机器学习数据可视化备忘录。
哇哦!!
基本机器学习数据可视化备忘录 – 由作者创建。
在继续之前,请记住备忘录中推荐的数据可视化只是一些快速初步想法。可能存在这些图表不适合使用的情况。接下来,我将通过示例指导您如何使用 Python 绘制图表。
让我们开始吧。
获取数据
从导入库开始:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
本文将使用鸢尾花数据集,该数据集可以直接从 Sklearn 库中下载。数据集也可以在UCI ML 鸢尾花数据找到,并受CC BY 4.0许可协议的许可。
本文将主要关注“花瓣长度”和“花瓣宽度”属性。如果您想尝试其他数据集,请随意修改下面的代码或跳过这部分。
from sklearn.datasets import load_iris
data = load_iris()
df = pd.DataFrame(data = data.data, columns = data.feature_names)
df_t = pd.DataFrame(data = data.target, columns = ['label'])
df_iris = pd.concat([df,df_t], axis=1)
df_iris.head()
在应用任何机器学习技术之前,进行 EDA(探索性数据分析)以了解数据或发现模式总是一个好主意。为了进行 EDA,数据可视化扮演着重要的角色,它帮助我们直观地看到数据。
接下来,我们将使用散点图来展示选定的变量。
sns.set_style('darkgrid')
fig, ax = plt.subplots()
sns.scatterplot(data = df_iris, x = 'sepal length (cm)',
y = 'sepal width (cm)',
hue='label',
palette=['red', 'blue', 'orange'],
ax=ax)
ax.set_xlim(4,8)
ax.set_ylim(1.9,4.5)
plt.legend([],[], frameon=False)
plt.show()
散点图 – 图片由作者提供。
现在一切准备就绪,让我们继续到机器学习部分。
如本文开头所示,该表由四个主要部分组成:
-
分类
-
聚类
-
回归
-
维度降低
让我们开始吧…
绘制分类结果的标准 – 图像由作者提供。
分类是一种监督机器学习方法,它使用训练数据集创建模型以预测或标记测试数据集。简单来说,如果你想用离散的类别标签标记测试数据,分类算法就是你要寻找的技术。
数据分类有多种方法。在本文中,我们将使用 K-Nearest Neighbors (KNN) 方法,该方法通过接近度或相似性来分类数据。由于是监督学习,我们需要通过 训练和测试数据集的过程。
以下代码展示了如何使用 Sklearn 中的 train_test_split 将数据集划分为训练数据和测试数据。然后,使用 KNeighborsClassifier 类从训练数据中创建一个分类模型。最后,将获得的模型用于标记测试数据。
8414

被折叠的 条评论
为什么被折叠?



