k最邻近法之应用篇–分类问题
Keyword:knn算法,机器学习,数据可视化
Introduction
本文主要介绍通过knn算法对鸢尾花(iris)进行分类。具体将对鸢尾花的四种属性建立坐标系,并训练knn模型对数据进行识别。关于knn的原理可以看这一篇文章:👇👇👇
🌈【机器学习0】最简单的机器学习算法之一 KNN–k最邻近法 概念篇
1 数据观测、数据可视化
1.1 探索数据
首先我们先了解以下iris的数据长什么样🔍
library(datasets)
myData=(iris)
#数据总结
summary(iris)
可以看到数据主要包含了3个品种的iris,并且收录了每个花的四个属性,分别是萼片的长和宽以及花瓣的长和宽。
1.2 建立坐标系观察数据分布
为了更直观的体现出knn算法的原理,这里只对iris萼片的长和宽进行二维建模。
library(ggplot2)
#建立坐标系
ggplot(data=myData,aes(x=myData$Sepal.Length