第一章机器学习笔记开始机器学习

最新推荐文章于 2022-10-24 22:58:44 发布

原创最新推荐文章于 2022-10-24 22:58:44 发布 · 516 阅读

0 ·

CC 4.0 BY-SA版权

机器学习笔记专栏收录该内容

1 篇文章

订阅专栏

本文介绍了机器学习中的监督学习和无监督学习的概念，并解释了分类与回归的区别。还详细阐述了如何选择合适的机器学习算法，以及整个机器学习过程的步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习算法分监督学习和无监督学习
监督学习其实就是我们对输入样本经过模型训练后有明确的预期输出。
举个栗子，监督学习就是我们知道经过模型训练后会分为好瓜或者坏瓜
无监督学习就是我们对输入样本经过模型训练后得到什么输出完全没有预期。
举个栗子，非监督学习则会将西瓜聚类为几种我们之前没有明确定义的瓜，如浅色瓜,外地瓜。

监督学习分为两大类，分类和回归
分类：给定一个新的模式，根据训练集推断它所对应的类别（如：+1，-1），是一种定性输出，也叫离散变量预测
举个栗子：预测明天是阴、晴还是雨，就是一个分类任务。
回归：给定一个新的模式，根据训练集推断它所对应的输出值（实数）是多少，是一种定量输出，也叫连续变量预测
举个栗子：预测明天的气温是多少度，这是一个回归任务

监督学习一般使用两种目标变量，标称型和数值型
标称型:二值型(例如:真与假)和枚举型[离散型变量](动物分类集合:爬行类，哺乳类，两栖类)
数值型:连续型变量(0.1,0002,0.33333)

选择算法
系那个要预测目标变量的值，可以选择监督算法，否则可以选择无监督算法。确定选择监督算法，在确认目标标量类型，是离散型的话，选择分类算法，是连续性，选择回归算法。不预测目标变量的值，则可以选用无监督算法划分离散的组。选择具体的算法，可以根据数据特性（属性），根据特征值是离散型还是连续型变量，特征值是否存在缺失值，何种原因造成缺失值，数据是否异常，特征发生频率如何，充分了解数据特性可以缩短机器学习算法的时间。

机器学习步骤
收集数据，从应用项目，网络爬虫，RSS等多个渠道获取数据。
准备数据，将需要做计算的数据，按照一定的格式准备好。
分析数据，查看数据的特性，数据是否有异常值，是否有空值，还可以通过二维，三维图片展示，方便分析数据。
算法训练（训练数据集必须确定目标变量值，以便机器学习算法可以发现特征和目标变量之间的关系）
测试算法，已经知样本集，当作未知样本，输入数据进行计算，测试成功率，判断算法合适度。
使用算法，将算法转换成应用程序，将未知结果的特性数据输入，算出结果值。