机器学习实战笔记（一）

最新推荐文章于 2022-08-07 15:12:03 发布

学习飞行的山药

最新推荐文章于 2022-08-07 15:12:03 发布

阅读量414

点赞数

分类专栏：机器学习 Python

本文链接：https://blog.youkuaiyun.com/Rosalind_Xu/article/details/87855794

版权

10 篇文章

订阅专栏

5 篇文章

订阅专栏

本文介绍了机器学习的基础概念，包括其定义、任务选择、算法选择和步骤。详细讲解了k-近邻算法的工作原理，以及Logistic回归算法的分类思想和最佳回归系数的确定方法。适合初学者了解机器学习的基本流程和技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Section 1 分类

监督学习：从输入模型中预测合适的模型，从中计算出目标变量。必须知道预测什么，即目标变量的分类信息。
目标变量分为标称型和数值型两类，在第一部分分类当中研究标称型的目标变量。

需要考虑：

使用机器学习算法的目的。预测目标变量的值，选择监督学习算法；进一步考虑如何目标变量类型，如果是离散型，选择分类器算法，如果是连续型，选择回归算法。否则，选择无监督学习算法，进一步分析是否将数据划分为离散的组，如果是选择聚类算法，如果还需求估计数据与每个分组的相似程度，选择密度估计算法。
需要分析和收集的数据是什么。数据是离散性还是连续型；是否存在缺失值和异常值等等。

不存在最好的算法，需要反复试错。

收集数据
准备输入数据。即处理数据的格式以及数据类型。
分析输入数据。目的是确保数据集中没有垃圾数据，检验数据集中是否存在空值和异常值，如果存在，需要采用方法及进行处理。检验的方法最简单的就是打开数据文件进行观察，可以采用简单图形化的形式比较直观的观察，也可以借助python中的库来进行检查。
训练算法。如果使用无监督学习算法，则跳过该步。
测试算法。如果不满意算法的输出结果，那么跳回第四步，进行改正和重新测试；也有可能是数据的准备出现问题，那么跳回第一步重新收集数据。