机器学习系列(4)_机器学习算法一览，应用建议与解决思路

最新推荐文章于 2024-02-24 12:08:53 发布

龙心尘

最新推荐文章于 2024-02-24 12:08:53 发布

阅读量1.6w

点赞数 13

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习数据挖掘算法

本文链接：https://blog.youkuaiyun.com/longxinchen_ml/article/details/50471268

本文介绍了机器学习算法的分类，包括监督学习、无监督学习和半监督学习，并详细阐述了各类算法，如回归、聚类、决策树等。此外，文章还探讨了数据可视化、模型选择、过拟合与欠拟合的解决方法，以及在大数据场景下的处理策略。通过对机器学习问题解决思路的总结，为实际应用提供了指导。

作者：寒小阳 && 龙心尘
时间：2016年1月。
出处：
http://blog.youkuaiyun.com/han_xiaoyang/article/details/50469334
http://blog.youkuaiyun.com/longxinchen_ml/article/details/50471268
声明：版权所有，转载请联系作者并注明出处

1.引言

提起笔来写这篇博客，突然有点愧疚和尴尬。愧疚的是，工作杂事多，加之懒癌严重，导致这个系列一直没有更新，向关注该系列的同学们道个歉。尴尬的是，按理说，机器学习介绍与算法一览应该放在最前面写，详细的应用建议应该在讲完机器学习常用算法之后写，突然莫名奇妙在中间插播这么一篇，好像有点打乱主线。
老话说『亡羊补牢，为时未晚』，前面开头忘讲的东西，咱在这块儿补上。我们先带着大家过一遍传统机器学习算法，基本思想和用途。把问题解决思路和方法应用建议提前到这里的想法也很简单，希望能提前给大家一些小建议，对于某些容易出错的地方也先给大家打个预防针，这样在理解后续相应机器学习算法之后，使用起来也有一定的章法。

2.机器学习算法简述

按照不同的分类标准，可以把机器学习的算法做不同的分类。

2.1 从机器学习问题角度分类

我们先从机器学习问题本身分类的角度来看，我们可以分成下列类型的算法：

监督学习算法

机器学习中有一大部分的问题属于『监督学习』的范畴，简单口语化地说明，这类问题中，给定的训练样本中，每个样本的输入 $x$ 都对应一个确定的结果 $y$ ，我们需要训练出一个模型(数学上看是一个 $x → y$ 的映射关系 $f$ )，在未知的样本 $x'$ 给定后，我们能对结果 $y'$ 做出预测。

这里的预测结果如果是离散值(很多时候是类别类型，比如邮件分类问题中的垃圾邮件/普通邮件，比如用户会/不会购买某商品)，那么我们把它叫做分类问题(classification problem)；如果预测结果是连续值(比如房价，股票价格等等)，那么我们把它叫做回归问题(regression problem)。

有一系列的机器学习算法是用以解决监督学习问题的，比如最经典的用于分类问题的朴素贝叶斯、逻辑回归、支持向量机等等；比如说用于回归问题的线性回归等等。