机器学习--算法分类

最新推荐文章于 2025-10-10 14:51:21 发布

原创最新推荐文章于 2025-10-10 14:51:21 发布 · 278 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

AI 专栏收录该内容

8 篇文章

订阅专栏

算法分类

分类与聚类

Classification (分类)：给定一堆样本数据，以及这些数据所属的类别标签，通过算法来对预测新数据的类别。（有先验知识）

对于一个 classifier ，通常需要你告诉它“这个东西被分为某某类”这样一些例子，理想情况下，一个 classifier 会从它得到的训练集中进行“学习”，从而具备对未知数据进行分类的能力，这种提供训练数据的过程通常叫做 supervised learning (监督学习)

Clustering(聚类)：事先并不知道一堆数据可以被划分到哪些类，通过算法来发现数据之间的相似性，从而将相似的数据划入相应的类，简单地说就是把相似的东西分到一组。（没有先验知识）

聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起，因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了，因此clustering 通常并不需要使用训练数据进行学习，这在 Machine Learning 中被称作 unsupervised learning(无监督学习)

常见的分类与聚类算法

常用的分类算法:

k-最近邻法(k-nearest neighbor，kNN)
决策树分类法
朴素贝叶斯分类算法(native Bayesian classifier)
支持向量机(SVM)的分类器
神经网络法
模糊分类法等等

常见聚类算法：

K均值(K-means clustering)聚类算法

K-MEDOIDS算法、CLARANS算法
BIRCH算法
CURE算法
CHAMELEON算法等；

基于密度的方法：

DBSCAN算法
OPTICS算法
DENCLUE算法等；

基于网格的方法：

STING算法
CLIQUE算法
WAVE-CLUSTER算法；

监督学习与无监督学习

机器学习按照训练数据是否有“先验知识”，一般划分为三类：

监督学习(supervised learning)
无监督学习(unsupervised learning)
半监督学习(semi-supervised learning)

监督式学习技术需要关于结果的先验知识

例如，如果我们正在研究一个市场活动的历史数据，我们可以根据市场是否产生预期的反应来对数据进行分类，或决定下一步要花多少钱。监督式学习技术为预测和分类提供了强大的工具。

无监督学习技术不需要先验知识

例如，在某些欺诈的案例中，只有当事情发生很久以后，我们才可能知道某次交易是不是欺诈。在这种情况下，与其试图预测哪些交易是欺诈，我们不如使用机器学习来识别那些可疑的交易，并做出标记，以备后续观察。我们对某种特定的结果缺乏先验知识、但仍希望从数据中汲取有用的洞察时，就要用到无监督式学习。
在这里插入图片描述

强化学习

定义：
- 实质是make decisions 问题，即自动进行决策，并且可以做连续决策。

举例：

小孩想要走路，但在这之前，他需要先站起来，站起来之后还要保持平衡，接下来还要先迈出一条腿，是左腿还是右腿，迈出一步后还要迈出下一步。

小孩就是 agent，他试图通过采取行动（即行走）来操纵环境（行走的表面），并且从一个状态转变到另一个状态（即他走的每一步），当他完成任务的子任务（即走了几步）时，孩子得到奖励（给巧克力吃），并且当他不能走路时，就不会给巧克力。

在这里插入图片描述

主要包含五个元素：agent, action, reward, environment, observation；

总结

	In	Out	目的	案例
监督学习 (supervised learning)	有标签	有反馈	预测结果	猫狗分类房价预测
无监督学习 (unsupervised learning)	无标签	无反馈	发现潜在结构	“物以类聚，人以群分”
半监督学习 (Semi-Supervised Learning)	部分有标签，部分无标签	有反馈	降低数据标记的难度
强化学习 (reinforcement learning)	决策流程及激励系统	一系列行动	长期利益最大化	学下棋