《图解机器学习》读书笔记1

最新推荐文章于 2024-03-21 16:24:55 发布

know_past

最新推荐文章于 2024-03-21 16:24:55 发布

阅读量265

点赞数 1

CC 4.0 BY-SA版权

文章标签： j

本文链接：https://blog.youkuaiyun.com/fuckgogo/article/details/85039489

本文介绍了机器学习的基本概念，包括监督学习、无监督学习和强化学习的定义与应用场景，以及常用的机器学习方法，如回归、分类、异常检测、聚类和降维。同时，探讨了机器学习的数学手段，如识别的分类、生成的分类、统计概率和朴素贝叶斯。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.什么是机器学习

1.1学习的种类

监督学习，无监督学习和强化学习

监督学习：有正确答案指导的学习。一般将提供的答案称为标签。在标签指导对错的情况下，计算机将学习过程中学到的函数基于某种准则不断修正，最后学习得来的函数对于没有学习过得问题也能做出解答。这样得一个过程我们称为监督学习。监督学习在手写文字识别，声音处理，图像处理，基因诊断等各个方面都有广泛的应用。（该过程可看作有老师提供指导的学习）

无监督学习：没有正确答案指导的学习。计算机从给出的数据或者互联网收集到的数据，按照某种方法自行提取知识并解决问题的过程。由于没有明确答案，所以学习的目标可以更为自由，因此使用的范围可以更广。如监督学习的前置处理、视频分析、社团聚类等方面。

强化学习：和无监督学习类似的地方是都没有提供正确答案，不同的是强化学习需要对自己的预测结果做出评价，计算机为了更好的评价会不断学习优化，这样的一个过程我们称之为强化学习。强化学习在机器人的自动控制、计算机游戏里的人工智能等等都有广泛的应用。

1.2 机器学习的常用方法介绍

回归：用实函数在样本点附近加以模拟的有监督的函数近似问题。For example，现在我们有输入输出样本 $\{(x$_i$,y$_j$)\}$_{i=1}^n$$ ,需要求得一个函数：y=f(x)。通过函数f，输入 $x$_i$$ 得到的f( $x$_i$$ )与yi对于i=1,2,...,n正确率要尽可能高。当满足条件时，我们使用f(x)来模拟y。整个过程就是回归。回归又有线性和非线性两种。

分类： 关于分类，我的理解是利用指定的模式，将对应的样本划分到某一类中。将这个模式类比于回归的函数，某一类对应于 $y$_i$$ ，只不过这个 $y$_i$$ 取得的是离散得整数。

异常检测：这是一个寻找 $\{x$_i$\}$_{i=1}$$^n$$ 中异常值的过程，在有正常数据和异常数据作为参考的数据集时，可以使用监督学习来完成这一过程。但大部分情况是这样的数据集不存在，这时我们就需要使用密度估计或者统计与平均值距离的方法来找出异常点。

聚类：这个与分类有类似之处，但是没有标签。只给出样本 $\{x$_i$\}$_{i=1}$$^n$$ ，需要·判断各个样本属于y=1，2,...,c中的哪一个类，相同类别的数据相似程度较高。

降维：当输入样本 $\{x$_i$\}$_{i=1}$$^n$$ 维度d变大时，计算的时间复杂度会呈指数级增长。为了避免这个问题，我们可以将高位空间的数据映射到低维空间中，降低计算的时间复杂度。

1.3 机器学习的数学手段介绍

识别的分类：

对于样本 $\{(x$_i$,y$_j$)\}$_{i=1}^n$$ ，在已知模式x时，如果能求得分类类别y使得条件概率p(y|x)达到最大值，则可以进行模式识别。

即 $\LARGE $^\hat{y}=\arg\max\limits_{y}p(y|\textbf{x}))$$

通过这样的方式，我们可以将离散的点一个一个的进行归类。在这里，我们将p(y|x)称为后验概率。应用训练集直接对后验概率 p(y|x)进行学习的过程，称为判别式分类（识别分类）。在这里，我的理解是对于一些样本点的集合x，你利用样本已有的信息去预测x属于哪一个类别（1，2,.....,c）的可能性最大。

生成的分类：

$\large p(y|\textbf{x})=p(\textbf{x},y)/p(\textbf{x})$\propto$p(\textbf{x},y)$

通过这个公式我们看到模式x和类别y的联合概率p(x,y)(也叫数据生成概率)与后验概率p(y|x)成正比。既然这样我们可以使联合概率p(x,y)最大化来求得最大化的后验概率。

即 $\LARGE $$^\hat{y}=\arg\max\limits_{y}p(\textbf{x},y)$$$

通过预测数据生成概率p(x,y)来进行模式识别的分类方法也叫生成的分类。（就好像你猜出来它的分布模式是0-1分布还是泊松分布，具体的怎么用还望大佬赐教）

统计概率：

假设我们现在有训练集D= $\{(x$_i$,y$_j$)\}$_{i=1}^n$$ ，参数 $\large \pmb\theta$ 为我们学习的变量。如何由训练集D得到高精度的 $\large \pmb\theta$ 是统计学习概率方法的主要课题。以最大似然估计举例

$\large $\max\limits_\pmb\theta$ $\prod_{i=1}^n$$q(\textbf{x}_i,y_i;\pmb\theta)$$

朴素贝叶斯：

朴素贝叶斯与统计概率相对，将参数 $\large \pmb\theta$ 作为概率变量。使用先验概率p( $\large \pmb\theta$ )(不同的 $\large \pmb\theta$ 应该有不同的p( $\large \pmb\theta$ ))计算与训练集相对应的后验概率p( $\large \pmb\theta$ |D).。利用贝叶斯公式，我们就能很简便地计算后验概率p( $\large \pmb\theta$ |D)

$\large $$p(\pmb\theta|D)=\frac{p(D|\pmb\theta)p(\pmb\theta)}{p(D)}=\frac{\prod_{i=1}^nq(\textbf{x}_i,y_i|\pmb\theta)p(\pmb\theta)}{\int\prod_{i=1}^nq(\textbf{x}_i,y_i|\pmb\theta)p(\pmb\theta)d\pmb\theta}$$$