机器学习概览-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_37388085/article/details/103698138

1.机器学习算法

什么是学习？
Mitcgell（1997）提供了一个简洁的定义：“对于某类任务T和性能度量P，一个计算机程序被认为可以从经验E中学习是指，通过经验E改进后，它在任务T上由性能度量P衡量的性能有所提升。”
什么是机器学习算法？
机器学习算法是一种能够从数据中学习的算法。

1.1 任务T

机器学习的任务是什么？
通常机器学习任务定义为机器学习系统应该如何处理样本（example），即对样本进行一个复杂的非线性变换从而能得到正确的结果。
样本是什么？
样本是指我们从某些希望机器学习系统处理的对象或者事件中收集到的已经量化的特征的集合。
常见的任务有哪些？
分类、输入缺失分类；
回归；
转录：OCR（光学字符识别），ASR（语音识别）；
机器翻译：seq2seq；
结构化输出：输出值之间内部紧密相关，如语法树；
异常检测：筛选不正确或非典型的个体；
合成与采用：VAE，GAN；
缺失值填充；
去噪；
密度估计；

1.2 回归问题与分类问题

回归问题输出是连续的实数；
分类问题的输出是一个类别，是一个0或者1的序列，与回归问题不同，其输出是一个概率分布，概率总和为1。然后概率最大的一维输出为1，其余为0；

1.3 性能度量P

性能度量P用于评估机器学习算法的能力；

回归任务：MSE（均方误差）， $J=\frac{1}{2}\sum_{i=1}^N(y_i-\hat{y_i})^2$ ；
分类任务：错误率，精度，精确率与召回率、F1等；

准确率：准确率是指该模型输出正确结果的样本比率；

在测试集上评估模型的性能；

1.4 经验E

无监督学习
无监督学习算法训练含有很多特征的数据集，然后学习出这个数据就上有用的结构性质；在深度学习中，通常要学习生成数据集的整个概率分布，显式地，比如密度估计，或者隐式地，比如合成或者去噪；
监督学习
监督学习算法训练含有很多特征的数据集，但是数据集中的样本都有一个标签或者目标；

2.容量、过拟合和欠拟合

奥卡姆剃刀：若有多个假设与观察一致，则选择最简单的；
没有免费的午餐：不存在能够在所有可能的分类问题中性能均为最优的算法；
解决方法：尽可能的深入了解所面对的分布，找到先验知识；
正则化：修改学习算法，使其降低泛化误差而非训练误差L1正则化，L2正则化； $J(w)=MSE_{train} + \lambda w^Tw$ ;

3.超参数和验证集

超参数
用于挑选超参数的数据子集被称为验证集；
验证集
交叉验证法（主要方法），留出法，k-折交叉验证；
测试集
判断模型的性能好坏；

4.估计、偏差和方差

4.1 估计

点估计：比如估计高斯分布的均值U为0.1；
区间估计：比如估计高斯分布的均值u落在[0,0.2]之间的可能性（置信度）；
函数估计（函数近似）：可以用少量的参数w来拟合实际的各种价值函数，例如线性回归；

一般我们谈的是点估计；

4.2 偏差

偏差：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据；
方差：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散。

5.最大似然估计

最小二乘的核心是权衡，因为你要在很多条线中间选择，选择出距离所有点之和最短的；
极大似然估计，通俗来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即“模型已定，参数未知”。

6.贝叶斯估计

贝叶斯估计是最大后验估计的进一步扩展，最大后验估计是估计出 $\theta$ 的具体值，贝叶斯估计是估计出 $\theta$ 的分布，唯一的区别是贝叶斯多除于一个全概率 $P (X)$ ，把得到的 $\theta$ 这个概率归一化。

贝叶斯的数学表达式： $P(\theta|x)=\frac{P(X|\theta)P(\theta)}{P(X)}$

频率派认为参数是一个固定值，只是暂时是未知的；贝叶斯学派认为参数是一个随机变量。频率派通过极大似然估计找到对应的参数值，贝叶斯派通过最大后验估计计算得到参数值。

在经典抛硬币的问题中，最大似然估计认为使似然函数最大的参数 $\theta$ 即为最好的 $\theta$ ，此时最大似然估计是将 $\theta$ 看做固定的值，只是其值未知；

最大后验概率分布认为 $\theta$ 是一个随机变量，即 $\theta$ 具有某种概率分布，称为先验分布，求解时除了要考虑似然函数 $P(X|\theta)$ 之外，还要考虑 $\theta$ 的先验分布 $P(\theta)$ ，因此其认为使 $P(X|\theta)P(\theta)$ 取最大值的 $\theta$ 就是最好的 $\theta$ 。

用数学公式表达： $argmax_{\theta}P(\theta|X)=argmax_{\theta}P(X|\theta)P(\theta)$

频率派为极大似然估计： $argmax_{\theta}P(X|\theta)$

7.监督学习算法

监督学习算法是给定一组输入x和输出y的训练集，学习如何关联输入和输出。

逻辑回归模型学习时，对于给定的训练数据集 $T=\left \{ (x_1,y_1),(x_2.y_2),...,(x_n,y_n)\right \}$ ，其中， $x_i\in \mathbb{R}^n$ ， $y_i\in \left \{0,1 \right \}$ ，可以应用极大似然估计法估计模型参数，从而得到逻辑回归模型。

设 $P(Y=1|x)=\pi(x)$ ， $P(Y=0|x)=1-\pi(x)$

似然函数为 $\prod_{i=1}^N[\pi(x_i)^{y_i}][1-\pi(x_i)]^{1-y_i}$
对数似然函数为 $L(w)=\sum_{i=1}^N[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))]$ $=\sum_{i=1}^N[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))]$ $=\sum_{i=1}^N[y_i(w\cdot x_i)-log(1+exp(w\cdot x_i))]$ 对 $L (w)$ 求极大值，得到w的估计值：
$\frac{\partial L(w)}{\partial w}=\sum_{i=1}^N[y_ix_i-\frac{exp(wx_i)}{1+exp(wx_i)}x_i]=0$ 但是这种求极值一般很难得到结果，所以一般使用梯度下降方法求极值。