机器学习算法总结（一）有监督学习

最新推荐文章于 2024-06-19 21:26:49 发布

原创最新推荐文章于 2024-06-19 21:26:49 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #学习

深度学习专栏收录该内容

4 篇文章

订阅专栏

本文介绍了有监督学习的基本概念，包括线性回归、逻辑回归和支持向量机，以及用于分类的决策树和集成学习方法随机森林。同时，概述了无监督学习中的聚类和降维技术，如K-means聚类。

有监督学习

数据集有标记(答案)
若预测的值是离散值，如年龄，此类学习任务称为“分类”
若预测的值是连续值，如房价，此类学习任务称为“回归”

线性回归

线性回归是在样本属性和标签中找到一个线性关系的方法，根据训练数据找到一个线性模型，使得模型产生的预测值与样本标签的差距最小。

若用表示第𝑘个样本的第𝑖个属性，则线性模型一般形式为：
$f(x^k) = w_1x_1^k+w_2x_2^k+\cdots+w_mx_m^k+b = \sum_{i=1}^m w_ix_i^k+b$
线性回归学习的对象就是权重向量𝑤和偏置向量𝑏。如果用最小均方误差来衡量预测值与样本标签的差距，那么线性回归学习的目标可以表示为：
$(w^*,b^*) = argmin_{(w,b)}\sum_{k = 1}^n(f(x^k)-y^k)^2 = argmin_{(w,b)}\sum_{k = 1}^n(w^Tx^k+b-y^k)^2$

逻辑回归

逻辑回归是利用𝑠𝑖𝑔𝑚𝑜𝑖𝑑函数，将线性回归产生的预测值压缩到0和1之间。此时将𝑦视作样本为正例的可能性，即
$g(f(x^k))= \left\{\begin{array}{l} 1, \frac{1}{1+e^{-(w^Tx^k+b)}}\geq 0.5 \\ 0, otherwise \end{array}\right.$
注意，逻辑回归本质上属于分类算法，sigmoid函数的具体表达形式为： $\frac{1}{1+e^{-x}}$ .

支持向量机

支持向量机是有监督学习中最具有影响力的方法之一，是基于线性判别函数的一种模型。

SVM基本思想：对于线性可分的数据，能将训练样本划分开的超平面有很多，于是我们寻找“位于两类训练样本正中心的超平面”，即margin最大化。从直观上看，这种划分对训练样本局部扰动的承受性最好。事实上，这种划分的性能也表现较好。

下面我们以线性分类为例：二类可分数据集, 其中 $y = 1$ 和 $y = - 1$ 分别表示两类样本，定义分类的超平面 $f(x)=w^Tx+b$ （决策边界 decision boundary) ， “最合适”的分类标准就是使得超平面距离两边数据的间隔最大。

记 $γ\gamma$ 为样本 x 到超平面的距离，那么有
$\begin{align} x &= x_0 + \gamma \frac{w}{\|w\|} \\ \gamma &= \frac{w^Tx + b}{\|w\|} = \frac{f(x)}{w} \end{align}$
目标函数：
$\arg \max_{w,b} \arg \min_{x_i \in D} \frac{|w^Tx_i+b|}{\sqrt{\sum_{i = 1}^dw_i^2}} \\s.t. \forall x_i \in D,y_i(w^Tx_i+b)\geq 0$
通常为方便优化，我们选择加强约束条件： $∀xi∈D,∣wTxi+b∣≥1\forall x_i \in D,|w^Tx_i+b| \geq 1$ .

那么，原问题可以近似为：
$\arg \min_{w,b} \frac{1}{2}\sum_{i = 1}^d w_i^2\\s.t. \forall x_i \in D,|w^Tx_i+b| \geq 1$
对于线性不可分的数据集，我们可以做下面的操作

特征空间存在超曲面(hypersurface)将正类和负类分开
核函数(kernelfunction)
- 使用非线性函数将非线性可分问题从原始的特征空间映射至更高维
- 决策边界的超平面表示为 $wTϕ(x)+b=0w^T \phi(x)+b = 0$ .
- 定义映射函数的内积为核函数 $K(Xi,xj)=ϕ(xi)Tϕ(xj)K(X_i,x_j) = \phi(x_i)^T \phi(x_j)$ .

决策树

决策树是一种基于树结构进行决策的机器学习方法，这恰是人类面临决策时一种很自然的处理机制。

在这些树的结构里，叶子节点给出类标而内部节点代表某个属性；
例如，银行在面对是否借贷给客户的问题时，通常会进行一系列的决策。银行会首先判断:客户的信贷声誉是否良好?良好的话，再判断客户是否有稳定的工作? 不良好的话，可能直接拒绝，也可能判断客户是否有可抵押物?..这种思考过程便是决策树的生成过程。

决策树的生成过程中，最重要的因素便是根节点的选择，即选择哪种特征作为决策因素：ID3算法使用信息增益作为准则。

随机森林

集成学习(Ensemblelearning)
- 组合多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正回来。
随机森林用随机的方式建立起一棵棵决策树，然后由这些决策树组成一个森林，其中每棵决策树之间没有关联，当有一个新的样本输入时，就让每棵树独立的做出判断，按照多数原则决定该样本的分类结果。

随机森林构建的基本步骤