机器学习部分算法

最新推荐文章于 2025-04-21 17:49:33 发布

原创最新推荐文章于 2025-04-21 17:49:33 发布 · 565 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#svm #机器学习

机器学习算法专栏收录该内容

17 篇文章

订阅专栏

分类算法

感知机利用误差最小的原则求得分离超平面，但是这样的平面有无数多个；SVM利用最大间隔求分离超平面，这样的解释唯一的。

2 K-Means

原始数据集合为 $(\mathbf{x_1},\mathbf{x_2},...,\mathbf{x_N})$ ,并且每个 $\mathbf x_i$ 为 $d$ 维的向量，K-means聚类的目的是将原始数据分成K类 $\mathbf{S}=\lbrace S_1,S_2,...,S_K \rbrace$ ,使下式取得最小值：

J = \sum j = 1 K \sum x j \in S i ∥ ∥ X j - μ i ∥ ∥ 2 = \sum n = 1 N \sum k = 1 K r n k ∥ ∥ X j - μ i ∥ ∥ 2

$J=\sum_{j=1}^{K}\sum_{\mathbf{x_j}\in S_i} \begin{Vmatrix}\mathbf{X}_j- \mathbf{\mu}_i \end{Vmatrix}^2=\sum_{n=1}^{N}\sum_{k=1}^Kr_{nk} \begin{Vmatrix}\mathbf{X}_j- \mathbf{\mu}_i \end{Vmatrix}^2$ 这里

μi $\mathbf{\mu}_i$ 表示分类

Si $S_i$ 的平均值,其中

rnk $r_{nk}$ 在数据

xn $\mathbf{x}_n$ 被分到

k $k$ 类时为1，否则为0.
具体算法步骤如下:

从D中随机选取K个元素，分别作为K个簇的中心，即先固定μk；
- 计算其他元素到这 $K$ 个簇的中心差异，并将其划分为差异度最低的簇，即已知 $\mu_k$ 求 $r_{nk}$ ；
- 根据聚类结果，分别重新计算 $K$ 个簇的中心，即利用 $\mu_k$ 更新 $r_{nk}$ ；
- 重复步骤2，直到聚类结果不再改变。
- 4 Apriori
  
  5 EM算法
  
  6 PageRank
  
  7AdaBoost
  
  大多数提升方法是通过改变训练数据的概率分布（训练数据的权值分布）针对不同的训练数据分布调用弱分类学习算法学习一系列弱分类
  器。这样有两个问题：一是，在每一轮训练中如何改变数据的权值或概率分布；二是如何将弱分类器组合成一个强分类器。对第一个问题
  AdaBoost的做法是，提高前一轮被弱分类器错误分类的样本权值，降低被正确分类样本的权值，以提升那些被错误分类的数据被后一轮弱分类
  器关注的程度。对于第二个问题，AdaBoot采取加权多数表决的方式，对于误差率小的弱分类器加大权重，对于误分类率大的弱分类器减小
  其权重。
  AdaBoost算法
  输入：训练数据集 $T= \lbrace (x_1,y_1),(x_1,y_1),…,(x_N,y_N) \rbrace$ 其中 $x_i \in \mathcal{X} \subseteq R^N,y_i\in \lbrace-1,+1 \rbrace$ ,
  
  输出：最终分类器 $G(x)$
  1. 初始化训练数据的权值分布 $D_1=(w_{11},...,w_{1i},...,w_{1N})$ , $w_{1i}=\frac 1N,i=1,2,…,N$
  2. 对 $m=1,2,...,M$
    1）使用具有权值分布 $D_m$ 的训练数据集学习，得到基本分类器 $G m (x) : X \to {- 1, + 1}$ $G_m(x):\mathcal{X}\rightarrow \lbrace-1,+1\rbrace$
    2）计算 $G_m(x)$ 在训练数据集上的分类误差率 $e m = P (G m (x i) \neq y i) = \sum i = 1 N w m i I (G m (x i) \neq y i)$ $e_m=P(G_m(x_i)\neq y_i)=\sum_{i=1}^N w_{mi}I(G_m(x_i)\neq y_i)$
    3）计算 $G_m(x)$ 的系数 $α m = 1 2 ln 1 - e m e m$ $\alpha_m=\frac 12\ln \frac {1-e_m}{e_m}$
    4）更新训练数据集的权重 $D m + 1 = (w m + 1, 1, . . ., w m + 1, i, . . ., w m + 1, N) w m + 1, i = w m i Z m e x p (- α m y i G m (x i))$ $D_{m+1}=(w_{m+1,1},...,w_{m+1,i},...,w_{m+1,N})\\ w_{m+1,i}=\frac {w_{mi}}{Z_m}exp(-\alpha _m y_iG_m(x_i))$
    其中， $Z_m$ 是规范化因子。 $Z m = \sum i = 1 N w m i e x p (- α m y i G m (x i))$ $Z_m=\sum_{i=1}^Nw_{mi}exp(-\alpha _m y_iG_m(x_i))$
  3. 构建基本分类器的线性组合
    $f (x) = \sum m = 1 M α m G m (x)$ $f(x)=\sum_{m=1}^M\alpha_mG_m(x)$ 最终分类器 $G (x) = s i g n (f (x)) = s i g n (\sum m = 1 M α m G m (x))$ $G(x)=sign(f(x))=sign(\sum_{m=1}^M\alpha_mG_m(x))$
    注解： $f(x)$ 的符号说明了分类的结果，绝对值的大小说明置信度。
  8 KNN
  
  KNN的三个问题
  
  距离度量通常使用欧式距离；
  K值选择 K较小时，学习的近似误差减小，对邻近实例点较敏感，如果邻近实例点是噪声那么预测就会出错，K值减小那么模型就会变复杂，容易产生过拟合；如果K值较大，减少学习的估计误差，但是较远的不相关的实例点也可能对预测产生影响，K增大模型变简单忽略了实例中的大量有用信息。
  分类决策规则多数表决
  
  kd树
  
  实现k近邻的最简单的方法是线性扫描，这时计算输入实例与每一个训练实例的距离，当训练数据集大时，这种方法不可行，所以通过使用kd树来减少计算距离的次数，提高k近邻搜索的效率。
  构造平衡kd树算法
  输入：k维空间数据集 $T=\lbrace \mathbf x_1,\mathbf x_2,...,\mathbf x_N\rbrace$ ,其中， $\mathbf x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(k)})^T,i=1,2,...,N;$
  输出：kd树。
  1. 构造根节点，根节点对应包含 $T$ 的 $k$ 维空间的超矩形区域。选择 $x^{(1)}$ 为坐标轴，以 $T$ 中所有实例的 $x^{(1)}$ 坐标的中位数为切分点，将根节点对应的超矩形分为两个子区域，切分面与坐标 $x^{(1)}$ 轴垂直。落在切分面上的实例点位根节点。
  2. 重复：对深度为 $j$ 的结点，选择 $x^{(l)}$ 为切分的坐标轴， $l=j(mod k)+1$ ,并以该节点的区域中所有实例的 $x^{(l)}$ 的中位数为切分点，将该节点对应的超矩形区域切分为两个子区域，落在切分面上的实例点保存为该节点。
  3. 直到两个区域没有实例存在时停止，从而形成kd树的区域划分。
  用kd树的最近邻搜索
  输入：已构造的kd树，目标点 $x$ ;
  输出： $x$ 的最近邻。
  1. 在kd树中找到包含目标点 $x$ 的叶结点。以此叶节点为“当前最近点”。
  2. 递归地向上回退，在每个结点进行一下操作：
    1）如果该结点保存的实例点比当前最近点距离里最近目标点更近，则以该实例点为“当前最近点”
    2）当前最近点一定存在于该结点一个子节点对应的区域，检查该子节点的父节点的另一个子节点对应的区域是否有更近的点。具体地，检查另一个节点对应的区域是否与目标点为球心、以目标点与“当前最近点”间的距离为半径的超球体相交。如果相交，移动到另一个子节点，接着递归搜索；如果不相交，向上回退。
  3. 当回退到根节点时，搜索结束。
  对于随机分布的实例点，kd树搜索的平均计算复杂度为 $O(logN)$ .
  9 贝叶斯分类器
  
  分类算法

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。