课程笔记——Unsupervised Learning：Linear Methods

最新推荐文章于 2022-01-12 16:50:52 发布

原创最新推荐文章于 2022-01-12 16:50:52 发布 · 545 阅读

CC 4.0 BY-SA版权

9 篇文章

订阅专栏

博客介绍了无监督学习的作用，重点讲解聚类和降维。聚类方法有K - means和层次聚类；降维方面，先阐述理解，指出主成分研究是将高维特征映射成低维，还介绍了特征选择和主成分分析两种方法，主成分分析可通过梯度下降或拉格朗日乘子法求解。

1 Unsupervised Learning作用

Clustering & Dimension Reduction(化繁为简)：将复杂的输入转化输出为简单内容，如输入一组树的图片输出一颗抽象的树图片。
Generation(无中生有)：输入特定值，通过已知的function输出不同类型的树图片。

本课时重点在于线性问题中的Dimension Reduction。

方法1：K-means

做法：

将 $X = \{ x^1,...,x^n,...x^N \}$ 分成K簇
从 $X$ 中随机初始化中心点 $c^i$ ， $i = 1, 2, . . . k$
(重复)遍历所有 $x^n$ ，若 $x^n$ 与哪个 $c^i$ 最近则 $bin=1b^n_i=1$ ，反之 $bin=0b^n_i=0$
(重复)更新中心点 $c^i$ ， $ci=∑xnbinxn∑xnbinc^i=\frac{\sum_{x^n}b^n_ix^n}{\sum_{x^n}b^n_i}$

方法2：Hierarchical Agglomerative Clustering(HAC)层次聚类

做法：

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
注意：主成分研究并非简单的剔除特征，而是将高纬度特征映射成低维度，映射得到的低维度特征(能够较好代表原来的高纬度特征)为主成分。

直观看到特征聚集在某一维度，则直接提取该维度。(实际操作有困难)

$z = W x$ 关键是找到 $W$

例子：宝可梦横轴：攻击力，纵轴：防御力，现将其降维至一个维度。要点如下：

若将 $x$ 降维至两个维度，则：

找到 $w^1和w^2$ ，且 $w^1||_2=1$ ， $w^2||_2=1$ ， $w^1·w^2=0$
最大化 $z_1和z_2$
则 $W=[(w1)T(w2)T..]W=\begin{bmatrix} (w^1)^T \\ (w^2)^T \\ .\\.\end{bmatrix}\quad$

预备：
在这里插入图片描述
投影到1维：

投影到1维：

目标：找到 $w^2$ ，使 $Var(z_2)=(w^2)Sw^2$ 最大
约束： $w^2)^Tw^2=1$ ， $w^2)^Tw^1=0$
朗格朗日乘法，得：（蓝色线处=1，黄色线处=0，绿色线处=行向量*矩阵*列向量=标量）
结论： $w^2$ 是协方差矩阵 $S$ 的特征向量(对应的特征值 $λ2\lambda_2$ 为第二大的特征值。解释：因为两个特征向量是正交的，故特征值一定不同，所以 $w^2$ 特征值一定不是最大的那个，那么顺延即为第二大)