Coursera机器学习 Week9 笔记

最新推荐文章于 2020-11-30 16:29:38 发布

LVB10101111

最新推荐文章于 2020-11-30 16:29:38 发布

阅读量698

点赞数

分类专栏：机器学习Coursera By Andrew Ng 文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/u013515273/article/details/77583098

版权

机器学习Coursera By Andrew Ng 专栏收录该内容

10 篇文章

订阅专栏

这篇博客介绍了Coursera机器学习课程的第九周内容，主要包括异常检测和推荐系统的概念与应用。在异常检测部分，讲解了异常检测算法的原理，如高斯分布、模型评估和特征选择，并对比了异常检测与监督学习的区别。在推荐系统部分，阐述了预测用户评分、寻找相关电影以及给新用户推荐电影的方法，涉及矩阵分解等技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

编程作业放到了github上：coursera_machine_learning

1. Anomaly Detection (异常检测)

当一堆数据集中出现少个别几个异常数据时，需要检测出这几个异常数据。

1.1 异常检测算法概述

用一个分布 $P(x)$ 来表示数据 $x$ 是正常数据的概率，如果 $P(x)<\epsilon$ 则 $x$ 是异常数据，反之。

而异常检测算法要做的，就是从现有的训练集中训练出这个分布 $P(x)$ 。

异常检测是一个“无监督学习”模型。

1.2 单元高斯分布

异常检测中我们使用“高斯分布”。因此只要通过训练集计算出“高斯分布”中的参数 $\mu$ 和 $\sigma^2$ 即可。

对于其中一条数据 $x^\left(i\right)=\{x^\left(i\right)_1,x^\left(i\right)_2,...,x^\left(i\right)_n\}$ ，认为其各特征之间是独立同分布的，则：

P (x (i)) = p (x (i) 1) p (x (i) 2) . . . p (x (i) n)

$P(x^\left(i\right))=p(x^\left(i\right)_1)p(x^\left(i\right)_2)...p(x^\left(i\right)_n)$

于是对于特征 $x_j$ 而言，只要其满足“高斯分布”，就可以计算：

μ j = 1 m \sum i = 1 m x (i) j

$\mu_j=\frac{1}{m}\sum^{m}_{i=1}x^\left(i\right)_j$

σ 2 j = 1 m \sum i = 1 m (x (i) j - μ j) 2

$\sigma^2_j=\frac{1}{m}\sum^{m}_{i=1}(x^\left(i\right)_j-\mu_j)^2$

p (x (i) j) = 1 2 π ‾ ‾ ‾ \sqrt σ e x p (- ( x ( i ) j - μ j ) 2 2 σ 2 j)

$p(x^\left(i\right)_j)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x^\left(i\right)_j-\mu_j)^2}{2\sigma^2_j})$

至此，通过计算得到了 $x$ 的分布，于是当新来一个 $x^{test}$ ，只要计算 $P(x^{test})<\epsilon$ 是否成立，如果是，则 $x^{test}$ 是一个异常值。 $\epsilon$ 的选择在下一节中讲到。

但是目前为止，必须保证features是满足“高斯分布”的。至于如何选择这样子的特征以及当特征不满足高斯分布时怎么处理。

1.3 模型评估

一个模型需要有一个评估标准来判断这个模型的好坏。

虽说异常检测是一个无监督模型，但是在评估的时候，我们还是需要知道一些正确答案labels才能进行评估的。所谓无监督模型是指在训练的时候输入的数据没有标签，但是在测试评估的时候是要有参照的。

假设有如下数据：

10000条好数据；20条异常数据

分成如下数据集：

训练集：6000条好数据
[作用：计算出正常数据的高斯分布P(x)]

验证集：2000条好数据(y=1)；10条异常数据(y=0)
[作用：选择参数 $\epsilon$ 及特征]

测试集：2000条好数据(y=1)；10条异常数据(y=0)
[作用：评估模型的好坏]

评估过程如下：

步骤1: 先用训练集学习出好数据的高斯分布模型P(x)

步骤2: 在验证集上进行预测，令：

$y = {1 i f p (x) < ϵ 0 i f p (x) ⩾ ϵ$ $y=\left\{\begin{matrix} 1 \qquad if \ p(x)<\epsilon \\ 0 \qquad if \ p(x) \geqslant \epsilon \end{matrix}\right.$
步骤3: 验证机上模型评估以便调整参数
1.常用的方法是计算正确率，但这种方式显然不适合用在这里，因为这个数据集是“倾斜的(skewed dataset)”，好数据 >> 异常数据，如果全部预测成好的，其正确率也不低]
2.对于skewed dataset，采用以下方法均可：
- 真阳性、假阳性、假阴性、真阴性
- Precision/Recall
- F1 score

步骤4: 阈值 $\epsilon$ 的选择（包括特征的选择）
[多试几个 $\epsilon$ ，然后评估模型，选择F1 score值较高的]
步骤5: 最后，在测试集上运用上述评估方式，得出模型最终的performance

总结一下，训练集学习模型，验证集选择参数 $\epsilon$ 和特征，测试集评估模型。

1.4 特征选择

首先需要保证选择的数据是满足高斯分布的。判断的依旧就是将这个特征进行可视化，如果这个特征不是高斯分布，那么就需要通过各种变换将其转换成高斯分布。

比如说，下面这个特征的分布是一个“长尾分布”，则可以通过“取对数 $\log{x}$ ”、“开平方 $\sqrt{x}$ ”等方式将其转变成一个“高斯分布”。

其次，通过一个“误差分析”来选择特征。

先用算法跑出一个模型来，然后预测错误的数据 – 应为异常被判断成了正常所对应的特征。该数据所对应的特征的概率是否符合一般情况，如果 $p(x^\left(i\right)_j)$ 在异常时应该很高，而这里却很低，那么考虑这个特征的正确性，有可能需要更换特征，或者生成一个新的特征。

在异常检测中，一般选择那些在异常和正常数据间变化特别大的特征。

1.5 异常检测 Vs 监督学习

可以看到异常检测其实也是将数据集分成两类数据 – 正常数据和异常数据，那么为什么不采用监督学习呢？

第一种情况：当数据集中两类数据分布极其不均匀时，如异常数据只有“几十个”而正常数据远远多于异常数据时，应当采用“异常检测”。
[因为从这么少的异常数据中，是无法学习到符合异常数据的特征的，所以应该用异常检测去学习正常数据的特征（即所服从的高斯分布）]

第二种情况：当异常数据的种类太多，而给出的数据集中没有完全包括时，应采用“异常检测”。
[因为监督学习只能学习到现有种类的特征，无法对未知种类进行学习。所以应使用异常检测算法学习现有正常数据的特征，然后才能对异常数据进行区分。或者说无监督学习可以学到数据本身所具有的特性，而监督学习学到的只是数据对于当前任务的特性。]

监督学习的一个重要前提是各类数据的量要均匀。

1.6 多元高斯分布

之前的单元高斯分布中，要求各特征之间没有关联，独立同分布，也就是说，单元高斯分布只能学习各特征的分布，没法学习到特征之间的关联性。如果想要引入特征之间的关联性，需要自己手动构造新的特征来表示其他特征之间的关联。

而多元高斯分布可以直接通过一个“协方差矩阵”来检测到各特征之间的关联性。

多元高斯分布的计算公式如下：

P (x (i)) = 1 2 π | Σ | ‾ ‾ ‾ ‾ ‾ ‾ \sqrt e x p [- 1 2 (x (i) - μ) T Σ - 1 (x (i) - μ)]

$P(x^\left(i\right))=\frac{1}{\sqrt{2\pi\left | \Sigma \right |}}exp[-\frac{1}{2}(x^\left(i\right)-\mu)^T\Sigma^{-1}(x^\left(i\right)-\mu)]$

μ = 1 m \sum i = 1 m x (i)

$\mu=\frac{1}{m}\sum^{m}_{i=1}x^\left(i\right)$

Σ = 1 m \sum i = 1 m (x (i) - μ) (x (i) - μ) T

$\Sigma=\frac{1}{m}\sum^{m}_{i=1}(x^\left(i\right)-\mu)(x^\left(i\right)-\mu)^T$

与“单元高斯分布”相比：

“多元高斯分布”能够学习到特征之间的关联性
但是当特征数量特别大的时候，“单元高斯分布”的计算速度要比“多元高斯分布”快。因为 $\Sigma^{-1}$ 的计算量很大。
另外，“多元高斯分布”需要保证 $\Sigma$ 可逆，否则无法计算。保证可逆的一个条件就是 $m>n$ ，最好保证 $m \geqslant 10n$ 。这里的 $n$ 是指互相之间非线性相关的特征的数量。
综合来说，还是“单元高斯分布”的使用更佳普遍。

在一种情况下，“多元高斯分布”和“单元高斯分布”可以等同，即当各特征之间没有相关性，数学表现就是：

Σ = [\begin{matrix} σ_{1}^{2} & 0 & 0 & . . . & 0 & 0 \\ 0 & σ_{2}^{2} & 0 & . . . & 0 & 0 \\ . . . \\ 0 & 0 & 0 & . . . & σ_{n - 1}^{2} & 0 \\ 0 & 0 & 0 & . . . & 0 & σ_{n}^{2} \end{matrix}]

$\Sigma=\begin{bmatrix} \sigma^2_1 & 0 & 0 & ... & 0 & 0\\ 0& \sigma^2_2 & 0 & ... & 0 & 0\\ ...\\ 0& 0 & 0 & ... & \sigma^2_{n-1}& 0\\ 0& 0 & 0 & ... & 0 & \sigma^2_{n}\\ \end{bmatrix}$

2. Recommender System (推荐系统)

2.1 预测用户的评分

数据：

-	user1	user2	user3	user4
movie1	5	5	0	0
movie2	?	4	0	?
movie3	5	?	?	0
movie4	0	0	5	4
movie5	0	0	5	?

令电影数据表示为为 $x^\left(1\right),x^\left(2\right),...,x^\left(5\right)$ ，假设特征为“是否为爱情片”和“是否为动作片”，另外一维是偏置bias，即维度为 $(3,1)$ ；

令用户的偏好数据表示为 $\theta^\left(1\right),\theta^\left(2\right),...,\theta^\left(4\right)$ ，维度同上；

假设用户j给电影i的评分为： $\hat{y^{(i,j)}}=(\theta^\left(j\right))^Tx^\left(i\right)$

所以模型中的参数为 $x^\left(1\right),x^\left(2\right),...,x^\left(5\right)$ 和 $\theta^\left(1\right),\theta^\left(2\right),...,\theta^\left(4\right)$ 。

算法过程如下：

步骤一：随机初始化 $x^\left(1\right),x^\left(2\right),...,x^\left(5\right)$ 和 $\theta^\left(1\right),\theta^\left(2\right),...,\theta^\left(4\right)$ 为small values

步骤二：根据cost function，使用梯度下降不断迭代调整参数：

J (x (1), x (2), . . ., x (5); θ (1), θ (2), . . ., θ (4)) = 1 2 \sum r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) 2 + λ 2 \sum i = 1 5 (x (i)) 2 + λ 2 \sum j = 1 4 (θ (j)) 2

$J(x^\left(1\right),x^\left(2\right),...,x^\left(5\right);\theta^\left(1\right),\theta^\left(2\right),...,\theta^\left(4\right))=\frac{1}{2}\sum_{r(i,j)=1}((\theta^\left(j\right))^Tx^\left(i\right)-y^{(i,j)})^2+\frac{\lambda}{2}\sum^{5}_{i=1}(x^{(i)})^2+\frac{\lambda}{2}\sum^{4}_{j=1}(\theta^{(j)})^2$

min x (1), x (2), . . ., x (5); θ (1), θ (2), . . ., θ (4) J (x (1), x (2), . . ., x (5); θ (1), θ (2), . . ., θ (4))

$\min_{x^\left(1\right),x^\left(2\right),...,x^\left(5\right);\theta^\left(1\right),\theta^\left(2\right),...,\theta^\left(4\right)}J(x^\left(1\right),x^\left(2\right),...,x^\left(5\right);\theta^\left(1\right),\theta^\left(2\right),...,\theta^\left(4\right))$

最后就学习到了所有的 $x^\left(1\right),x^\left(2\right),...,x^\left(5\right)$ 和 $\theta^\left(1\right),\theta^\left(2\right),...,\theta^\left(4\right)$

想知道未知的用户j给电影i的评分直接计算 $(\theta^\left(j\right))^Tx^\left(i\right)$ 即可。

在实际操作中，会把这个过程向量化，令：

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ - - (x (1)) T - - - - (x (2)) T - - . . . - - (x (5)) T - - ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$X=\begin{bmatrix} -- (x{(1)})T --\\ -- (x{(2)})T --\\ ...\\ -- (x{(5)})T --\\ \end{bmatrix}$

Θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ - - (θ (1)) T - - - - (θ (2)) T - - . . . - - (θ (4)) T - - ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\Theta=\begin{bmatrix} -- (\theta{(1)})T --\\ -- (\theta{(2)})T --\\ ...\\ -- (\theta{(4)})T -- \end{bmatrix}$

因为

Y ̂ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ (θ (1)) T x (1) (θ (1)) T x (2) . . . (θ (1)) T x (5) (θ (2)) T x (1) (θ (2)) T x (2) (θ (2)) T x (5) . . . . . . . . . (θ (4)) T x (1) (θ (4)) T x (2) (θ (4)) T x (5) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\hat{Y}=\begin{bmatrix} (\theta{(1)})Tx^{(1)} & (\theta{(2)})Tx{(1)}&...&(\theta{(4)})Tx{(1)}\\ (\theta{(1)})Tx^{(2)} & (\theta{(2)})Tx{(2)}&...&(\theta{(4)})Tx{(2)}\\ ...\\ (\theta{(1)})Tx^{(5)} & (\theta{(2)})Tx{(5)}&...&(\theta{(4)})Tx{(5)}\\ \end{bmatrix}$

所以

Y ̂ = X \cdot Θ T

$\hat{Y}=X \cdot \Theta^T$

$\hat{Y}=X \cdot \Theta^T$ 的过程又被称为“低秩矩阵分解”过程。

2.2 寻找相关电影

经过上面的任务，已经得到了 $x^\left(1\right),x^\left(2\right),...,x^\left(5\right)$ ；

判断电影i和电影j是否类似，只要计算一下它们的向量之间的距离就行了。

找到最相关电影的数学表达如下：

min I, j ‖ ‖ x (i) - x (j) ‖ ‖ 2

$\min_{I,j}\left \| x^{(i)}-x^{(j)} \right \| ^ 2$

2.3 给新用户推荐电影

数据：

-	user1	user2	user3	user4	user5
movie1	5	5	0	0	?
movie2	?	4	0	?	?
movie3	5	?	?	0	?
movie4	0	0	5	4	?
movie5	0	0	5	?	?

可见新用户对于所有电影的评分都是未知的，所以无法根据评分高低来推荐电影给他。一个最简单的处理方式就是把，该电影下其他用户评分的平均值赋给新用户，然后再通过 $\min J(\theta;x)$ ，求出 $\theta^{(5)}$ ，最后新用户对电影的评分就是 $(\theta^{(5)})^Tx^{(i)}$ 。

赋值之后的数据：

-	user1	user2	user3	user4	user5
movie1	5	5	0	0	$\frac{10}{4}=2.5$
movie2	?	4	0	?	$\frac{5}{2}=2.5$
movie3	5	?	?	0	$\frac{4}{2}=2$
movie4	0	0	5	4	$\frac{9}{4}=2.25$
movie5	0	0	5	?	$\frac{5}{4}=1.25$

来看一下，如果不给赋平均值，直接计算的话会有什么情况发生。因为：

J (x (1), x (2), . . ., x (5); θ (1), θ (2), . . ., θ (4)) = 1 2 \sum r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) 2 + λ 2 \sum i = 1 5 (x (i)) 2 + λ 2 \sum j = 1 5 (θ (j)) 2

所以当 $(\theta^{(5)})^Tx^{(i)}=?$ 的时候，影响最终\theta^{(5)}取值的只有 $\frac{\lambda}{2}\sum^{5}_{j=1}(\theta^{(j)})^2$ 这一项，为了整体最小，所以在迭代过程中， $\theta^{(5)}$ 的取值会趋向于0，这样一来，啥电影都没法推荐了，不够友好。

2.4 推荐算法类型

主要分成：

“product-based” ：知道产品的特征向量，通过学习用户的偏好向量来求未知评分；
“user-based”：知道用户的偏好向量，通过学习产品的特征向量来求未知评分；
协同过滤算法：以上两个向量都不知道的时候，先随机初始化两个向量，然后先固定 $\theta^\left(1\right),\theta^\left(2\right),...,\theta^\left(4\right)$ ，然后最小化 $J(x^\left(1\right),x^\left(2\right),...,x^\left(5\right))=\frac{1}{2}\sum^{5}_{i=1}\sum_{r(i,j)=1}((\theta^\left(j\right))^Tx^\left(i\right)-y^{(i,j)})^2+\frac{\lambda}{2}\sum^{5}_{i=1}(x^{(i)})^2$ ；再固定 $x^\left(1\right),x^\left(2\right),...,x^\left(5\right)$ ，最小化 $J(\theta^\left(1\right),\theta^\left(2\right),...,\theta^\left(4\right))=\frac{1}{2}\sum^{4}_{j=1}\sum_{r(i,j)=1}((\theta^\left(j\right))^Tx^\left(i\right)-y^{(i,j)})^2+\frac{\lambda}{2}\sum^{5}_{j=1}(\theta^{(j)})^2$ ；就这样循环交替着更新，直至收敛。
上面介绍的，相当于“同步”协同过滤算法。