目录
(一) 回归
1.1 设置问题
1.2 定义模型
1.3 最小二乘法
假设有
n
个训练数据,那么它们的误差之和可以用这样的表达式表示。这个表达式称为目标函数,E
(
θ
)
的
E
是误差的英语单词 Error 的首字母。
我们自己定义一个预测函数:


1.3.1 最速下降法
微分是计算
变化的快慢程度
时使用的方法
只要向与导数的符号相反的方向移动
x
,
g
(
x
)
就会自然而然地沿着最小值的方向前进了

1.4 多项式回归

相比于直线,曲线拟合的更好


像这样增加函数中多项式的次数,然后再使用函数的分析方法被称为多项式回归。
1.5 多重回归
之前只是根据广告费来预测点击量,现在呢,决定点击量的除了广告费之外,还有广告的
展示位置和广告版面的大小等多个要素。

多个变量表达式:

可以用向量来表示:

最速下降法的参数更新表达式:

所谓的最速下降法就是对所有的训练数据都重复进行计算,so计算量大、计算时间长是最速下降法的一个缺点,还有容易陷入局部最优解
1.6 随机梯度下降法

(二)分类
学习分类:基于图像大小进行分类
花了一点儿钱打广告之后,我的
Web
网站的访问数就增加了。现在网站上积累了许多时装照片,所以我们就从时装照片的分类
我们不去考虑图像本身的内容,只根据尺寸把它分类为纵向图像和横向图像,你看怎么样?把图像分成两种类别……这就是二分类
问题。
2.1 设置问题
2.2 内积
目的是找出
向量
w 权重
权重向量就是我们想要知道的未知参数,
w
是权重一词的英文——weight
的首字母。上次学习回归时,我们为了求未知参数
θ
做了很多事情,而
w
和
θ
是一样的。

设 w = (1,1)
得出 X2 = -X1
图像为

权重向量
w
和这条直线是垂直的!
这就是“使权重向量成为法线向量的直线”在图形上的解释。
最终找到与我画的直线成直角的权重向量就行了吗(图
3-8
)

是的。当然,一开始并不存在你画的那种直线,而是要通过训练找到权重向量,然后才能得到与这个向量垂直的直线,最后根据这条直线就可以对数据进行分类了。
2.3 感知机
如何求出权重向量?
和回归差不多,将权重向量用作参数,创建更新表达式来更新参数。
要用到感知机模型!
感知机是接受多个输入后将每个值与各自的权重相乘,最后输出总和的模型。

2.3.1 训练数据的准备
设表示宽的轴为 x1、表示高的轴为 x2,用 y 来表示图像是横向还是纵向的,横向的值为 1、纵向的值为 −1。
判别函数:


在
90
◦
<θ<
270
◦
的时候
cos
θ
为负

内积是衡量向量之间相似程度的指标。结果为正,说明二者相似;为 0
则二者垂直;为负则说明二者不相似。
2.3.2 权重向量的更新表达式

i
在介绍回归的时候也出现过,它指的是训练数据的索引,而不是
i
次方的意思,这一点一定要注意。用这个表达式重复处理所有训练数据,更新权重向量。
f
w
(
x
(
i
)
) /=
y
(
i
)
通过判别函数对宽和高的向量
x
进行分类的结果与实际的标签
y 不同?也就是说,判别函数的分类结果不正确。
这也就是说,刚才的更新表达式只有在判别函数分类失败的时候才会更新参数值。分类成功的时候是直接代入 w
的,所以什么都没有变。
向量的加法:

2.4 线性可分
感知机的缺点是什么?
最大的缺点就是
它只能解决线性可分的问题
。
线性可分指的就是能够使用直线分类的情况,像下图这样不能用直线分类的就不是线性可分。

实际上多层感知机就是神经网络了。
2.5 逻辑回归
算法与感知机的不同之处在于,它是把分类作为概率来考虑的。
2.5.1 sigmoid 函数
因为 sigmoid 函数的取值范围是 0
< f
θ
(
x
)
<
1
,所以它可以作为概率来使用。
2.5.2 决策边界

你应该是以
0.5
为阈值,然后把
f
θ
(
x
)
的结果与它相比较,从而分类横向或纵向

从图中可以看出在
f
θ
(
x
)
⩾
0
.
5
时,
θ
T
x
⩾
0



我们将
θ
T
x
= 0
这条直线作为边界线,就可以把这条线两侧的数据分类为横向和纵向了。 这样用于数据分类的直线称为决策边界。
和回归的时候一样,是因为我们随意决定了参数。为了求得正确的参数 θ
而定义
目标函数
,进行微分,然后求参数的更新表达式。这种算法就称为逻辑回归
。
2.6 似然函数
现在,我们就一起来求参数的更新表达式吧。这里的目标函数 L(θ) 也被称为似然,

是呀。接下来考虑一下使这个目标函数最大化的参数
θ 吧。我们可以认为似然函数 L(θ) 中,使其值最大的参数 θ 能够最近似地说明训练数据。
2.7 对数似然函数


我们就对似然函数进行微分,求出参数
θ
就行了




我们已经知道sigmoid函数的微分式

则





接下来要做的就是从这个表达式导出参数更新表达式。不过现在是以最大化为目标,所以必须按照与最小化时相反的方向移动参数哦。就是说,最小化时要按照与微分结果的符号相反的方向移动,而最大化时要与微分结果的符号同向移动。


2.8 线性不可分
用直线不能分类的问题
我们要像学习多项式回归时那样,去增加次数,我们就向训练数据中加入
x
21,考虑这样的数据。


