统计学习方法--笔记2

原创于 2018-04-09 21:28:29 发布 · 275 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

数据挖掘专栏收录该内容

7 篇文章

订阅专栏

第二章感知机

2.1感知机

感知机：二类线性分类模型，旨在求出将训练数据进行线性划分的分离超平面S

感知机属于判别模型：即直接求出条件概率

方法：导入基于误分类的损失函数，利用梯度下降法对损失模型进行最小化，求出模型
分类：原始模型和对偶模型

神经网络与支持向量机的基础

f(x)=sign(w*x+b)：感知机
w为权值向量，b为偏置(bias) sign()为符号函数，即x大于等于0,sign(x)=1，反之=-1

解释1：
w*x+b=0是超平面S，其中w是S的法向量，b是S的截距，S被称为分离超平面，位于两部分的点分别被分为正、负两类。

2.2 学习策略
线性可分：存在某个S：w*x+b=0能偶将数据集完全正确划分，则称该数据集为线性可分数据集

为了确定w和b,需要确定一个学习策略，即定义经验损失函数并将损失函数极小化

损失函数选择：
    1. 误分类点个数：不是连续可导函数，拒绝
    2. 误分类点到超平面距离：接受
        |w*x0+b|/|w|   其中|w|是 w的范数

    即：L(w,b)=-求和(y(w*x+b))   y是类的实际标签

2.3 学习算法

M为误分类点的集合

感知机学习算法是误分类驱动，具体采用随机梯度下降法
先任意的选取超平面w0,b0，然后使用梯度下降法不断极小化目标函数 L(w,b)=-求和(y(w*x+b))

损失函数L(w,b)的梯度由

图1
给出，随机选取一个误分类点，对w,b进行更新：
w <- w+uyx
b <- b+uyx //u是步长，又可以叫学习率

原始形式：
感知机的原始学习算法如图所示：

图2
理解：当一个实例点被误分类，即位于错误的一侧，则调整w,b的值，使超平面向该误分类点的一侧移动

感知机学习算法由于采用不同的初值或选取不同的误分类点，解可以不同

2.4 算法的收敛性：
将偏置b加入权重向量w中 w'=(w,b) ，同时，输入向量加以扩充补个1 x'=(x,1)
w'*x'=w*x+b

定理1：Novikoff
存在满足|w'|=1的超平面w'*x'=0将训练集完全正确分开，且存在s>0,使得y(w'*x')>=s
令R=max|x'| ，则误分类次数k<=(R/s)^2

说明误分类次数是有上界的，经过有限次搜索可以找到将训练数据完全正确分开的分离超平面S

只要线性可分，感知机学习算法原始形式的迭代就是收敛的

当训练数据集线性不可分的时候，感知机算法不收敛，迭代结果会震荡

对偶形式：
算法如图所示：

图3
对偶形式中训练实例仅以内积的形式出现，用矩阵的形式存储，即Gram矩阵

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。