机器学习算法及代码实现–支持向量机
1、支持向量机
SVM希望通过N-1维的分隔超平面线性分开N维的数据,距离分隔超平面最近的点被叫做支持向量,我们利用SMO(SVM实现方法之一)最大化支持向量到分隔面的距离,这样当新样本点进来时,其被分类正确的概率也就更大。我们计算样本点到分隔超平面的函数间隔,如果函数间隔为正,则分类正确,函数间隔为负,则分类错误,函数间隔的绝对值除以||w||就是几何间隔,几何间隔始终为正,可以理解为样本点到分隔超平面的几何距离。若数据不是线性可分的,那我们引入核函数的概念,从某个特征空间到另一个特征空间的映射是通过核函数来实现的,我们利用核函数将数据从低维空间映射到高维空间,低维空间的非线性问题在高维空间往往会成为线性问题,再利用N-1维分割超平面对数据分类。
2、分类
线性可分、线性不可分
3、超平面公式(先考虑线性可分)
W*X+b=0
其中W={w1,w2,,,w3},为权重向量
下面用简单的二维向量讲解(思维导图)
4、寻找超平面
5、例子
6、线性不可分
映射到高维
算法思路(思维导图)
核函数举例
代码
# -*- coding: utf-8 -*-
from sklearn import svm
# 数据
x = [[2, 0], [1, 1], [2, 3]]
# 标签
y = [0, 0, 1]
# 线性可分的svm分类器,用线性的核函数
clf = svm.SVC(kernel='linear')
# 训练
clf.fit(x, y)
print clf
# 获得支持向量
print clf.support_vectors_
# 获得支持向量点在原数据中的下标
print clf.support_
# 获得每个类支持向量的个数
print clf.n_support_
# 预测
print clf.predict([2, 0])
# -*- coding: utf-8 -*-
import numpy as np
import pylab as pl
from sklearn import svm
np.random.seed(0) # 值固定,每次随机结果不变
# 2组20个二维的随机数,20个0,20个1的y (20,