《机器学习实战》-完整版的SMO算法

最新推荐文章于 2021-12-04 22:52:18 发布

漂洋过海95

最新推荐文章于 2021-12-04 22:52:18 发布

阅读量1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：《机器学习实战》学习

本文链接：https://blog.youkuaiyun.com/qq_27512741/article/details/88563266

#!/usr/bin/env python
# encoding: utf-8

import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import random
import time

"""
类说明：维护所有需要操作的值
Parameters:
    dataMatIn - 数据矩阵
    classLabels - 数据标签
    C - 松弛变量
    toler - 容错率

Returns:
    None
"""
class optStruct:
    def __init__(self, dataMatIn, classLabels, C, toler):
        # 数据矩阵
        self.X = dataMatIn
        # 数据标签
        self.labelMat = classLabels
        # 松弛变量
        self.C = C
        # 容错率
        self.tol = toler
        # 矩阵的行数
        self.m = np.shape(dataMatIn)[0]
        # 根据矩阵行数初始化alphas矩阵，一个m行1列的全零列向量
        self.alphas = np.mat(np.zeros((self.m, 1)))
        # 初始化b参数为0
        self.b = 0
        # 根据矩阵行数初始化误差缓存矩阵，第一列为是否有效标志位，第二列为实际的误差E的值
        self.eCache = np.mat(np.zeros((self.m, 2)))
"""
函数说明：读取数据
Parameters:
    fileName - 文件名

Returns:
    dataMat - 数据矩阵
    labelMat - 数据标签
"""
def loadDataSet(fileName):
    # 数据矩阵
    dataMat = []
    # 标签向量
    labelMat = []
    # 打开文件
    fr = open(fileName)
    # 逐行读取
    for line in fr.readlines():
        # 去掉每一行首尾的空白符，例如'\n','\r','\t',' '
        # 将每一行内容根据'\t'符进行切片
        lineArr = line.strip().split('\t')
        # 添加数据(100个元素排成一行)
        dataMat.append([float(lineArr[0]), float(lineArr[1])])
        # 添加标签(100个元素排成一行)
        labelMat.append(float(lineArr[2]))
    return dataMat, labelMat

"""
函数说明：计算误差
Parameters:
    oS - 数据结构
    k - 标号为k的数据

Returns:
    Ek - 标号为k的数据误差
"""
def calcEk(oS, k):
    # multiply(a,b)就是个乘法，如果a,b是两个数组，那么对应元素相乘    .T为转置
    fXk = float(np.multiply(oS.alphas, oS.labelMat).T * (oS.X * oS.X[k, :].T) + oS.b)
    # 计算误差项
    Ek = fXk - float(oS.labelMat[k])
    # 返回误差项
    return Ek

"""
函数说明：随机选择alpha_j
Parameters:
    i - alpha_i的索引值
    m - alpha参数个数

Returns:
    j - alpha_j的索引值
"""

def selectJrand(i, m):
    j = i
    while (j ==