头歌·机器学习第2关线性支持向量机_本关任务:使用sklearn实现线性支持向量机,并通过癌细胞数据中训练集对模型进行训-优快云博客

本文链接：https://blog.youkuaiyun.com/xiaolixiangmaifa/article/details/142651261

任务描述
本关任务：使用sklearn实现线性支持向量机，并通过癌细胞数据中训练集对模型进行训练，再对测试集癌细胞数据进行识别。

相关知识
为了完成本关任务，你需要掌握：1.软间隔，2.LinearSVC。

数据集介绍
乳腺癌数据集，其实例数量是569，实例中包括诊断类和属性，帮助预测的属性一共30个，各属性包括为radius 半径（从中心到边缘上点的距离的平均值），texture 纹理（灰度值的标准偏差）等等，类包括：WDBC-Malignant 恶性和 WDBC-Benign 良性。用数据集的80%作为训练集，数据集的20%作为测试集，训练集和测试集中都包括特征和诊断类。

想要使用该数据集可以使用如下代码：

import pandas as pd
#获取训练数据
train_data = pd.read_csv('./step1/train_data.csv')
#获取训练标签
train_label = pd.read_csv('./step1/train_label.csv')
train_label = train_label['target']
#获取测试数据
test_data = pd.read_csv('./step1/test_data.csv')

#encoding=utf8
from sklearn.svm import LinearSVC

def linearsvc_predict(train_data,train_label,test_data):
    '''
    input:train_data(ndarray):训练数据
          train_label(ndarray):训练标签
    output:predict(ndarray):测试集预测标签
    '''
    #********* Begin *********# 
    clf = LinearSVC(dual=False)
    clf.fit(train_data,train_label)
    predict = clf.predict(test_data)

    #********* End *********# 
    return predict