机器学习理论与实践:SVM和决策树算法详解
1. 线性支持向量机(Linear SVM)
线性支持向量机问题可被表述为一个二次优化问题,可通过多种已知技术求解。以下是硬间隔和软间隔的相关内容:
1.1 硬间隔(Hard Margins)
目标是最小化 $\rho w$,约束条件为 $y_i(w^T x_i + b) \geq 1$,其中 $i = 1, \cdots, n$。
1.2 软间隔(Soft Margins)
目标是最小化 $\frac{1}{2} |w|^2 + \lambda \sum_{i=1}^{n} \max(0, 1 - y_i(w^T x_i + b))$,其中参数 $\lambda$ 决定了增加间隔和确保 $x_i$ 位于间隔正确一侧之间的权衡。
2. 二元支持向量机分类器(Binary SVM Classifier)
以乳腺癌数据集为例,对良性和恶性细胞进行分类。
2.1 数据总结
library(e1071)
library(rpart)
breast_cancer_data <- read.table("Dataset/breast-cancer-wisconsin.data.txt", sep = ",")
breast_cancer_data$V11 = as.factor(breast_cancer_data$V11)
summary(breast_cancer_data)
以下是部分数据的统计信息:
|