支持向量机(SVM)深入解析
1. 相似特征与高斯径向基函数(RBF)核
在处理数据时,我们可能会思考如何选择地标。一种简单的方法是在数据集中每个实例的位置创建一个地标。这样做会增加维度,提高转换后的训练集线性可分的可能性。但缺点是,一个包含 m 个实例和 n 个特征的训练集,会被转换为包含 m 个实例和 m 个特征的训练集(假设去掉原始特征)。如果训练集非常大,最终会得到同样多的特征。
高斯 RBF 核与多项式特征方法类似,相似特征方法对任何机器学习算法都可能有用,但计算所有额外特征可能会很耗费计算资源,尤其是在大型训练集上。不过,核技巧再次发挥了 SVM 的魔力:它可以在不实际添加许多相似特征的情况下,获得与添加这些特征相似的结果。以下是使用 SVC 类尝试高斯 RBF 核的代码:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
rbf_kernel_svm_clf = Pipeline([
("scaler", StandardScaler()),
("svm_clf", SVC(kernel="rbf", gamma=5, C=0.001))
])
rbf_kernel_svm_clf.fit(X, y)
超参数 gamma (γ)和 C 的不同值会训练出不同的模型
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



