SVM支持向量机习题解答

最新推荐文章于 2025-06-20 18:28:04 发布

原创

最新推荐文章于 2025-06-20 18:28:04 发布 · 4.8k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

以下习题，来自机器学习实战：基于Scikit-Learn和Tensorflow一书。

支持向量机的基本思想是什么？
答：基本思想是拟合类别之间可能的、最宽的“街道”。它的目的是使决策边界之间最大间隔化，从而分隔出两个类别的训练实例。SVM在执行软间隔分类时，实际上是在完美分类和拟合最宽街道之间进行妥协（允许少量的实例最终落在街道上）。在训练非线性数据集时，记得使用核函数。
什么是支持向量？
答： SVM训练完成后，位于街道上的实例被称为支持向量，也包括位于边界上的实例。决策边界完全由支持向量决定。非支持向量地实例则对决策边界没有任何影响。计算预测结果只涉及支持向量，而不涉及整个训练集。
使用SVM时，对输入值进行缩放为什么重要？
答：SVM拟合类别之间可能的、最宽的“街道”，所以如果训练集不经缩放，SVM将趋于忽略值较小的特征。
SVM分类器在对实例进行分类时，会输出信心分数么？概率呢？
答： SVM分类时输出的是测试实例与决策边界的距离，也可以将其用作信心分数。但这个分数不能直接转换为类别概率的估算。如果创建SVM时，在Scikit-Learn中设置probability=True，那么
训练完成后，算法将使用逻辑回归对SVM分数进行校准（对训练数据额外进行5-折交叉验证的训练），从而得到概率值。这会给SVM添加predict_proba（）和predict_log_proba（）两种方法
如果训练集有上千万个实例和几百个特征，你应该使用SVM原始问题还是对偶问题来训练模型？
答：因为核SVM只能使用对偶问题，所以此问题只适用于线性支持向量机。原始问题的计算复杂度与训练实例的数量成正比，而其对偶形式的计算复杂度与某个介于m²和m³的数量成正比。所以，应使用原始问题。
假设你用RBF核训练了一个SVM分类器，看起来似乎对训练集拟合