机器学习中的回归模型与应用
1. 支持向量机(SVM)
支持向量机(SVM)和梯度提升机(GBM)代表了统计机器学习的前沿技术。SVM 能对高度非线性的数据集进行建模,这是其他学习算法难以做到的。它通过核技巧这种数学手段,模拟为数据增加维度的效果。原理是在 m 维空间中不可分离的数据,在 n 维空间中可能变得可分离。
例如,在二维数据集中,可能无法用一条直线分离不同类别,但添加第三个维度后,让靠近中心的点具有较高的 z 值,远离中心的点具有较低的 z 值,就可以用一个平面将不同类别的点完全分离。
SVM 主要用于分类,但也可用于回归。Scikit 中提供了相关类,如用于分类问题的 SVC 和用于回归问题的 SVR。
2. 回归模型的准确率衡量
2.1 训练与测试数据
训练模型需要一组数据进行训练,另一组数据进行测试。可以通过将测试数据传递给模型的 score 方法来评估模型的准确率。测试能量化模型预测的准确性,使用与训练数据不同的数据集进行测试非常重要,因为模型可能很好地学习了训练数据,但不一定能很好地泛化,即做出准确的预测。
2.2 数据分割问题
工程师常使用 Scikit 的 train_test_split 函数将数据集分割为训练集和测试集。但对于小数据集,不能完全信任模型 score 方法返回的分数。不同的随机种子值会导致 train_test_split 函数分割出不同的训练集和测试集,从而使 score 方法返回不同的值。
以下是一个简单的实验代码:
fro
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



