高性能机器学习与数据预处理实战
1. 机器学习算法的选择与可解释性
在机器学习中,不同的算法有着不同的特点和适用场景。例如,3 次多项式核在二维空间中类似三次曲线,能带来稍好的拟合效果,但相较于在整个欧几里得空间表现一致的线性核,它更难向他人解释。通过交叉验证可以评估算法的性能,如以下代码计算了多项式核 SVC 分类器的平均得分:
svc_poly_scores = cross_val_score(svc_clf, X_train, y_train, cv=4)
svc_poly_scores.mean()
结果为 0.95906432748538006 。
在算法选择方面,为了提高效率,我们可能不会深入研究使用的分类算法。比如在比较 SVC 和逻辑回归时,由于 SVM 表现更优,我们选择了 SVM 。开始时,这两种算法对我们来说都是黑盒,不了解其内部细节。但选定 SVM 后,我们可以计算其分离超平面的系数、优化超参数、将其应用于大数据等。
不同算法的可解释性也有所不同。像线性回归就广为人知,容易理解和向潜在投资者解释;而 SVM 则较难完全理解。如果 SVM 在特定数据集上效果很好,建议在具体问题背景下提高对 SVM 的理解,也可以考虑将不同算法融合,如将线性回归作为 SVM 的输入,但这要根据具体情况而定,因为线性 SVM 相对容易可视化和理解,融合可能会使问题复杂化,可先进行对比。同时,机器学习更注重预测性能,不必苛求完全理解 SVM 的数学和实践细节。
2. 编程中的管道概念
在编程里,管道是一系列按顺序连接的
超级会员免费看
订阅专栏 解锁全文
2377

被折叠的 条评论
为什么被折叠?



