4、高性能机器学习与数据预处理实战

高性能机器学习与数据预处理实战

1. 机器学习算法的选择与可解释性

在机器学习中,不同的算法有着不同的特点和适用场景。例如,3 次多项式核在二维空间中类似三次曲线,能带来稍好的拟合效果,但相较于在整个欧几里得空间表现一致的线性核,它更难向他人解释。通过交叉验证可以评估算法的性能,如以下代码计算了多项式核 SVC 分类器的平均得分:

svc_poly_scores = cross_val_score(svc_clf, X_train, y_train, cv=4)
svc_poly_scores.mean()

结果为 0.95906432748538006 。

在算法选择方面,为了提高效率,我们可能不会深入研究使用的分类算法。比如在比较 SVC 和逻辑回归时,由于 SVM 表现更优,我们选择了 SVM 。开始时,这两种算法对我们来说都是黑盒,不了解其内部细节。但选定 SVM 后,我们可以计算其分离超平面的系数、优化超参数、将其应用于大数据等。

不同算法的可解释性也有所不同。像线性回归就广为人知,容易理解和向潜在投资者解释;而 SVM 则较难完全理解。如果 SVM 在特定数据集上效果很好,建议在具体问题背景下提高对 SVM 的理解,也可以考虑将不同算法融合,如将线性回归作为 SVM 的输入,但这要根据具体情况而定,因为线性 SVM 相对容易可视化和理解,融合可能会使问题复杂化,可先进行对比。同时,机器学习更注重预测性能,不必苛求完全理解 SVM 的数学和实践细节。

2. 编程中的管道概念

在编程里,管道是一系列按顺序连接的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值