机器学习中的分类任务与性能评估
1. 机器学习项目概述
机器学习涉及大量的基础设施搭建,第一个机器学习项目的构建和部署到生产环境可能需要投入大量的精力和时间。不过,一旦基础设施搭建完成,从想法到产品落地的过程将会快很多。
建议大家挑选一个感兴趣的数据集,从头到尾完整地进行一次机器学习项目。像 http://kaggle.com/ 这样的竞赛网站是个不错的起点,在那里可以获取数据集、明确目标,还能和其他人分享经验。
以下是基于某住房数据集的一些练习:
1. 尝试使用不同超参数的支持向量机回归器(sklearn.svm.SVR),例如 kernel="linear" (设置不同的 C 超参数值)或 kernel="rbf" (设置不同的 C 和 gamma 超参数值),观察最佳 SVR 预测器的性能。
2. 尝试用 RandomizedSearchCV 替换 GridSearchCV。
3. 尝试在数据准备管道中添加一个转换器,以选择最重要的属性。
4. 尝试创建一个能完成完整数据准备和最终预测的单一管道。
5. 使用 GridSearchCV 自动探索一些数据准备选项。
2. 分类任务介绍
常见的监督学习任务主要有回归(预测值)和分类(预测类别)。接下来将重点关注分类系统。
3. MNIST 数据集
MNIST 数据集包含 70,000 张由美国高中生和人口普查局员工手写的数字小图像,每张图像都标有其所代表的数字。该数据集被广泛研究,常被称为机器学习的“Hello World”。
可
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



