机器学习中的分类任务与性能评估
一、机器学习项目基础要点
在机器学习项目中,有几个关键的基础要点需要注意:
1. 模型与数据集备份
- 要能够轻松比较新模型与之前的模型,同时,对数据集的每个版本都进行备份。这样,当新数据集损坏(例如,新添加的数据包含大量异常值)时,可以回滚到之前的数据集。而且,有了数据集备份,还能针对任何之前的数据集评估模型。
2. 测试集子集创建
- 可以创建测试集的多个子集,以评估模型在数据特定部分的性能。例如,创建一个仅包含最新数据的子集,或者为特定类型的输入(如内陆地区与沿海地区)创建测试集,这有助于更深入地了解模型的优缺点。
3. 项目建设与部署
- 机器学习涉及大量的基础设施建设,所以第一个机器学习项目可能需要花费大量的精力和时间来构建并部署到生产环境。不过,一旦基础设施就位,从想法到生产的过程会快很多。
实践建议
建议选择一个感兴趣的数据集,尝试从头到尾完成整个机器学习过程。可以从竞赛网站(如 http://kaggle.com/ )开始,这里有可供使用的数据集、明确的目标,还能与他人分享经验。
相关练习
以下是基于住房数据集的一些练习:
1. 尝试使用支持向量机回归器( sklearn.svm.SVR ),使用不同的超参数,如 kernel="linear" (使用不同的 C 超参数值)或 kernel="rbf"
分类任务与性能评估详解
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



