14、机器学习中的数据处理与模型训练全解析

机器学习中的数据处理与模型训练全解析

在机器学习领域,数据处理和模型训练是至关重要的环节。即使没有机器学习工作经验,也可以通过一些方法来近似有相关工作经验的人的回答。

模拟工作经验

如果你没有机器学习工作经验,可以通过以下方式近似有相关工作经验的人的回答:
- 尝试一些简单的非机器学习基线规则和启发式方法,并记录它们的性能。
- 思考机器学习方法相对于启发式方法可能的工作方式。在现实世界中,常见的原因包括节省人工工作,或者使工作更具通用性,因为机器学习在模型重新训练后可以考虑更多特征。

数据预处理和特征工程

数据预处理和特征工程是机器学习生命周期中的关键步骤,所有数据和机器学习相关的角色都会用到数据预处理和探索性数据分析(EDA)。

数据获取

数据获取有多种途径:
- 工作访问:通常是专有数据。
- 公共数据集:如来自Kaggle、统计局等。
- 网络抓取:要注意某些网站的条款和条件。
- 学术访问:例如成为大学研究实验室的一员。
- 从供应商购买数据:一些供应商还会帮助注释和标记数据,如Figure Eight和Scale AI。工作场所或学术机构通常会帮助承担费用,因为价格通常太高,个人副业项目不值得。
- 通过模拟创建合成数据。
- 创建自己的原始数据:如自己拍照、众包数据或使用自己创作的艺术/设计作品。

了解数据获取知识对面试回答非常有帮助,公司更倾向于那些能更快上手的候选人。

探索性数据分析(EDA)

获取数据后,就需要进行分析。EDA的主要目的是查看

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值