深度学习算法效果提升-数据

本文强调了在机器学习项目中数据准备的重要性,指出其占用了大部分的工作时间。详细介绍了训练数据的三种来源,以及如何确保训练集与测试集的图片分布相似,以提升模型效果。此外,还探讨了数据增强的方法,如随机翻转、旋转和裁剪,以增加数据多样性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

       在初学机器学习的时候,常常看到一些博友提到,做机器学习80%以上的时间都用在了处理数据上,当初不以为然。现在工作也一年多了,在实际的项目中深深地体会到了这种说法的合理性。对于深度学习算法而言,提升效果最明显的方法就是数据了,改网络、损失函数、调参这些通常只能提升1~2个点,所以只适用于刷榜和最终的优化。在实际的项目过程中,前期都是通过做数据来显著提升模型效果的。
       在做项目中,测试模型效果用的数据通常都是业务上的真实数据,而训练数据有三种来源:(1) 无可用的训练集,需要人力进行数据的采集和标定,这里最关键的就是制定标定说明书了;(2) 有可用训练集,但是其中存在噪声,需要清洗后才能使用;(3) 有可用的公开数据集,可以直接拿来训练模型。下面解释跟数据相关的两个方向。

1. 数据准备

       为了使模型在业务测试集上有比较好的表现,一定要保证自己的训练集和测试集图片分布相似,最简单的方法就是,在桌面并排展示训练集和测试集两个文件夹中的图片,对比观察它们的差异,比如手机上的相册分类算法,如果测试集中的人像类别多为亚洲人,那么训练集也应该爬取相应的图片了,如果测试集中的动物类别只有猫狗,那么在爬去训练集中的动物类别素材时,爬取所有动物的图片就毫无意义了,反而会降低模型在测试集上的效果。

2.数据增强

       数据增强在模型效果优化方面,算是“锦上添花”了。更多地,它应用于当前的训练数据量很少,或者训练数据量足够但是图片多样性不够的情况。总结来说,数据增强的方法有以下几种,
       (1) 随机翻转,包括左右翻转和上下翻转;
       (2) 随机旋转,通常在45度以内;
       (3) 随机裁剪。
值得注意的是,增广后的图像要符合真实的场景。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值