机器学习之准备训练数据

本文探讨了机器学习中训练数据的重要性和治理原则,包括数据量越大越好、准备过程耗时、以及单纯增加人力并不一定能提高数据质量。强调了数据质量和准确性对模型效果的关键作用,并介绍了世平信息在数据安全、治理和共享方面的解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

什么是数据治理

 

机器学习是一类算法的总称,这些算法企图从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类。

 

机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。

 

机器学习的目标是使学到的函数很好地适用于“新样本”,而不仅仅是在训练样本上表现很好。

 

所谓的训练数据,就是经过预处理(一般是人工标注)后,有相对稳妥、精确的特征描述的数据集,以“样本”形式参与模型开发工作。

 

训练数据选择一般有以下要求:数据样本尽可能大、数据多样化,数据样本质量较高。

 

在准备训练数据时,

需要把握这样几个原则。

01

训练数据越多越好

 

 

这张图片来自“重新审视那些有效到不合常理的训练数据”,并且展示了即使数据集已经增长到了数亿,图像分类模型的精度依然不断增加。

 

Facebook最近更加深入的使用大数据量,例如,在ImageNet分类中使用了数十亿个带有标签的Instagram

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值