21、边缘AI数据处理全攻略

边缘AI数据处理全攻略

一、数据量与模型性能的关系

通过图表可以观察到性能指标(如准确率)随记录数量的变化情况。左图显示增加更多数据可能会带来更好的性能,曲线表明若继续添加数据,性能可能会持续提升,趋势线还能大致估算达到特定性能所需的数据量。右图则呈现出一个平台期,添加同类型的更多数据不太可能使性能有显著提升,此时可以考虑测试不同的机器学习模型或算法,或者改进特征工程,也可以尝试优化数据集,比如减少其中的噪声。

不过,这种分析方法依赖于数据集是“理想”的假设。在现实中,数据集可能存在问题,特征工程和机器学习算法也有局限性,导致实际性能与添加数据时的趋势线不匹配。但获取一个大致的数据量估计仍然是有用的,它能帮助规划收集更多数据的工作。

二、数据获取途径

构建高质量数据集的一大挑战是获取数据本身,常见的数据获取方式有以下几种:
1. 从头开始收集全新的数据集
2. 将数据收集工作外包给其他团队或第三方
3. 使用公共数据集
4. 复用合作伙伴或协作者的现有数据
5. 复用内部数据存储中的现有数据
6. 复用之前成功AI项目的数据
7.

不同的数据获取途径在数据质量风险和所需工作量(即成本)之间存在不同的权衡。控制数据收集过程的程度越高,就越能保证数据质量。其中,复用过去成功使用过的数据是最佳选择,因为已经了解数据质量,且只要数据仍然相关,复用所需的工作量就不大。

组织内部通常有可用于AI项目的现有数据,但可能需要一些工作将其转换为适合AI项目的形式,而且现有数据往往缺乏标签,添加标签的成本较高。合作伙伴或协作者提供的数据以及公共数据集,由于不是自己收集

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值