21、边缘AI数据处理全攻略

边缘AI数据处理全攻略

一、数据对模型性能的影响

数据量与模型性能之间存在着紧密的联系。通过观察性能指标(如准确率)随记录数量变化的图表,我们能了解数据对模型性能的影响。

1. 数据增加带来性能提升

在某些情况下,增加数据量很可能会使模型性能得到提升。图表左侧展示的就是这种情况,曲线表明继续添加数据,性能有望持续增长。趋势线还能大致估算出达到特定性能所需的数据量。

2. 性能达到平台期

而图表右侧显示模型性能已达到平台期,添加同类数据不太可能带来显著的性能提升。此时,可尝试测试不同的机器学习模型或算法,改进特征工程,或者考虑优化数据集,比如减少其中的噪声。

不过,这种通过曲线判断的方法是基于“理想数据集”的假设。实际中,数据集可能存在问题,特征工程和机器学习算法也有局限性,导致实际性能与趋势线不匹配。但获取一个大致的数据量估算仍有助于规划数据收集工作。同时,该方法无法判断数据集是否具有代表性、平衡性和可靠性,这些需自行考量。

二、数据获取途径

构建高质量数据集时,数据获取是一大挑战。常见的数据获取方式有以下几种:
1. 从头开始收集全新数据集
2. 将数据收集工作外包给其他团队或第三方
3. 使用公共数据集
4. 复用合作伙伴或协作者的现有数据
5. 复用内部数据存储中的现有数据
6. 复用之前成功AI项目的数据

不同的数据获取途径在数据质量风险和所需工作量(即成本)之间存在不同的权衡,具体对比如下:
|数据获取途径|质量风险|工作量(成本)|
| ---- | ----

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值