边缘AI数据处理全攻略
一、数据量与模型性能的关系
通过图表可以观察到性能指标(如准确率)随记录数量的变化情况。左图显示增加更多数据可能会带来更好的性能,曲线表明若继续添加数据,性能可能会持续提升,趋势线还能大致估算达到特定性能所需的数据量。右图则呈现出一个平台期,添加同类型的更多数据不太可能使性能有显著提升,此时可以考虑测试不同的机器学习模型或算法,或者改进特征工程,也可以尝试优化数据集,比如减少其中的噪声。
不过,这种分析方法依赖于数据集是“理想”的假设。在现实中,数据集可能存在问题,特征工程和机器学习算法也有局限性,导致实际性能与添加数据时的趋势线不匹配。但获取一个大致的数据量估计仍然是有用的,它能帮助规划收集更多数据的工作。
二、数据获取途径
构建高质量数据集的一大挑战是获取数据本身,常见的数据获取方式有以下几种:
1. 从头开始收集全新的数据集
2. 将数据收集工作外包给其他团队或第三方
3. 使用公共数据集
4. 复用合作伙伴或协作者的现有数据
5. 复用内部数据存储中的现有数据
6. 复用之前成功AI项目的数据
7.
不同的数据获取途径在数据质量风险和所需工作量(即成本)之间存在不同的权衡。控制数据收集过程的程度越高,就越能保证数据质量。其中,复用过去成功使用过的数据是最佳选择,因为已经了解数据质量,且只要数据仍然相关,复用所需的工作量就不大。
组织内部通常有可用于AI项目的现有数据,但可能需要一些工作将其转换为适合AI项目的形式,而且现有数据往往缺乏标签,添加标签的成本较高。合作伙伴或协作者提供的数据以及公共数据集,由于不是自己收集
超级会员免费看
订阅专栏 解锁全文
885

被折叠的 条评论
为什么被折叠?



