边缘AI数据处理全攻略
一、数据对模型性能的影响
数据量与模型性能之间存在着紧密的联系。通过观察性能指标(如准确率)随记录数量变化的图表,我们能了解数据对模型性能的影响。
1. 数据增加带来性能提升
在某些情况下,增加数据量很可能会使模型性能得到提升。图表左侧展示的就是这种情况,曲线表明继续添加数据,性能有望持续增长。趋势线还能大致估算出达到特定性能所需的数据量。
2. 性能达到平台期
而图表右侧显示模型性能已达到平台期,添加同类数据不太可能带来显著的性能提升。此时,可尝试测试不同的机器学习模型或算法,改进特征工程,或者考虑优化数据集,比如减少其中的噪声。
不过,这种通过曲线判断的方法是基于“理想数据集”的假设。实际中,数据集可能存在问题,特征工程和机器学习算法也有局限性,导致实际性能与趋势线不匹配。但获取一个大致的数据量估算仍有助于规划数据收集工作。同时,该方法无法判断数据集是否具有代表性、平衡性和可靠性,这些需自行考量。
二、数据获取途径
构建高质量数据集时,数据获取是一大挑战。常见的数据获取方式有以下几种:
1. 从头开始收集全新数据集
2. 将数据收集工作外包给其他团队或第三方
3. 使用公共数据集
4. 复用合作伙伴或协作者的现有数据
5. 复用内部数据存储中的现有数据
6. 复用之前成功AI项目的数据
不同的数据获取途径在数据质量风险和所需工作量(即成本)之间存在不同的权衡,具体对比如下:
|数据获取途径|质量风险|工作量(成本)|
| ---- | ----
超级会员免费看
订阅专栏 解锁全文
896

被折叠的 条评论
为什么被折叠?



