数据准备:格式、清理与平衡处理全解析
1. 数据标签与格式概述
数据标签对人工智能系统的质量有着重大影响。尽管有先进工具可减少标注工作,但在人工智能项目中,数据标注通常仍会占据大量时间。
数据存储在磁盘上有几乎无限的格式,从简单的二进制表示到专门为训练机器学习模型设计的特殊格式都有。数据准备过程的一部分是将来自不同来源的数据整合在一起,并确保其格式方便使用。例如,可能需要从物联网平台提取传感器数据,并将其写入二进制格式,为训练模型做准备。
常见的数据格式及其特点如下:
| 格式类型 | 优点 | 缺点 | 适用场景 |
| — | — | — | — |
| 文本格式(如 CSV、JSON) | 易于使用,可用任何文本编辑器读写 | 效率低,文件占用空间大,处理开销大 | 小数据集,可完全读入内存 |
| 图像和音频文件(如 JPEG、WAV) | 无需特殊工具即可读写修改 | 不是最快的存储方式 | 常见的图像和音频数据集,常搭配清单文件使用 |
| 直接访问二进制格式(如 NPY、Apache Parquet) | 可在常数时间内访问任何记录 | 不同格式有不同性能权衡 | 根据具体情况选择合适格式 |
| 顺序二进制格式(如 TFRecord) | 紧凑且读取速度快 | 不易探索 | 训练机器学习模型前的大数据集 |
2. 清单文件的作用
清单文件是一种特殊文件,可作为数据集其余部分的索引。例如,图像数据集的清单文件可能会列出训练期间要使用的所有图像文件的名称。常见的清单文件格式是 CSV。
由于基于文本的清单文件简单易用,它是跟踪数据的便捷方式。创建数据集样本就
超级会员免费看
订阅专栏 解锁全文

8万+

被折叠的 条评论
为什么被折叠?



