数据处理与优化全解析
1. 数据标注与格式
数据标注对人工智能系统的质量有着重大影响。尽管有先进的工具可以减少标注工作,但在人工智能项目中,标注工作通常仍会占据大量时间。
在数据存储方面,存在着几乎无限多种格式,从简单的二进制表示到专门为训练机器学习模型设计的特殊格式。数据准备过程的一部分是将来自不同来源的数据整合在一起,并确保其以方便的格式进行存储。常见的数据格式及其特点如下:
| 数据格式 | 特点 | 适用场景 |
| — | — | — |
| 文本格式(如 CSV、JSON) | 以文本形式存储数据,易于使用文本编辑器读取和编辑,但文件占用空间大,处理时计算开销大 | 小数据集可完全读入内存时 |
| 图像和音频文件 | 有各自典型的格式,如 JPEG 图像和 WAV 音频文件,常以单独文件形式存储,方便读取和修改 | 存储图像和音频数据集 |
| 直接访问二进制格式(如 NPY、Apache Parquet) | 以原生二进制形式存储数据,单个二进制文件可存储多个数据记录,能在常数时间内访问任意记录 | 数据聚合、清洗和处理前 |
| 顺序二进制格式(如 TFRecord) | 为特定任务(如训练机器学习模型)设计,访问速度快且紧凑,但不易探索 | 大数据集训练前的最后步骤 |
manifest 文件是一种特殊文件,可作为数据集其余部分的索引,常见格式为 CSV,方便跟踪数据和创建数据集样本。
数据在整个处理过程中通常会采用多种不同格式。例如,可能从多种来源获取数据,有文本和二进制格式的混合,然后将数据聚合存储为直接访问二进制格式,再进行清洗和处理,最后在某些情况下转换为顺序二进制格式进行
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



