24、数据处理与优化全解析

数据处理与优化全解析

1. 数据标注与格式

数据标注对人工智能系统的质量有着重大影响。尽管有先进的工具可以减少标注工作,但在人工智能项目中,标注工作通常仍会占据大量时间。

在数据存储方面,存在着几乎无限多种格式,从简单的二进制表示到专门为训练机器学习模型设计的特殊格式。数据准备过程的一部分是将来自不同来源的数据整合在一起,并确保其以方便的格式进行存储。常见的数据格式及其特点如下:
| 数据格式 | 特点 | 适用场景 |
| — | — | — |
| 文本格式(如 CSV、JSON) | 以文本形式存储数据,易于使用文本编辑器读取和编辑,但文件占用空间大,处理时计算开销大 | 小数据集可完全读入内存时 |
| 图像和音频文件 | 有各自典型的格式,如 JPEG 图像和 WAV 音频文件,常以单独文件形式存储,方便读取和修改 | 存储图像和音频数据集 |
| 直接访问二进制格式(如 NPY、Apache Parquet) | 以原生二进制形式存储数据,单个二进制文件可存储多个数据记录,能在常数时间内访问任意记录 | 数据聚合、清洗和处理前 |
| 顺序二进制格式(如 TFRecord) | 为特定任务(如训练机器学习模型)设计,访问速度快且紧凑,但不易探索 | 大数据集训练前的最后步骤 |

manifest 文件是一种特殊文件,可作为数据集其余部分的索引,常见格式为 CSV,方便跟踪数据和创建数据集样本。

数据在整个处理过程中通常会采用多种不同格式。例如,可能从多种来源获取数据,有文本和二进制格式的混合,然后将数据聚合存储为直接访问二进制格式,再进行清洗和处理,最后在某些情况下转换为顺序二进制格式进行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值