26、数据准备:格式、清理与平衡处理全解析

数据准备:格式、清理与平衡处理全解析

1. 数据标签与格式概述

数据标签对人工智能系统的质量有着重大影响。尽管有先进工具可减少标注工作,但在人工智能项目中,数据标注通常仍会占据大量时间。

数据存储在磁盘上有几乎无限的格式,从简单的二进制表示到专门为训练机器学习模型设计的特殊格式都有。数据准备过程的一部分是将来自不同来源的数据整合在一起,并确保其格式方便使用。例如,可能需要从物联网平台提取传感器数据,并将其写入二进制格式,为训练模型做准备。

常见的数据格式及其特点如下:
| 格式类型 | 优点 | 缺点 | 适用场景 |
| — | — | — | — |
| 文本格式(如 CSV、JSON) | 易于使用,可用任何文本编辑器读写 | 效率低,文件占用空间大,处理开销大 | 小数据集,可完全读入内存 |
| 图像和音频文件(如 JPEG、WAV) | 无需特殊工具即可读写修改 | 不是最快的存储方式 | 常见的图像和音频数据集,常搭配清单文件使用 |
| 直接访问二进制格式(如 NPY、Apache Parquet) | 可在常数时间内访问任何记录 | 不同格式有不同性能权衡 | 根据具体情况选择合适格式 |
| 顺序二进制格式(如 TFRecord) | 紧凑且读取速度快 | 不易探索 | 训练机器学习模型前的大数据集 |

2. 清单文件的作用

清单文件是一种特殊文件,可作为数据集其余部分的索引。例如,图像数据集的清单文件可能会列出训练期间要使用的所有图像文件的名称。常见的清单文件格式是 CSV。

由于基于文本的清单文件简单易用,它是跟踪数据的便捷方式。创建数据集样本就

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值