24、数据处理与优化全解析

emacs5lisp

于 2025-09-20 12:49:22 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏：边缘AI：智能落地的开始文章标签：数据标注数据格式数据清洗

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/emacs5lisp/article/details/152707520

边缘AI：智能落地的开始专栏收录该内容

42 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据处理与优化全解析

1. 数据标注与格式

数据标注对人工智能系统的质量有着重大影响。尽管有先进的工具可以减少标注工作，但在人工智能项目中，标注工作通常仍会占据大量时间。

在数据存储方面，存在着几乎无限多种格式，从简单的二进制表示到专门为训练机器学习模型设计的特殊格式。数据准备过程的一部分是将来自不同来源的数据整合在一起，并确保其以方便的格式进行存储。常见的数据格式及其特点如下：
| 数据格式 | 特点 | 适用场景 |
| — | — | — |
| 文本格式（如 CSV、JSON） | 以文本形式存储数据，易于使用文本编辑器读取和编辑，但文件占用空间大，处理时计算开销大 | 小数据集可完全读入内存时 |
| 图像和音频文件 | 有各自典型的格式，如 JPEG 图像和 WAV 音频文件，常以单独文件形式存储，方便读取和修改 | 存储图像和音频数据集 |
| 直接访问二进制格式（如 NPY、Apache Parquet） | 以原生二进制形式存储数据，单个二进制文件可存储多个数据记录，能在常数时间内访问任意记录 | 数据聚合、清洗和处理前 |
| 顺序二进制格式（如 TFRecord） | 为特定任务（如训练机器学习模型）设计，访问速度快且紧凑，但不易探索 | 大数据集训练前的最后步骤 |

manifest 文件是一种特殊文件，可作为数据集其余部分的索引，常见格式为 CSV，方便跟踪数据和创建数据集样本。

数据在整个处理过程中通常会采用多种不同格式。例如，可能从多种来源获取数据，有文本和二进制格式的混合，然后将数据聚合存储为直接访问二进制格式，再进行清洗和处理，最后在某些情况下转换为顺序二进制格式进行

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。