机器学习/深度学习中常见数据集加载（读取）方法

最新推荐文章于 2025-03-03 23:07:03 发布

gailj

最新推荐文章于 2025-03-03 23:07:03 发布

阅读量2.1w

点赞数 33

分类专栏： pytorch Python 文章标签： pytorch 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gailj/article/details/122142929

版权

数据集有不同的类型，例如图像、文本、二进制、文件夹等等格式，用何种方法去加载这些数据，以及加载数据后的数据类型是什么（tensor、array、dataframe等等）？这里总结一下常见种类的数据集读取函数。

文本文件：CSV、TSV、Json、Txt

CSV文件是逗号分隔值（Comma-Separated Values，CSV），其文件以纯文本形式存储表格数据（数字和文本）；

TSV 是Tab-separated values的缩写，即制表符分隔值，与csv和txt都同属于文本文件。不同点在于csv和tsv文件的字段间分别由逗号和tab键隔开（所以csv叫字符分隔值，tsv叫制表符分隔值）。

Txt文件则没有明确要求，可使用逗号/制表符/空格等多种不同的符号。

JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式，它起初来源于JavaScript这门语言，但因其采用完全独立于语言的文本格式，所以在使用时与开发语言无关，几乎每门开发语言都有处理JSON的方法。

读取TSV、CSV文件可以用以下两个函数：

（1）csv.reader()

with open(filename, ’r’, encoding='utf-8') as fp:
    data = csv.reader(fp)

csv.reader()函数是将每行数据当做列表返回的。但要注意，上述步骤返回一个reader对象（迭代器，个人感觉它更像一个指针，因为它必须在close操作之前使用）。这里有两种办法将这个迭代器转换为列表：一种是通过一个循环，另一种是直接通过list列表转换。

循环法：

list列表直接转换：

因为csv.reader()函数是默认读取csv文件的，因此分隔符默认是逗号；如果要读取tsv文件，需要修改一下默认分隔符：csv.reader(fp, delimiter = ‘\t’)

随后，再可以根据需要，转换为数组（array）或者张量（Tensor）

（2）pd.read_

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。