机器学习/深度学习中常见数据集加载(读取)方法

        数据集有不同的类型,例如图像、文本、二进制、文件夹等等格式,用何种方法去加载这些数据,以及加载数据后的数据类型是什么(tensor、array、dataframe等等)?这里总结一下常见种类的数据集读取函数。

文本文件:CSV、TSV、Json、Txt

        CSV文件是逗号分隔值(Comma-Separated Values,CSV),其文件以纯文本形式存储表格数据(数字和文本);

        TSV 是Tab-separated values的缩写,即制表符分隔值,与csv和txt都同属于文本文件。不同点在于csv和tsv文件的字段间分别由逗号和tab键隔开(所以csv叫字符分隔值,tsv叫制表符分隔值)。

        Txt文件则没有明确要求,可使用逗号/制表符/空格等多种不同的符号。

        JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式,它起初来源于JavaScript这门语言,但因其采用完全独立于语言的文本格式,所以在使用时与开发语言无关,几乎每门开发语言都有处理JSON的方法。

        读取TSV、CSV文件可以用以下两个函数:

(1)csv.reader()

with open(filename, ’r’, encoding='utf-8') as fp:
    data = csv.reader(fp)

        csv.reader()函数是将每行数据当做列表返回的。但要注意,上述步骤返回一个reader对象(迭代器,个人感觉它更像一个指针,因为它必须在close操作之前使用)。这里有两种办法将这个迭代器转换为列表:一种是通过一个循环,另一种是直接通过list列表转换。

        循环法:

         list列表直接转换:

        因为csv.reader()函数是默认读取csv文件的,因此分隔符默认是逗号;如果要读取tsv文件,需要修改一下默认分隔符:csv.reader(fp, delimiter = ‘\t’)

        随后,再可以根据需要,转换为数组(array)或者张量(Tensor)

(2)pd.read_

机器学习中,加载数据是一个关键的步骤。常见数据集类型包括图像、文本、二进制和文件夹等。为了加载这些不同类型的数据集,可以使用不同的方法和函数。 对于文本文件,如CSV、TSV、Json和Txt,可以使用相应的库函数来加载。例如,可以使用pandas库的read_csv函数加载CSV文件,将其加载为DataFrame类型的数据。同样地,可以使用类似的函数来加载其他类型的文本文件。 对于图像数据集,可以使用图像处理库如OpenCV或Pillow来加载图像文件。一种常见方法是将图像加载为数组或张量类型的数据。这样可以利用图像处理库和深度学习库中的各种函数进行后续的处理和分析。 对于二进制文件,如NPY文件,可以使用numpy库的load函数来加载。load函数可以将二进制文件加载为数组类型的数据。例如,可以使用np.load函数来加载.npy文件,将其加载为numpy数组。 有时,为了加快数据加载的速度,可以使用多线程或多进程的方式来实现并行加载数据。这样可以充分利用计算资源,让GPU不再等待数据而空闲。TensorFlow官方推荐使用这种方式来解决数据加载问题。 总结起来,根据不同的数据类型,可以选择合适的函数和方法加载数据。加载后的数据类型可以是张量、数组、数据帧等,具体取决于所使用的库和函数。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [机器学习/深度学习常见数据集加载读取方法](https://blog.youkuaiyun.com/gailj/article/details/122142929)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *2* [机器学习中的数据加载](https://blog.youkuaiyun.com/KangKermit/article/details/107056536)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值