pytorch加载大数据

最新推荐文章于 2024-10-26 16:37:10 发布

原创

最新推荐文章于 2024-10-26 16:37:10 发布 · 置顶 · 5.6k 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

pytorch加载大数据

本文介绍的数据特点：

数据量大，无法一次读取到内存中
数据存储在csv或者文本文件中(每一行是一个sample，包括feature和label)

要求：

每次读取一小块数据到内存
能够batch
能够shuffle

自定义MyDataset，继承torch.utils.data.Dataset，重写__init__(),__len__(),__getitem__()，增加initial()

import torch.utils.data as Data
import random
 
class MyDataset(Data.Dataset):
    def __init__(self,file_path,nraws,shuffle=False):
        """
        file_path: the path to the dataset file
        nraws: each time put nraws sample into memory for shuffle
        shuffle: whether the data need to shuffle
        """
        file_raws = 0 
        # get the count of all samples
        with open(file_path,'r') as f:

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄12年

12
原创

38
点赞

100
收藏

7
粉丝

关注

私信

热门文章

分类专栏

上一篇：: pytorch rnn 变长输入序列问题

下一篇：: beam search 束搜索多线程实现

最新评论

ctcdecode安装
weixin_47152578: In file included from ctcdecode/src/binding.cpp:7: ctcdecode/src/scorer.h:9:10: fatal error: lm/enumerate_vocab.hh: No such file or directory 9 | #include "lm/enumerate_vocab.hh" | ^~~~~~~~~~~~~~~~~~~~~~~ compilation terminated. error: command '/usr/bin/gcc' failed with exit code 1这个错误是为什么呢
ctcdecode安装
hjing22: 后面解决了吗可以分享一下如何解决的吗
pytorch加载大数据
shguan2017: 解决了我的问题,谢谢
ctcdecode安装
须臾一念: 我已引用并且转载了你的这篇文章，并且在pytorch 1.8上成功了，并且成功实验出，你的方法在pytorch1.4及以下的版本可以直接成功
ctcdecode安装
cat比deeplearning重要: 您好，我在安装ctcdeocde的时候遇到了跟您一样的问题，请问您当时解决了吗，已经被这个报错折磨好久了

大家在看

最新文章

目录

展开全部

收起

评论 11

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。