Pytorch深度学习（五）：加载数据集以及mini-batch的使用

最新推荐文章于 2024-03-20 23:06:25 发布

原创

最新推荐文章于 2024-03-20 23:06:25 发布

· 1.4k 阅读

7 ·

版权

文章标签：

#深度学习 #pytorch #batch

Pytorch深度学习（五）：加载数据集以及mini-batch的使用

参考B站课程：《PyTorch深度学习实践》完结合集
传送门：《PyTorch深度学习实践》完结合集

一、预备知识

Dataset是一个抽象函数，不能直接实例化，所以我们要创建一个自己类，继承Dataset
继承Dataset后我们必须实现三个函数：
init()是初始化函数，之后我们可以提供数据集路径进行数据的加载
getitem()帮助我们通过索引找到某个样本
len()帮助我们返回数据集大小

class DiabetesDataset(Dataset):
    def __init__(self, filepath):
        xy = np.loadtxt(filepath, delimiter=',', dtype=np.float32)
        self.len = xy.shape[0]
        self.xdata = torch.from_numpy(xy[:, :-1])
        self.ydata = torch.from_numpy(xy[:, [-1]])

    def __getitem__(self, index):
        return self.xdata[index], self.ydata[index]

    def __len__(self):
        return self.len

用DataLoader为数据进行分组，batch_size是一个组中有多少个样本，shuffle表示要不要对样本进行随机排列。一般来说，训练集我们随机排列，测试集不需要。num_workers表示我们可以用多少进程并行的运算，由于我的版本原因（cuda不好使），只能选择num_workers=0，一般可以写num_workers=2，进行并行运算算提高速度。

dataset = DiabetesDataset('diabetes.csv.gz')
train_loader = DataLoader(dataset=dataset, batch_size=32, shuffle=True, num_workers=

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Yuriy_Xiong

关注关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pytorch Mini-Batch

weixin_42595206的博客

04-29

1164

梯度下降有几种选择：梯度下降（BatchGD）：计算速度快（运用GPU的并行能力），但是数据集大的话硬件受不了随机梯度下降（SGD）：它的随机性会克服鞍点的问题（遇到鞍点，梯度为0 就走不动了）但是运行时间过长，没有办法运用GPU的并行能力 Mini-Batch进行均衡 epoch：对所有样本进行一次前向传播和后向传播 Batch-size：进行一次前向传播和反向传播所用的样本数量 Iteration：数据集中有多少个batch 例如1000个样本 batch-size为100 那么iterati

PyTorch深度学习实践第八讲---Mini-batch数据集

weixin_43224291的博客

10-17

661

Demo 8：Mini-batch数据集加载

1 条评论您还未登录，请先登录后发表或查看评论

pytorch：minibatch

zhangqiqiyihao的博客

03-17

487

import torch import torch.utils.data as Data #Data为训练过程中进行小批次训练的途径 torch.manual_seed(1) BATCH_SIZE=5 x=torch.linspace(1,10,10) y=torch.linspace(10,1,10) #定义一个torch数据库，将我们的xy数据都放到里面 torch_dataset=Data.TensorDataset(x,y) #用loader来使我们的训练变成一小批一小批的 loader=Da

pytorch学习笔记（三十四）：MiniBatch-SGD

逐梦er的博客

08-09

3977

文章目录小批量随机梯度下降1. 读取数据2. 从零开始实现3. 简洁实现小结小批量随机梯度下降在每一次迭代中，梯度下降使用整个训练数据集来计算梯度，因此它有时也被称为批量梯度下降（batch gradient descent）。而随机梯度下降在每次迭代中只随机采样一个样本来计算梯度。正如我们在前几章中所看到的，我们还可以在每轮迭代中随机均匀采样多个样本来组成一个小批量，然后使用这个小批量来计算梯度。下面就来描述小批量随机梯度下降。设目标函数f(x):Rd→Rf(\boldsymbol{x}): \ma

Pytorch深度学习——用Mini-Batch训练数据（B站刘二大人P8学习笔记）

Learning_AI的博客

01-12

7079

先前我们学习的内容一种情况是采用Full-Batch来训练数据，还有一种情况是在随机梯度下降中，只去其中一个数据来计算梯度，这种情况可以使我我们很好的解决训练数据时遇到的鞍点问题，但是会导致时间过长。所以，接下来我们要学习的是采用Mini-Batch的方法来训练数据，这种方式可以均衡性能和训练时间上的需求。 Epoch Batch-Size Iteration shuffle 是否打乱顺序

pytorch DataLoader实现miniBatch（未完成）

songhuangong123的博客

06-25

640

书接上回《pytorch 搭建神经网络最简版》上次并未用到miniBatch，一次性将全部的数据输入进行训练。这次通过DataLoader实现miniBatch。截取关键代码： batch_size 每个批次训练的大小，如果总的数据条数是7490条，那么此时train_loader 中将会产生10个batch。shuffle是洗牌的意思，就是打乱数据的顺序后再数据放到10个batch里。而此时我为啥，要将 batch_size设置成29，且设置为不洗牌。是因为我想和之前的过程进行对比。因为此时数据

《PyTorch深度学习实践》学习笔记：加载数据集

lizhuangabby的博客

07-08

1019

pytorch加载数据集

pytorch深度学习实践-加载数据集0106

weixin_49747347的博客

01-06

1254

B站刘二大人：加载数据集 目录 1、代码实现Mini-Batch进行训练 2、对for i, data in enumerate(trainloader, 0): 的解释 1、代码实现Mini-Batch进行训练 import torch import numpy as np from torch.utils.data import Dataset # 抽象类 from torch.utils.data import DataLoader # 帮助加载数据 # prepare dat.

Pytorch深度学习入门：60分钟闪电战

fangshuo_light的博客

05-28

1699

1. 学习基础知识大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下类别之一。T恤/上衣、长裤、套头衫、连衣裙、外套、凉鞋、衬衫、运动鞋、包、或踝靴。本教程假定对Python和深度学习概念有基本的熟悉。运行教程代码你可以用几种方式运行这个教程。在云中。这是最简单的入门方法每个..

pytorch中的minibatch

CV老李的博客

02-13

2947

日期：2020-2-13 pytorch中的torch.utils.data这个库可以非常好的对数据实现批处理主要用到2个函数 import torch import torch.utils.data as Data Data.TensorDataset（）#设置数据集，数据与标签相对应 Data.DataLoader（）#传入数据集，设置批处理大小，是否打乱数据，顺序，线程数举个例子 #ba...

【深度学习】3-2 神经网络的学习- mini-batch学习

loyd3的博客

06-19

1392

使用训练数据进行学习，就是针对训练数据计算损失函数的值，也就是说,训练数据有100个的话，就要把这 100个损失函数的总和作为学习的指标。要实现对应mini-batch的交叉误差，需要改良之前实现的单个数据的交叉熵误差，让它可以同时处理单个数据和批量数据(数据作为batch集中输人)y的维度为1时，即求单个数据的交叉熵误差时，需要改变数据的形状。因为t中标签是以[2，7，0，9，4]的形式存储的，所以。在以大数据为对象求损失函数的和，需要花费较长的时间，因此，我们从全部数据中选出一部分，

拼拼凑凑的pytorch学习——实现mini-batch梯度下降，随机梯度下降

Campsisgrandiflora的博客

02-27

2546

目录mini-batch梯度下降随机梯度下降在上一篇（拼拼凑凑的pytorch学习——神经网络训练）中我们说到过，pytorch中SGD优化器会使用全部传入的数据来计算梯度，所以如果传入了所有数据，那么就是相当于批量梯度下降，那么如果实现mini-batch梯度下降以及随机梯度下降呢？可以从数据供给的角度去考虑。这里仍旧使用上一篇中的例子 mini-batch梯度下降 mini-batch梯度下降，就是将数据分为多个批次，每次投入一批数据进行训练，所有的数据全部训练过一遍后为一个epoch pytor

PyTorch笔记6-mini batch

u014532743的博客

11-04

7547

本系列笔记为莫烦PyTorch视频教程笔记 github源码概要Torch 中提供了一种整理数据结构的好东西，叫做 DataLoader，可以用来包装自己的数据，进行批训练，而且批训练可以有多种途径import torch import torch.utils.data as Datatorch.manual_seed(1) # reproducible<torch._C.Genera

【深度学习】Mini-Batch梯度下降法

weixin_45434953的博客

09-09

1136

反之，较小的子集会导致噪声较大，下降的精度不高，但是单次训练速度快，而且较小的子集也无法充分来自于向量化的训练加速，总训练时间反而不是最快的。在实际中，选择适中的子集大小能够保证一定的精度，也能提高速度，并且利用好向量化带来的加速，在此基础之上，根据自己的目标选择合适的子集大小，平衡好训练速度和精度问题。而在情况2中，因为每个样本都是单独的Mini-Batch，大多数时候会朝着最小值前进，但是有一些样本是噪声样本，因此偶尔会指向错误的方向，因此这会使得其路线十分的九转十八弯（紫线）。原数据集的特征部分为。

pytorch实现batch normalization

m0_56175815的博客

05-08

1296

Batch Normalization（BN）层是一种常用于神经网络中的层。它是在每个训练批次中对输入进行规范化的技术，以防止神经网络中的梯度消失和梯度爆炸问题。

PyTorch深度学习实践 3.梯度下降算法--＞mini-batch stochastic gradient descent

qq_35988224的博客

01-19

522

分治法 w1和w2 假设横竖都是64 横竖都分成4份，一共16份。第一次在这16份里，找出比较小的点，再来几轮，基本就OK了。从原来的16x16变成了16+16 贪心法梯度下降法，局部最优，实际上，大家发现神经网络里并没有很多的局部最优点鞍点g=0，无法迭代了指数加权均值，更平滑一定要收敛，发散说明失败了，可能是学习率太大随机梯度下降，可以克服鞍点梯度下降可以并行，快随机梯度下降，只能串行，慢，但可以克服鞍点折中批量随机梯度下降batch ...

pytorch练习5 用DataSet和DataLoader实现mini-batch