.WeightedRandomSampler(3)

大规模数据集训练优化
针对大规模数据集训练过程中出现的问题,如效率低下及各种错误,本文深入探讨了使用PyTorch中WeightedRandomSampler的局限性,并提出对于大规模数据集(如ImageNet级别)可能存在的性能瓶颈。
部署运行你感兴趣的模型镜像

问题描述: 最早一批数据是2500 多张,新一批的数据有36000 多张。

然后最近训练的时候,设置train_nums 设置为36000 

但是实际训练的时候,貌似不太行,总是报各种错误

train_nums = 36000 

 train_sampler = torch.utils.data.WeightedRandomSampler(weights=sampler_weights, num_samples=train_nums,

                                                             replacement=True)

原因分析: 

看下WeightedRandomSampler 这个函数的具体实现:
 

 

反思:

现在才有3w 的数据 运行起来就这么慢 

那么像imagenet 这种百万级别的,是不是更慢 

应该是要换个效率更高的写法

 

 

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值