【小白做科研（三）】数据处理

最新推荐文章于 2025-07-06 13:16:45 发布

原创

最新推荐文章于 2025-07-06 13:16:45 发布 · 1.7k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

在对研究进展有一定了解后，尝试复现论文代码是科研过程中的重要步骤。本文聚焦于使用PyTorch进行数据处理，包括为何选择PyTorch、数据加载工具Dataset和DataLoader的使用，以及torchtext在文本处理中的应用。同时分享了如何参考微软开源推荐系统的代码，将数据处理移植到PyTorch平台，并提供了个人仓库链接以供交流。

读了很多论文，咱们自己心里也对整体的进展有了一些了解和脉络，那么下一步就可以试着复现啦~

而要复现人家的代码，那肯定得找人家的数据集，数据到手后就可以开始处理了~ 这篇主要粘一些看到的比较好的博客

平台

我自己就是觉得pytorch比tensorflow帅hhhh，而且很多师兄大佬也说pytorch比较好，那就可以先从官网教程开始了解~

需要指明一点，大家安装pytorch后其实不需要装cuda也可以用gpu（因为torch里附带了一些cuda的驱动），但是好像是功能受限，如果想要完整版应该还是得老老实实cuda+cudnn

数据处理

要训练模型的话，最好是喂一批（batch）一批的数据进去，所以我们需要把数据读取自己需要的部分，然后让数据成批呈现，这里pytorch提供了很方便的工具Dataset和DataLoader，定义好了就可以直接用；

我想着重说一下torchtext啊，主要是在文本处理这块用，其中有很丰富方便的功能，其实pytorch官网中一些text的教程中都用到了这个工具，但是没有给出一个系统化的用法，所以我google了一下发现这

最低0.47元/天解锁文章

6 条评论

不正经的kimol君 2020.11.03
写的不错，学习了，学习的道路上一起进步，也期待你的关注与支持！

「已注销」 2020.11.03
总结的不错。可以可以。很强。继续加油~

梦想橡皮擦 2020.11.02
这篇文章很不错，值得一看~

Co_Co_爸 2020.11.02
博主，可以加你联系方式沟通交流吗？
- 叫我PT回复Co_Co_爸 2020.11.02
  可以邮件zpt@ruc.edu.cn

水巷石子 2020.11.02
感谢博主分享，讲的挺不错，希望后面有更多的文章。

评论 6

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。