PaddlePaddle情感分析的dome，怎么用自定义的训练集和测试集？

原创于 2019-03-04 11:09:06 发布 · 827 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍如何使用自定义训练集和测试集进行情感分析模型的训练，包括数据预处理、批处理方法设计及如何适配PaddlePaddle框架的训练流程。

部署运行你感兴趣的模型镜像

关键字：自定义训练集 自定义测试集
问题描述：
情感分析demo的例子是用的 imdb 的数据集，我想用自己的数据集。请问怎么把训练集和测试集运用到demo里面？
解决方法：
首先要熟悉你想使用的数据集的结构，熟悉了结构后，才能编写对应的处理代码，整体的逻辑其实简单，通常将数据2-8分成测试集与训练集，然后定义一个方法，在每一轮都返回一batch的数据，让trainer去处理则可。

因为实例中的情感分析Demo其实是文本分类问题，所以在使用自定义数据时，处理好输入的文本以及该文本对应的标签的关系则可，具体细节可以参考PaddlePaddle Model中文本分类的代码，https://github.com/PaddlePaddle/models/blob/59adc0d6f38cd2351e16608d6c9d4e72dd5e7fea/fluid/text_classification/train.py
问题拓展：
因为PaddlePaddle中的各种示例代码以演示PaddlePaddle用法为主，所以通常使用的都是简单的训练数据，而且封装好了处理这些数据的接口，让使用者不必关系数据是如何被有效组织的，只需关注此时构建神经网络的结构。但这也就导致了很多人想替换自己的数据集遇到点困难。

其实只要你熟悉自己要使用数据集的结构，要让PaddlePaddle使用这些数据来训练模型还是很简单的，你完全可以模型PaddlePaddle示例代码中处理数据方法的内部实现，其实实现逻辑都不复杂，以情感分析使用的imdb数据集处理逻辑为例，其处理的方法为在movielens.py文件中，其实都是对python内置结构的使用。
问题研究：
最简单的情感分析其实就是一个文本二分类问题，将一句话划分为正面情绪还是负面情绪，而复杂点的其实就是文本的定义分类问题，研究情感分析时，处理要理解其自然语言处理方面的内容，还有就是文本多分类的内容。

您可能感兴趣的与本文相关的镜像

PaddlePaddle-v3.3

PaddlePaddle-v3.3

PaddlePaddle

PaddlePaddle是由百度自主研发的深度学习平台，自 2016 年开源以来已广泛应用于工业界。作为一个全面的深度学习生态系统，它提供了核心框架、模型库、开发工具包等完整解决方案。目前已服务超过 2185 万开发者，67 万企业，产生了 110 万个模型

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。