基于IMDb数据集的情感分析（Doc2Vec模型与神经网络实现）

最新推荐文章于 2025-10-16 09:54:10 发布

原创

最新推荐文章于 2025-10-16 09:54:10 发布 · 7.1k 阅读

41 ·

CC 4.0 BY-SA版权

文章标签：

#IMDb #LSTM

本文介绍了一种使用Doc2Vec模型和LSTM神经网络进行情感分析的方法，基于IMDb数据集，训练出的模型在Kaggle上取得了0.97的高分。数据预处理采用了Gensim和nltk库，Doc2Vec模型用于得到段落向量，LSTM用于进一步提升准确率。实验结果显示，LSTM模型在测试集上实现了良好的准确率。

使用Doc2Vec模型参加Kaggle的NLP比赛，最终score达到0.97，前2%。

本文所有的代码都可以在我的github上找到。

在上一篇博文中，我们使用了TF-IDF，准确率达到了0.95，已经进入前100，但还不够，我们试试使用更加高大上的Doc2Vec结合神经网络模型，其准确率能否再次提升。

数据介绍

本数据来源于IMDB电影评论集，是Kaggle上一个入门的项目。
在Kaggle上详细使用了word2vec进行向量化，本文主要介绍Doc2Vec模型的使用，并使用神经网络模型提高准确率。
数据包括
- **测试数据（testData)：**25000条
- 未标注数据（unlabelData）：5000条
- 训练数据（trainData）：25000条（正负情感各一半）
- 每个电影的评论都不超过30条（测试集电影与训练集电影不相同）
- 我们使用所有数据来作为doc2vect模型的语料
本文主要使用python中的pandas、nltk、gensim、TensorFlow库进行数据清理和分析。
注意，在kaggle上，针对此题的评分标准是按照ROC曲线（AUC），并不是硬分类，参考Wikipedia。