Kaggle情感分析(Bag of Words Meets Bags of Popcorn)

最新推荐文章于 2025-05-30 14:05:25 发布

taneijia

最新推荐文章于 2025-05-30 14:05:25 发布

阅读量9.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： ML

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/taneijia/article/details/49474071

本文介绍了在Kaggle上的情感分析任务，通过加载数据，使用LSTM和CNN模型，以及预训练的Word2Vec进行文本分类。实验结果显示，不使用Word2Vec的模型表现不佳，而加入预训练的Word2Vec或Dropout后，模型性能有所提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Kaggle上有两个情感分析的任务，这是其中的一个Bag of Words Meets Bags of Popcorn。任务虽然已经结束了，但是还有点研究的意义。
https://www.kaggle.com/c/word2vec-nlp-tutorial/data
这是一个炫耀Word2vec能力的竞赛，但是偏偏有人就是不用word2vec。
这个Blog写了用简单的TDF 作为Feature，然后用简单的M-Bayesian方法来进行分类。http://nbviewer.ipython.org/github/jmsteinw/Notebooks/blob/master/NLP_Movies.ipynb

1 测试加载数据

test1.py基本拷贝了该Blog的代码，20个CrossValidation的正确率是0.949631168。

2 写一个基于LSTM的模型

将文章转换为一个word sequence，然后将每个word映射为一个向量，在上面直接用LSTM来做Classification。

1_mr_lstm.py只是用LSTM最后一个的输出：

(‘Train ‘, 0.31977043441405351, ‘Valid ‘, 0.40485674490569001)

2_mr_lstm.py用LSTM输出sequence的mean：

best Train 0.500157513046 best Test 0.504475696675
完全是random的。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。