11、电影评论情感分析：从词袋模型到词嵌入模型

最新推荐文章于 2025-11-19 10:16:44 发布

arduino9maker

最新推荐文章于 2025-11-19 10:16:44 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习玩转自然语言文章标签：电影评论情感分析词袋模型

本文链接：https://blog.youkuaiyun.com/arduino9maker/article/details/155017544

深度学习玩转自然语言专栏收录该内容

33 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

电影评论情感分析：从词袋模型到词嵌入模型

词袋模型中的词评分方法比较

在使用词袋模型处理文本数据时，Keras API 中的 Tokenizer 的 texts_to_matrix() 函数提供了 4 种不同的词评分方法：
1. binary ：单词存在标记为 1，不存在标记为 0。
2. count ：每个单词的出现次数标记为整数。
3. tfidf ：根据单词的频率进行评分，对在所有文档中常见的单词进行惩罚。
4. freq ：根据单词在文档中的出现频率进行评分。

为了评估这 4 种评分方法的效果，我们需要进行一系列操作：
1. 数据准备函数 ： prepare_data() 函数根据选择的评分模型对加载的文档进行编码。

# prepare bag-of-words encoding of docs
def prepare_data(train_docs, test_docs, mode):
    # create the tokenizer
    tokenizer = Tokenizer()
    # fit the tokenizer on the documents
    tokenizer.fit_on_texts(train_docs)
    # encode trai