电影评论情感分析:从词袋模型到词嵌入模型
词袋模型中的词评分方法比较
在使用词袋模型处理文本数据时,Keras API 中的 Tokenizer 的 texts_to_matrix() 函数提供了 4 种不同的词评分方法:
1. binary :单词存在标记为 1,不存在标记为 0。
2. count :每个单词的出现次数标记为整数。
3. tfidf :根据单词的频率进行评分,对在所有文档中常见的单词进行惩罚。
4. freq :根据单词在文档中的出现频率进行评分。
为了评估这 4 种评分方法的效果,我们需要进行一系列操作:
1. 数据准备函数 : prepare_data() 函数根据选择的评分模型对加载的文档进行编码。
# prepare bag-of-words encoding of docs
def prepare_data(train_docs, test_docs, mode):
# create the tokenizer
tokenizer = Tokenizer()
# fit the tokenizer on the documents
tokenizer.fit_on_texts(train_docs)
# encode trai
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



