上一篇总结了文本处理最基础的 one-hot 编码,这篇再来整理下基础的词袋模型(bag of word),以供复习(对应1127_文本处理之词袋模型(BOW))
概述
- 文本
text = ['Today is Friday it is Sunny ',
'And yesterday is Thursday it was cloudy']
相对于 one-hot 以每一个单词是否出现(分别用 1和 0 表示)为值的、 一个长度为 N 的向量表示不同,BOW 以一行文字/文本 中每个单词出现的频次为值,并将其表示为一个长度为 N 的向量 (这里的两个 N ,为不重复单词的数量,即语料库的大小)。
即我们想要的想效果是:
- 语料库
# 语料库 (这里是按照单词出现的顺序排序)
corpus = ['Today', 'is', 'Friday', 'it', 'Sunday', 'And', 'yesterday', 'Thursday', 'was', 'cloudy']
print(len(corpus))
- 词袋模型表示
# 词袋模型表示
import n