Python文本处理（1）——文本表示之词袋模型（BOW）（2）

原创

于 2019-12-27 23:17:23 发布 · 1.9k 阅读

CC 4.0 BY-SA版权

文章标签：

上一篇总结了文本处理最基础的 one-hot 编码，这篇再来整理下基础的词袋模型（bag of word），以供复习（对应1127_文本处理之词袋模型（BOW））

text = ['Today is Friday it is Sunny ',
       'And yesterday is Thursday it was cloudy']

相对于 one-hot 以每一个单词是否出现（分别用 1和 0 表示）为值的、一个长度为 N 的向量表示不同，BOW 以一行文字/文本 中每个单词出现的频次为值，并将其表示为一个长度为 N 的向量（这里的两个 N ，为不重复单词的数量，即语料库的大小）。

即我们想要的想效果是：

# 语料库 (这里是按照单词出现的顺序排序)
corpus = ['Today', 'is', 'Friday', 'it', 'Sunday', 'And', 'yesterday', 'Thursday', 'was', 'cloudy']
print(len(corpus))

# 词袋模型表示 
import n

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。