Python文本处理(1)——文本表示之词袋模型(BOW)(2)

上一篇总结了文本处理最基础的 one-hot 编码,这篇再来整理下基础的词袋模型(bag of word),以供复习(对应1127_文本处理之词袋模型(BOW))

概述

  • 文本
text = ['Today is Friday it is Sunny ',
       'And yesterday is Thursday it was cloudy']

相对于 one-hot 以每一个单词是否出现(分别用 1和 0 表示)为值的、 一个长度为 N 的向量表示不同,BOW 以一行文字/文本 中每个单词出现的频次为值,并将其表示为一个长度为 N 的向量 (这里的两个 N ,为不重复单词的数量,即语料库的大小)。

即我们想要的想效果是:

  • 语料库
# 语料库 (这里是按照单词出现的顺序排序)
corpus = ['Today', 'is', 'Friday', 'it', 'Sunday', 'And', 'yesterday', 'Thursday', 'was', 'cloudy']
print(len(corpus))
  • 词袋模型表示
# 词袋模型表示 
import n
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值