Orange3实战教程:文本挖掘---词袋模型

词袋模型

从输入的语料库中生成词袋。

输入

  • 语料库:一组文档的集合。

输出

  • 语料库:附加了词袋特征的语料库。

词袋模型创建一个包含每个数据实例(文档)词频的语料库。词频可以是绝对计数、二进制(是否出现)或次线性(词频的对数)。词袋模型通常与词富集结合使用,也可用于预测建模。

词袋模型示意图

  1. 词袋模型参数
    • 词频计算方式:
      • 计数:单词在文档中出现的次数。
      • 二进制:单词是否在文档中出现。
      • 次线性:词频(计数)的对数。
    • 文档频率计算方式:
      • (无)
      • IDF:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

err2008

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值