词袋模型
从输入的语料库中生成词袋。
输入
- 语料库:一组文档的集合。
输出
- 语料库:附加了词袋特征的语料库。
词袋模型创建一个包含每个数据实例(文档)词频的语料库。词频可以是绝对计数、二进制(是否出现)或次线性(词频的对数)。词袋模型通常与词富集结合使用,也可用于预测建模。
- 词袋模型参数:
- 词频计算方式:
- 计数:单词在文档中出现的次数。
- 二进制:单词是否在文档中出现。
- 次线性:词频(计数)的对数。
- 文档频率计算方式:
- (无)
- IDF:
- 词频计算方式:
从输入的语料库中生成词袋。
输入
输出
词袋模型创建一个包含每个数据实例(文档)词频的语料库。词频可以是绝对计数、二进制(是否出现)或次线性(词频的对数)。词袋模型通常与词富集结合使用,也可用于预测建模。