NLP之词袋模型一

最新推荐文章于 2025-01-29 22:19:52 发布

原创

最新推荐文章于 2025-01-29 22:19:52 发布 · 1.6k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文介绍了词袋模型的基本流程，包括获取全部文本、提取单词生成词袋以及词向量表达。词袋模型旨在将文本转化为数值型数据，便于机器学习使用，但忽略了文本的结构和顺序。通过举例《双城记》的片段，展示了如何统计单词出现次数来构建词向量。

声明：参考A Gentle Introduction to the Bag-of-Words Model

词袋模型

目的：将不定长的文本型数据转化为定长的数值型数据，以便用作机器学习模型的输入。
用处：常用于文本建模和分类。
优点：简单，易实现。
缺点：不能考虑文本的结构和顺序。

基本流程

1. 获取全部文本

以《双城记》中的一段话为例：

It was the best of times,
it was the worst of times,
it was the age of wisdom,
it was the age of foolishness,

2. 提取所有单词，生成词袋

3. 词向量表达

词袋中的单词与词向量中的值一一有序对应。

若单词在当前文本中出现了0词，则词向量中的值为0
若单词在当前文本中出现了1次，则词向量中的值为1
若单词在当前文本中出现了2词，则词向量中的值为2
…
若单词在当前文本中出现了n词，则词向量中的值为n

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。