NLTK 自然语言处理读书笔记（3.2）文本预处理原理

最新推荐文章于 2025-11-17 14:37:41 发布

原创最新推荐文章于 2025-11-17 14:37:41 发布 · 387 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

NLTK 专栏收录该内容

17 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

文章目录

正则化表达
文本预处理

正则化表达

文本预处理

噪声移除

社交媒体里的实体（如@符号，#标签等）
删除URL或链接
删除HTML、XML等标记和元数据

将大写全部转为小写

删除停顿词

一般是在语言里常用的单词，如：is, am, the, of, in 等等

词干提取（stemming）

词干提取是删除词缀的过程（包括前缀、后缀、中缀、环缀），从而得到单词的词干。
在这里插入图片描述

词形还原（lemmatizatiion）

词形还原与词干提取相关，不同的是，词形还原能够捕捉基于词根的规范单词形式。
在这里插入图片描述

其他

对象标准化：文本数据经常包含不在任何标准词典里出现的词汇或短语。搜索引擎和模型都识别不了这些。比如，首字母缩略词、词汇附加标签和通俗俚语。
将数字换成对应的文字或者删除
语法检查
拼写纠正
等等

❤一条简单的预处理流水线

分词（→词性标注）→词干提取/词性还原→删除停用词→文本列表
在这里插入图片描述

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。