13、文本处理：归一化、分词、分割技术详解

最新推荐文章于 2025-11-11 19:52:47 发布

echo99

最新推荐文章于 2025-11-11 19:52:47 发布

阅读量40

点赞数

CC 4.0 BY-SA版权

分类专栏： Python与自然语言处理文章标签：文本归一化词干提取词形还原

本文链接：https://blog.youkuaiyun.com/echo99/article/details/155062798

Python与自然语言处理专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

文本处理：归一化、分词、分割技术详解

1. 文本归一化

在处理文本时，归一化是一个重要的步骤。它可以帮助我们忽略一些无关紧要的差异，使文本处理更加高效。常见的归一化操作包括转换为小写、词干提取和词形还原。

1.1 转换为小写

在之前的程序示例中，我们经常在处理文本之前将其转换为小写。例如，使用 set(w.lower() for w in text) 可以将文本中的所有单词转换为小写，从而忽略大小写的差异，如 The 和 the 被视为相同的单词。

raw = """DENNIS: Listen, strange women lying in ponds distributing swords
is no basis for a system of government.  Supreme executive power derives from
a mandate from the masses, not from some farcical aquatic ceremony."""
tokens = nltk.word_tokenize(raw)