文本处理:归一化、分词与分割技术详解
1. 文本归一化
在处理文本时,我们常常需要对其进行归一化操作,以简化后续的分析和处理。归一化的常见操作包括将文本转换为小写、词干提取和词形还原。
1.1 转换为小写
在早期的程序示例中,我们经常在处理文本中的单词之前将文本转换为小写。例如:
set(w.lower() for w in text)
通过使用 lower() 方法,我们将文本归一化为小写,从而忽略了 The 和 the 之间的大小写区别。
1.2 词干提取(Stemming)
词干提取是指去除单词的词缀,以得到词干的过程。NLTK 提供了几种现成的词干提取器,如 Porter 和 Lancaster 词干提取器。这些提取器遵循各自的规则来去除词缀。
以下是使用 Porter 和 Lancaster 词干提取器的示例:
import nltk
raw = """DENNIS: Listen, strange women lying in ponds distributing swords
... is no basis for a system of government. Supreme executive power derives from
... a mandate from the masses, not fro
文本处理核心技术解析
超级会员免费看
订阅专栏 解锁全文
40

被折叠的 条评论
为什么被折叠?



