文本处理:归一化、分词、分割技术详解
1. 文本归一化
在处理文本时,归一化是一个重要的步骤。它可以帮助我们忽略一些无关紧要的差异,使文本处理更加高效。常见的归一化操作包括转换为小写、词干提取和词形还原。
1.1 转换为小写
在之前的程序示例中,我们经常在处理文本之前将其转换为小写。例如,使用 set(w.lower() for w in text) 可以将文本中的所有单词转换为小写,从而忽略大小写的差异,如 The 和 the 被视为相同的单词。
raw = """DENNIS: Listen, strange women lying in ponds distributing swords
is no basis for a system of government. Supreme executive power derives from
a mandate from the masses, not from some farcical aquatic ceremony."""
tokens = nltk.word_tokenize(raw)
1.2 词干提取(Stemming)
词干提取是指去除单词的词缀,得到词干的过程。NLTK 提供了几种现成的词干提取器,如 Porter 词干提取器和 Lancaster 词干提取器。
porter = nltk.Po
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



