文本处理:归一化、分词与分割技术详解
1. 文本归一化
在处理文本时,我们常常需要对文本进行归一化操作,以减少文本的多样性,使后续处理更加高效。常见的归一化操作包括转换为小写、词干提取和词形还原。
1.1 转换为小写
将文本中的所有单词转换为小写是一种简单而常见的归一化方法。这样可以忽略大小写的差异,例如 “The” 和 “the” 会被视为相同的单词。示例代码如下:
raw = """DENNIS: Listen, strange women lying in ponds distributing swords
... is no basis for a system of government. Supreme executive power derives from
... a mandate from the masses, not from some farcical aquatic ceremony."""
tokens = [w.lower() for w in raw.split()]
1.2 词干提取
词干提取是去除单词的词缀,得到词干的过程。NLTK 提供了几种现成的词干提取器,如 Porter 和 Lancaster 词干提取器。它们遵循各自的规则来去除词缀。
import nltk
porter = nltk.PorterStemmer()
lancaster = nltk.LancasterStemmer()
tokens =
超级会员免费看
订阅专栏 解锁全文
665

被折叠的 条评论
为什么被折叠?



