13、文本处理:归一化、分词、分割技术详解

文本处理:归一化、分词、分割技术详解

1. 文本归一化

在处理文本时,归一化是一个重要的步骤。它可以帮助我们忽略一些无关紧要的差异,使文本处理更加高效。常见的归一化操作包括转换为小写、词干提取和词形还原。

1.1 转换为小写

在之前的程序示例中,我们经常在处理文本之前将其转换为小写。例如,使用 set(w.lower() for w in text) 可以将文本中的所有单词转换为小写,从而忽略大小写的差异,如 The the 被视为相同的单词。

raw = """DENNIS: Listen, strange women lying in ponds distributing swords
is no basis for a system of government.  Supreme executive power derives from
a mandate from the masses, not from some farcical aquatic ceremony."""
tokens = nltk.word_tokenize(raw)
1.2 词干提取(Stemming)

词干提取是指去除单词的词缀,得到词干的过程。NLTK 提供了几种现成的词干提取器,如 Porter 词干提取器和 Lancaster 词干提取器。

porter = nltk.Po
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值