文本处理与分析技术详解
1. 词干提取与词形还原
在自然语言处理中,词干提取和词形还原是两个重要的预处理步骤。词干提取是将单词的词尾去除,以得到词干。而词形还原则是更系统地将单词转换为其基本形式,它会考虑单词的形态分析、上下文和词性。
1.1 词干提取
使用 07/03_stemming.py 文件中的脚本,对输入文件的第一句应用Porter和Lancaster词干提取器。主要代码如下:
pst = PorterStemmer()
lst = LancasterStemmer()
print("Stemming results:")
for token in regexp_tokenize(sentences[0], pattern='\w+'):
print(token, pst.stem(token), lst.stem(token))
输出结果如下:
| 原始单词 | Porter词干 | Lancaster词干 |
| — | — | — |
| We | We | we |
| are | are | ar |
| seeking | seek | seek |
| developers | develop | develop |
| with | with | with |
| demonstrable | demonstr | demonst |
| experience | experi | expery |
超级会员免费看
订阅专栏 解锁全文
2917

被折叠的 条评论
为什么被折叠?



