14、文本处理与分析技术详解

文本处理与分析技术详解

1. 词干提取与词形还原

在自然语言处理中,词干提取和词形还原是两个重要的预处理步骤。词干提取是将单词的词尾去除,以得到词干。而词形还原则是更系统地将单词转换为其基本形式,它会考虑单词的形态分析、上下文和词性。

1.1 词干提取

使用 07/03_stemming.py 文件中的脚本,对输入文件的第一句应用Porter和Lancaster词干提取器。主要代码如下:

pst = PorterStemmer()
lst = LancasterStemmer()
print("Stemming results:")
for token in regexp_tokenize(sentences[0], pattern='\w+'):
    print(token, pst.stem(token), lst.stem(token))

输出结果如下:
| 原始单词 | Porter词干 | Lancaster词干 |
| — | — | — |
| We | We | we |
| are | are | ar |
| seeking | seek | seek |
| developers | develop | develop |
| with | with | with |
| demonstrable | demonstr | demonst |
| experience | experi | expery |

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值