Python 英文分词

最新推荐文章于 2022-04-21 17:10:42 发布

原创最新推荐文章于 2022-04-21 17:10:42 发布 · 6.5k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #自然语言处理

Python 3.6.1 同时被 2 个专栏收录

9 篇文章

订阅专栏

自然语言处理

4 篇文章

订阅专栏

1. 按空格/符号分词

pattern = r'''(?x)    # set flag to allow verbose regexps
     ([A-Z]\.)+        # abbreviations, e.g. U.S.A.
   | \w+(-\w+)*        # words with optional internal hyphens
   | \$?\d+(\.\d+)?%?  # currency and percentages, e.g. $12.40, 82%
   | \.\.\.            # ellipsis
   | [][.,;"'?():-_`]  # these are separate tokens
   '''
re.findall(pattern,text)

2. 排除stop word

stopword就是类似 a/an/and/are/then 的这类高频词，高频词会对基于词频的算分公式产生极大的干扰，所以需要过滤

3. 提取词干（Stemming）

Porter Stemmer

代码(python)：https://tartarus.org/martin/PorterStemmer/python.txt

简单词汇处理前后的对比：http://snowball.tartarus.org/algorithms/porter/diffs.txt

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。