如何高效剔除jieba分词中的标点符号和其他特殊字符

最新推荐文章于 2023-10-05 23:27:23 发布

原创最新推荐文章于 2023-10-05 23:27:23 发布 · 1.2w 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原创_感言专栏收录该内容

7 篇文章

订阅专栏

本文探讨了中文分词时遇到的两大难题：如何有效处理常用词及标点符号。针对这些问题，文章提供了实用解决方案，包括使用停用词字典过滤常用词，以及利用正则表达式剔除标点符号，确保分词结果的纯净度。

关于分词有两个令人头痛的问题：一个是常用词，一个是标点符号。
如果使用jieba分词的，那么这两种‘符号’都会混杂在我们的结果中。
常用词可以使用停用词字典。而标点符号可以使用正则剔除，具体如下：

...
text = re.sub('\W*', '', file.readlines())
word_list = jieba.cut(text)
...

注：如果文件很大时，建议按行读取，逐行分词。

评论 2

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。