python文本处理中文分词

Arms206

于 2021-04-20 10:51:14 发布

阅读量1k

点赞数

分类专栏： python文本处理

本文链接：https://blog.youkuaiyun.com/sdaujz/article/details/115896357

版权

7 篇文章

订阅专栏

这里是王树义老师博客里看到的方法，感谢

a_doc :

['孔丘开办私塾，学费要十条腊肉',

'听孔老二讲学的，都是贵族、官宦人家的子弟。',

'清代乾嘉学派考证儒学多为造假']

import jieba

def cut_words(a_list, a_function):
    
    return [a_function(x) for x in a_list]

a_list_seg = cut_words(a_doc,  lambda x: " ".join( jieba.cut(x) ))

['孔丘 开办 私塾 ， 学费 要 十条 腊肉',
 '听 孔老二 讲学 的 ， 都 是 贵族 、 官宦 人家 的 子弟 。',
 '清代 乾嘉学派 考证 儒学 多为 造假']

a_sent :

'孔老二罪恶的一生'

import jieba

def cut_chinese_words(x):
    return " ".join( jieba.cut(x) )

a_sent_seg

'孔老二 罪恶 的 一生'

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。