python文本处理中文分词

      这里是王树义老师博客里看到的方法,感谢

  • 对文档(多个句子)进行中文分词:

      a_doc :

['孔丘开办私塾,学费要十条腊肉',

'听孔老二讲学的,都是贵族、官宦人家的子弟。',

'清代乾嘉学派考证儒学多为造假']
import jieba

def cut_words(a_list, a_function):
    
    return [a_function(x) for x in a_list]
a_list_seg = cut_words(a_doc,  lambda x: " ".join( jieba.cut(x) ))
['孔丘 开办 私塾 , 学费 要 十条 腊肉',
 '听 孔老二 讲学 的 , 都 是 贵族 、 官宦 人家 的 子弟 。',
 '清代 乾嘉学派 考证 儒学 多为 造假']

 

 

  • 对单个句子分词:

    a_sent :

'孔老二罪恶的一生'
import jieba

def cut_chinese_words(x):
    return " ".join( jieba.cut(x) )

    a_sent_seg 

'孔老二 罪恶 的 一生'

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值