jieba/pyhanlp分词简单操作

本文介绍并演示了使用jieba和pyhanlp进行中文分词的多种方法,包括精确模式、全模式、搜索引擎模式及词性标注,展示了如何通过自定义词典增强分词效果。

jieba/pyhanlp分词简单操作

content = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。"
content = jieba.cut(content, cut_all=False)
print('/'.join(content))


content2 = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。"
content2 = jieba.cut(content2, cut_all=True)
print('/'.join(content2))

content3 = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。"
content3 = jieba.cut_for_search(content3)
print('/'.join(content3))

content4 = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。"
content4 = jieba.lcut(content4, cut_all=False)
print(content4)


import jieba.posseg as psg
content5 = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。"
content5 = psg.lcut(content5)
print([(x.word,x.flag) for x in content5])

from collections import Counter
top5 = Counter(content5).most_common(4)
print(top5)

txt = "铁甲网是中国最大的工程机械交易平台。"
jieba.add_word('铁甲网')
print(jieba.lcut(txt))



from pyhanlp import *
content6 = '现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。'
print(HanLP.segment(content6))

txt = "铁甲网是中国最大的工程机械交易平台。"
CustomDictionary.add('铁甲网')
CustomDictionary.insert('机械工程', 'nz 1024')
CustomDictionary.add('交易平台', 'nz 1024 n 1')
print(HanLP.segment(txt))
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值