import jieba
"""
精准模式分词:
试图及那个句子最精准的切开,适合文本分析
"""
strp = "科学家"
content = "我是谁我在那美丽你好这个东西是什么东西我怎么不知道这俄格东西是哪里的东西呢"
jieba.cut(strp,cut_all=False)
# 若需要直接返回列表内容,使用jieba.lcut即可
str_list = jieba.lcut(strp,cut_all = False)
print(str_list)
"""
全模式分词:
把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能消费歧义
"""
strp = "科学家"
jieba.cut(strp,cut_all=True)
str_list_02 = jieba.lcut(strp,cut_all = True)
print(str_list_02)
"""
搜素引擎模式分词:
在精准模式的基础上,对长词再次切分,提高召回率,适合用于搜素引擎分词
"""
jieba.cut_for_search(content)
str_list_03 = jieba.lcut_for_search(strp)
print(str_list_03)
"""
中文繁体分词:
针对中国香港,台湾地区的繁体文本进行分词
"""
content = "百論及十二門論選你们大日經選"
str_list_04 = jieba.lcut(content)
print(str_list_04)
"""
使用用户自定义词典:
添加自定义词典后,jieba能够准确识别词典中出现的词汇,提升整体的识别准确率,
词典格式:每一行分为三部分:词语,词频,词性,用空格隔开,顺序不可颠倒
云计算 5 n
大数据 1 nz
人工智能 5 eng
大雁塔 3 nz
生态湖 100
"""
jieba.load_userdict("./userdict.txt")
str_list_05 =jieba.lcut("在大雁塔北部的生态湖内召开人才技术学说会,会议纪要用人工智能把大数据技术在云计算上提高几个百分点")
print(str_list_05)
NLP------------结巴分词各种类型代码实操
最新推荐文章于 2024-11-27 19:30:00 发布