jieba分词

最新推荐文章于 2024-09-10 20:57:06 发布

原创最新推荐文章于 2024-09-10 20:57:06 发布 · 272 阅读

0 ·

CC 4.0 BY-SA版权

本文详细介绍了jieba分词库的使用方法，包括分词模式、自定义词典的加载及参数设置。涵盖全模式、精确模式、搜索引擎模式和新词识别等功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述报错的原因是：跟当前文件名冲突，修改一下文件名就可以了。
修改后import还是报错，改正办法是在anaconda中安装。

主要功能
一、分词

jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型
jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8
在这里插入图片描述输出:

 【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

 【精确模式】: 我/ 来到/ 北京/ 清华大学

 【新词识别】：他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

 【搜索引擎模式】： 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

打开源码可以看到HMM参数默认是True。
在这里插入图片描述

jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

二、添加自定义词典
1、载入词典
开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率
用法： jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径
词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。
词频省略时使用自动计算的能保证分出该词的词频。
python中字典的使用：
dic.get(k)
获取字典中指定键的值，如果k不属于字典中的键，则返回None。注意：相当于dic[k],但是dic[k]如果k不属于字典中的键，则报出异常
dit.get(k,d)方法，如果k属于字典中的键，则返回对应的值，否则，将往字典中插入键值

Python sorted() 函数：http://www.runoob.com/python/python-func-sorted.html
Python标准库：内置函数open：https://blog.youkuaiyun.com/caimouse/article/details/43370101
python中的glob应用：https://blog.youkuaiyun.com/u010472607/article/details/76857493/