Python 结巴(jieba)库之花拳绣腿

本文介绍了结巴(jieba)库,一个由Sun Junyi开发的流行的中文分词开源库。jieba提供精确、搜索引擎、全和paddle四种分词模式,并支持关键词抽取和词频统计。安装教程分别给出Windows和Linux环境下Python不同版本的安装方法。

目录

1、安装

2、常用函数


       结巴(jieba)库是百度工程师 Sun Junyi 开发的一个开源库,在 GitHub 上很受欢迎。

       作为优秀的中文分词第三方库, jieba 最流行的应用是分词,除此之外,还可以做关键词抽取、词频统计等。

        jieba 支持四种分词模式:

  • 精确模式:试图将句子最精确地切开,不存在冗余单词;
  • 搜索引擎模式:在精确模式基础上,对长词再次切分,提高召回率,适用于搜索引擎分词;
  • 全模式:把句子中所有的可以成词的词语都扫描出来,有冗余;
  • paddle 模式,利用 PaddlePaddle 深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。

1、安装

        windows语境下,调用控制台,输入命令行:

pip install jieba

        Linux语境下,则需针对python的不同版本(2.x或3.x),使用不同的安装命令:

pip3 install jieba
### jieba介绍 jiebaPython中一个重要的中文分词。它支持三种分词模式:精确模式、全模式和搜索引擎模式。精确模式试图将句子最精确地切开,适合文本分析;全模式把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 ### jieba的安装 使用pip工具可以方便地下载和安装jieba,命令如下: ```bash pip install jieba ``` ### jieba的使用方法 #### 1. 精确模式 精确模式会将句子进行最精确的分词,返回一个生成器对象。 ```python import jieba text = "我爱自然语言处理" seg_list = jieba.cut(text, cut_all=False) print("/ ".join(seg_list)) ``` #### 2. 全模式 全模式会将句子中所有可能的词语都扫描出来。 ```python import jieba text = "我爱自然语言处理" seg_list = jieba.cut(text, cut_all=True) print("/ ".join(seg_list)) ``` #### 3. 搜索引擎模式 搜索引擎模式在精确模式的基础上,对长词再次切分。 ```python import jieba text = "我爱自然语言处理" seg_list = jieba.cut_for_search(text) print("/ ".join(seg_list)) ``` ### 案例 #### 文本关键词提取 可以结合jieba和`jieba.analyse`模块进行关键词提取。 ```python import jieba import jieba.analyse text = "自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。" keywords = jieba.analyse.extract_tags(text, topK=3, withWeight=False) print(keywords) ``` #### 文本分类预处理 在文本分类任务中,需要对文本进行分词处理。 ```python import jieba texts = ["这是一个关于自然语言处理的文章", "体育赛事的新闻报道"] seg_texts = [] for text in texts: seg_list = jieba.cut(text) seg_texts.append(" ".join(seg_list)) print(seg_texts) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

香饽々

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值