三、机器学习基础知识：Python常用机器学习库（中文文本分析相关库）-优快云博客

文章目录

1、Jieba库
2、WordCloud库
- 2.1 常见参数
- 2.2 词云绘制

文本分析是指对文本的表示及其特征的提取，它把从文本中提取出来的特征词进行量化来表示文本信息，经常被应用到文本挖掘以及信息检索的过程当中。

1、Jieba库

在自然语言处理过程中，为了能更好地处理句子，往往需要把句子拆分成一个一个的词语，这样能更好地分析句子的特性，这个过程就称为分词。由于中文句子不像英文那样天然自带分属，并且存在各种各样的词组，从而使中文分词具有一定的难度。Jieba 是一个Python 语言实现的中文分词组件，在中文分词界非常出名，支持简体、繁体中文，高级用户还可以加入自定义词典以提高分词的准确率，其应用范围较广，不仅能分词，还提供关键词提取和词性标注等功能。
Jieba库的调用需要使用自动安装命令 pip install jieba进行安装，之后使用代码import jieba 引入即可。

1.1 主要函数

函数名	作用
jieba.cut(s)	精确模式，返回一个可迭代的数据类型
jieba.cut(s.cut_all=True)	全模式，输出文本s中的所有可能单词
jieba.cut_for_search(s)	搜索引擎模式，适合搜索引擎建立索引的分词结果
jieba.lcut(s)	精确模式，返回一个列表类型
jieba.lcut(s,cut_all=True)	全模式，返回一个列表类型
jieba.lcut_for_search(s)	搜索引擎模式，返回一个列表类型
jieba.add_word(w)	向分词词典中增加新词w

精确分词实例：

import jieba
s = "我喜欢在图书馆学习"
for x in jieba.cut(s):  #jieba.cut返回一个可迭代类型
    print(x,end=' ')
jieba.lcut(s)

在这里插入图片描述

全模式分词实例：

import jieba
s = "我喜欢在图书馆学习"
for x in jieba.cut(s,cut_all=True): 
    print(x,end=' ')
jieba