使用jieba库实现Python中文文本分词与词频统计的实战指南(转)

最新推荐文章于 2025-07-25 16:30:08 发布

转载最新推荐文章于 2025-07-25 16:30:08 发布 · 6 阅读

CC 4.0 BY-SA版权

原文链接：https://www.oryoy.com/news/shi-yong-jieba-ku-shi-xian-python-zhong-wen-wen-ben-fen-ci-yu-ci-pin-tong-ji-de-shi-zhan-zhi-nan.html

文章标签：

#python #分词工具 #jieba #统计

使用jieba库实现Python中文文本分词与词频统计的实战指南

引言

在当今大数据和人工智能飞速发展的时代，文本处理和自然语言处理（NLP）成为了不可或缺的技术。中文文本处理的一个重要环节就是分词，而jieba库作为Python中一款优秀的中文分词工具，因其高效、准确和易用性，受到了广泛的应用。本文将详细介绍如何使用jieba库进行中文文本分词和词频统计，并通过实例展示其强大功能。

一、jieba库简介

jieba是一款基于Python的中文分词库，它利用基于前缀词典的高效词图扫描算法，结合动态规划查找最大概率路径，实现中文文本的精确分词。jieba支持多种分词模式，包括精确模式、全模式和搜索引擎模式，并且允许用户自定义词典，以适应不同领域的分词需求。

二、安装jieba库

在使用jieba库之前，首先需要通过pip命令进行安装。打开终端或命令提示符，输入以下命令：

pip install jieba

等待安装完成后，即可在Python代码中导入并使用jieba库。

三、读取文本文件

假设我们有一个名为“华为笔记本.txt”的文本文件，首先需要读取文件内容。可以使用以下代码：

with open('华为笔记本.txt', 'r', encoding='utf-8') as file:
    text = file.read()

这里使用utf-8编码读取文件，以确保中文文本的正确解析。

四、使用jieba进行分词

jieba库提供了多种分词函数，这里我们使用lcut函数进行精确模式分词：

import jieba

words = jieba.lcut(text)

lcut函数会返回一个列表，其中包含了文本中所有的分词结果。

五、去重与词频统计

为了统计词频，我们首先需要对分词结果进行去重，并将结果存储在一个集合中：

unique_words = set(words)

接下来，创建一个空字典用于统计词频：

word_freq = {}
for word in words:
    if len(word) >= 2:  # 只统计长度大于等于2的词
        if word in word_freq:
            word_freq[word] += 1
        else:
            word_freq[word] = 1

六、排序与输出

将字典中的键值对转换为列表，并根据词频进行降序排序：

sorted_words = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)

最后，输出词频最高的前10个词及其出现次数：

for word, freq in sorted_words[:10]:
    print(f'{word}: {freq}')

七、完整代码示例

以下是整个过程的完整代码：

import jieba

# 读取文本文件
with open('华为笔记本.txt', 'r', encoding='utf-8') as file:
    text = file.read()

# 进行分词
words = jieba.lcut(text)

# 去重
unique_words = set(words)

# 词频统计
word_freq = {}
for word in words:
    if len(word) >= 2:
        if word in word_freq:
            word_freq[word] += 1
        else:
            word_freq[word] = 1

# 排序
sorted_words = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)

# 输出前10个高频词
for word, freq in sorted_words[:10]:
    print(f'{word}: {freq}')

八、进阶应用：生成词云图

为了更直观地展示词频分布，我们可以使用WordCloud库生成词云图。首先需要安装WordCloud库：

pip install wordcloud

然后，使用以下代码生成词云图：

from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 生成词云
wordcloud = WordCloud(font_path='simhei.ttf', background_color='white').generate_from_frequencies(word_freq)

# 显示词云图
plt.figure(figsize=(10, 8))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

# 保存词云图
wordcloud.to_file('wordcloud.png')

这里font_path参数需要指向一个有效的中文字体文件路径，以确保中文词云的显示效果。