基于jieba库实现中文词频统计

最新推荐文章于 2022-06-12 00:00:49 发布

blue_lll

最新推荐文章于 2022-06-12 00:00:49 发布

阅读量2.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python

本文链接：https://blog.youkuaiyun.com/blue_lll/article/details/94436977

该博客介绍了如何利用jieba库进行中文词频统计。通过安装jieba，使用精确模式分词，并借助关键词提取功能，展示如何从文本文件中获取高频率词汇。同时，文章还提及了jieba的并行分词模式，以提高处理速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于jieba库实现中文词频统计

安装
python的工具，安装当然是使用pip安装了。

pip install jieba

使用
先看一个小例子，下面的代码是从一个文本文件中分词并统计出现频率最高的10个单词，并打印到控制台。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import jieba
import jieba.analyse
import codecs
import re
from collections import Counter


class WordCounter(object):

    def count_from_file(self, file, top_limit=0):
        with codecs.open(file, 'r', 'utf-8') as f:
            content = f.read()
            content = re.sub(r'\s+', r' ', content)
            content = re.sub(r'\.+', r' ', content)
            return self.count_from_str(content, top_limit=top_limit)

    def count_from_str(self, content, top_limit=0):
        if top_limit <= 0:
            top_limit = 100
        tags = jieba.analyse.extract_tags(content, topK=100)

        words = jieba.cut(content)
        counter = Counter()
        for word in words:
            if word in tags:
                counter[word] += 1

        return co