文本分词并统计出现次数最高的几个词Python

小游园

于 2019-12-10 09:59:19 发布

阅读量5.1k

点赞数 7

CC 4.0 BY-SA版权

分类专栏：智能钻完井 Python在石油工程中应用油田大数据

本文链接：https://blog.youkuaiyun.com/s0302017/article/details/103469637

本文介绍了如何使用Python进行文本数据分析的词频统计。通过读取文本文件，进行分词、去除停用词，最终找出出现次数最多的N个词。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、问题描述

在做文本数据分析时，经常遇到需要做词频分析，而做词频分析又经常需要统计出现次数最高的几个词，下面代码给出了基于Python的文本数据统计，基本流程为：首先读取一个文本文件，之后进行分词，再去除停用词，最后统计出现次数最多的N个词。

二、Python代码

import jieba
from collections import Counter
############################################
# 功能：获取文本文件内容
# 输入参数
#       filename：待读取的文本文件名
# 返回值
#       txtConts：读取的文本内容
def GetTxtDataFromFile( filename ):
    with open( filename, mode = 'r' ) as fp:
        txtConts = fp.read()
        return txtConts
############################################
# 功能：分词，并去除分词结果中的停用词
# 输入参数
#       txtConts：原始文本
#       stopWord：停用词
# 返回值
#       cutList：去除停用词之后的分词结果
def CutWithStopWord( txtConts, stopWord ):
    cutList = []
    strList = jieba.cut( txtConts )
    
    for word in strList:
        if not( word in stopWord ) and len( word ) > 1: