Python：统计文本文件中出现最多的单词（含完整源码）

最新推荐文章于 2023-11-29 18:30:00 发布

code_welike

最新推荐文章于 2023-11-29 18:30:00 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

文章标签： python 开发语言

本文链接：https://blog.youkuaiyun.com/code_welike/article/details/130874412

Python 专栏收录该内容

418 篇文章 ¥99.90 ¥299.90

订阅专栏

本文介绍了如何使用Python对文本文件进行处理，统计出现最频繁的单词。通过读取文件，利用re模块处理非字母字符，用Counter进行计数，最后输出高频单词。

Python：统计文本文件中出现最多的单词（含完整源码）

在日常工作和学习中，我们经常需要对文本文件进行处理，例如统计其中出现频率最高的单词。Python 作为一种功能强大的编程语言，提供了丰富的工具库和语法，便于实现此类文本处理操作。下面就来介绍一下如何使用 Python 统计文本文件中出现最多的单词。

准备工作

首先，我们需要准备一份文本文件作为输入，这里我们以《红楼梦》为例。可以从网上下载该小说的 txt 格式文本，并保存到本地，比如在代码运行的同一目录下，命名为 “hongloumeng.txt”。

实现步骤

第一步，读取文本文件内容并转换为字符串格式。

with open("hongloumeng.txt", "r", encoding="utf-8") as f:
    text = f.read()

第二步，利用 re 模块中的 sub() 方法将字符串中的非字母字符替换为空格，并将字符串转换为单词列表。

import re
words = re.sub(r"[^a-zA-Z\s]", "", text).lower().split()

第三步，使用 Counter 对象进行单词计数，并取出出现频率前 N 的单词及其出现次数。

from collections import Counter
word_freq = Counter(words)
top_

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

code_welike

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

文本分词并统计出现次数最高的几个词Python

s0302017的博客

12-10

5153

一、问题描述在做文本数据分析时，经常遇到需要做词频分析，而做词频分析又经常需要统计出现次数最高的几个词，下面代码给出了基于Python的文本数据统计，基本流程为：首先读取一个文本文件，之后进行分词，再去除停用词，最后统计出现次数最多的N个词。二、Python代码 import jieba from collections import Counter #################...

用python统计文本里的单词出现次数最多的10个

测试人生

09-05

1万+

python入门教程至此已学习完毕，下面是结业脚本：（一部分是书里的源码，一部分是自己加的练习题） #写一个文本统计的脚本：计算并打印有关文本文件的统计数据，包括文件里包含多少个字符、行、单词数，以及前10个出现次数最多的单词按顺序排列 import time keep=['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p

参与评论您还未登录，请先登录后发表或查看评论

python统计一个文件下指定文件的大小以及得到最大文件里面出现次数最多的单词

06-11

python统计一个文件夹下指定文件的大小并获得这个文件下所有文件大小的总和以及得到最大文件里面出现次数最多的单词。萌新有错的地方请多指教

Python统计单词出现的次数

09-20

最近经理交给我一项任务，统计一个文件中每个单词出现的次数，列出出现频率最多的5个单词。本文给大家带来了python 统计单词次数的思路解析，需要的朋友参考下吧

python之统计文本中出现最多的单词

qq_43527713的博客

03-07

1万+

在很多情况下，会遇到这样的问题：对于一篇给定文章，希望统计其中多次出现的词语，进而概要分析文章的内容。这个问题的解决可用于对网络信息进行自动检索和归档。 n 在信息爆炸时代，这种归档或分类十分有必要。这就是“词频统计”问题。说明：本文设txt为字符串问题：文本词频统计 -统计一篇英文词频方法：第一步：分解并提取英文文章的单词第二步：对每个单词进行计数第三步：对单词的统计值从高到低进行排序具体实现第一步：分解并提取文章中的单词通过txt.lower()函数将字母变成小写，排除原文

Python第三次作业：读取文本文件中出现频次最高的词语

mynameispy的博客

04-12

1166

第三次作业...

【Python实战（含源码）】：Python文本数据可视化之“词云”图.zip

最新发布

06-12

2. 词频统计：对处理后的文本进行词频分析，统计各个单词出现的次数。这一步骤可以使用Python的collections模块中的Counter类来方便地完成。 3. 构建词云对象：使用WordCloud库提供的WordCloud类创建词云对象，这一...

基于Python的12年36套CET4四级真题单词频率统计设计源码

10-04

其中包括多个Python源文件，这些文件实现了对CET4真题中单词的读取、处理和频率统计的全过程。在文件列表中，我们可以看到如analysis_book.py、translate.py、settings.py等关键模块，它们各自承担着不同的功能角色...

毕业设计旅游网站源码-text_scanner:扫描和统计目录中的文本文件，包括存档文件

06-06

"text_scanner:扫描和统计目录中的文本文件，包括存档文件" 描述的是一个名为 "text_scanner" 的工具或模块，它的主要功能是对指定目录下的文本文件进行扫描，并对这些文件进行统计分析。这里的“存档文件”可能指的...

Python神技：轻松找出文本文件最热门单词

涛哥聊Python

11-29

1224

在这篇文章中，我们分享了使用Python程序查找文本文件中出现频率最高的单词的全过程。从文件读取和文本预处理开始，逐步演示了单词频率统计、性能优化、处理大型文本文件和数据可视化等关键步骤。首先，通过正确的文件读取和文本预处理，确保从文本中提取准确的单词信息。接着，通过Counter类，计算了单词的频率。在性能优化方面，探讨了生成器表达式、快速删除标点符号和并行处理等技巧，以提高程序效率。对于大型文本文件，引入了文件流和逐行读取的概念，有效避免了内存消耗问题。

python统计出现次数最多的词语_python统计前十出现最多的词

weixin_39985820的博客

12-05

4088

一、描述这是一道python面试题：“一个可读文件，有一万行，一行只有一个单词，单词可以重复的，求出这一万行中出现频繁次数最多的前10个单词”二、思路先读取文件变为列表，再用集合去重得到一个参照的列表，逆排序取前10(最大即最多的的10个元素)，再用参照列表中的每个元素从文件中去统计，把参照列表中的元素作为键，统计到的结果为值，放入字典，打印出来。三、代码#!/usr/bin/python#cod...

【python】统计文本中出现最多次的单词

Azarath Metrion Zinthos

03-18

4271

题目来自 hacker.org 中的 Challenge '3280' [Coding] 。要求找出 RFC 3280 中出现次数最多的长度为9的单词。将 RFC 3280 的文本并保存到本地后用如下代码进行处理。 ---- import re text = open("in.txt",'r').read() words = re.split('[^a-zA-Z]',text) di

python编程：统计文件中出现次数最多的前10个词，并按出现次数排列它们

热门推荐

果冻先生的专栏

10-27

1万+

python编程：统计文件中出现次数最多的前10个词，并按出现次数排列它们。下面我编写的这个程序可以用作：统计文件中所有的字符数、行数、出现次数最多的单词。 # -*- coding:utf-8 -*- ####首先把不相关的字符都去了，比如去除标点符号等 def normallize(s): result = '' for w in s.lower():

python 实现输入一段英文，找出其中出现次数最多的单词，打印出出现最多的单词和次数

KevinSilent的博客

04-29

4668

代码如下： import re st = input('请输入内容:') words = re.findall('[a-zA-Z]+', st) words1=list(set(words)) word_dict={} for key in words1: word_dict[key] = 0 for key in word_dict: for word in words: if key == word: word_dict[key] += 1

python统计出现次数最多的词语_python编程：统计文件中出现次数最多的前10个词，并按出现次数排列它们...

weixin_34530398的博客

02-04

2874

python编程：统计文件中出现次数最多的前10个词，并按出现次数排列它们。下面我编写的这个程序可以用作：统计文件中所有的字符数、行数、出现次数最多的单词。# -*- coding:utf-8 -*-####首先把不相关的字符都去了，比如去除标点符号等def normallize(s):result = ''for w in s.lower():if w in keep:result += wre...

python统计文件中出现次数最多的词并排列

qq_41814556的博客

09-12

6463

统计重复项出现次数：方法一： List = [1,2,3,4,5,3,2,1,4,5,6,4,2,3,4,6,2,2] List_set = set(List) #List_set是另外一个列表，里面的内容是List里面的无重复项 for item in List_set: print("the %d has found %d" %(item,List.count(item)...

python——统计一个文本中单词频次最高的10个单词

python全栈

08-26

3596

【代码】python——统计一个文本中单词频次最高的10个单词。

python出现频率最高的单词_python 找出一篇文章中出现次数最多的10个单词

weixin_29607637的博客

02-10

3457

#!/usr/bin/python#Filename: readlinepy.pyimport sys,reurldir=r"C:\python27\a.txt"distone={}numTen=[]#先文档变成一个字典f=open(urldir,‘r‘)for line in f.readlines():#去掉非字符的符号line = re.sub(‘\W‘," ",line)lineone=l...

python-简单爬虫及相关数据处理（统计出文章出现次数最多的50个词）

bensonrachel的博客

05-18

4719

这次爬取了笑傲江湖这本小说；网站是：'http://www.jinyongwang.com/xiao/'+str(696+i)+'.html'考虑到每一章的网址如上递增，所以使用一个循环来遍历网址进行爬取。然后找出文章的标签：如图：是<p>,</p>所以：代码如下：然后爬取之后，存在文档里，进行处理。我用的是nlpir的分词系统：作了处理之后，把所有词存进一list里面。之...

Python实现文件中唯一单词提取的源码解析

从标题和描述一致的内容可以看出，该资源的重点在于通过Python编程技术处理文本文件，识别并提取其中出现过的所有“唯一单词”（即不重复的单词），从而帮助学习者理解文本处理、字符串操作、文件读写以及数据结构...