Python实现英文词频统计：以hamlet为例

最新推荐文章于 2025-01-21 18:55:55 发布

原创最新推荐文章于 2025-01-21 18:55:55 发布 · 2.2k 阅读

3 ·

CC 4.0 BY-SA版权

该博客展示了如何使用Python对《哈姆雷特》文本进行预处理，包括转换为小写和移除特殊字符，然后进行词频统计。前十大高频词汇为：the、and、to、of、i、a、you、my、hamlet、in。此处理对于文本分析和信息提取具有重要意义。

部署运行你感兴趣的模型镜像

#CalWordNum.py
def GetTxt():
    txt=open("hamlet.txt",'r').read()
    txt=txt.lower()
    for ch in "!'#$%&()*+,-./:'<=>?@[\\]^-‘{|}~":   #将特殊符号替换为空格
        txt=txt.replace(ch," ")
    return txt
 
hamlet=GetTxt()
words=hamlet.split()    #split返回列表类型
count={}    #创建字典
for word in words:
    count[word]=count.get(word,0)+1
items=list(count.items())   #转换成列表
items.sort(key=lambda x:x[-1],reverse=True)
for i in range(10):
    word,count=items[i]
    print("{0:<10}{1:>5}".format(word,count))

the        1143
and         966
to          762
of          669
i           629
a           546
you         544
my          514
hamlet      467
in          451

Hamlet.txt全文下载：https://python123.io/resources/pye/hamlet.txt

您可能感兴趣的与本文相关的镜像

Python3.9

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

allway2

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python英文文本词频统计,python英文文章词频统计

wenangou6

03-04

489

大家好，给大家分享一下利用python进行英文词频统计，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！首先这里打开文件的时候要注意文件的编码问题！！！这里需要把《哈莫雷特》中出现的次数最多的单词（前十）打印出来在英文中，不同的单词都是有明显的分隔的，有的是以空格分隔，有的是以逗号分隔......这里我们需要把不同的单词分隔出来，所以我们要把所有可以用来分隔单词的符号都转换成空格，这样我们在分隔不同的单词的时候就只需要按空格分隔就可以了。

Python 《Hamlet》哈姆雷特英文词频统计

热门推荐

烟敛寒林的博客

04-18

2万+

英文词频统计关键问题： 1、词语 -- 键 2、相同词语的累加 -- 值讨论：定义什么数据类型 -- 字典类型问题描述： I：文件的输入 P：采用字典类型的结构统计词语出现的频率 O：每个单词及单词出现的次数（要求输出前10个） IPO细化：第一步： (1) txt文件读取 -- txt.read("filename","r") (2) 文件大小写的转换 (3) 特殊字符(各种标点符号...

参与评论您还未登录，请先登录后发表或查看评论

python哈姆雷特词频统计_人生苦短我用Python——哈姆雷特词频统计

weixin_39678451的博客

11-20

2480

在本文中利用Python对Hamlet英文词频进行统计，我们解决该问题的基本流程应该如下：1、读取文件2、将所有英文字母变成小写3、根据标点符号，对!'#$%&()*+,-./:;?@[\\]^_‘{|}~等对单词进行分割，形成列表4、对每个单词进行计数f1 = open("hamlet.txt",encoding="utf-8")f2 = f1.read()text = f2.lower()st...

python学习文本词频统计hamlet三国演义

04-10

python学习文本词频统计hamlet.txt三国演义.txt

python:Hamlet英文词频统计

weixin_30603633的博客

02-25

2248

1 #CalHamletV1.py 2 def getText(): #定义函数读取文件 3 txt = open("hamlet.txt","r").read() 4 txt = txt.lower() #将所有字符转换为小写 5 fo...

Python文本词频统计 -- Hamlet

qq_45959128的博客

11-11

976

(1) 单词不区分大小写，即单词的大小写或组合形式一样；请统计hamlet.txt文件中出现的英文单词情况，统计并输出出现最多的5个单词，注意：‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬。

利用Python进行文本词频统计 -- Hamlet

Python的学习之路

01-21

386

(1) 单词不区分大小写，即单词的大小写或组合形式一样；文本词频统计：：一篇文章，出现了哪些词？(3) 输出10个单词，每个单词一行；

Python练习题15：文本词频统计：英文版哈姆雷特

qq_38958704的博客

11-07

5655

python哈姆雷特词频统计_Python练习题15：文本词频统计：英文版哈姆雷特

weixin_29300931的博客

02-20

2502

Python入门基础超详细的Hamlet词频统计

qq_56656022的博客

02-16

7180

程序分析 1.我们准备一个hamlet.txt文件放入到我们的项目中，内容在下方链接： https://python123.io/resources/pye/hamlet.txt 2.在自定义函数中以只读方式打开，并使用字符替换函数replace()将特殊字符替换成空格。 3.将数据已空格为标志进行切割成列表形式，遍历列表将单词计数存入字典中。这里我们要使用字典中的get()函数，计数时分两种情况：(1)如果当前单词不在字典中则g...

python哈姆雷特词频统计代码_Hamlet（英文）词频统计

weixin_39600885的博客

12-06

3719

def getText(): #定义一个函数txt=open("hamlet.txt","r").read() # 打开一个文件txt=txt.lower() #将文本所有字符转为小写for ch in '|"#@!$%^*()\/?~`,.;:[]{}_-=+<>':txt=txt.replace(ch," ") #将所有的特殊符号替换为空格return txt #最终...

python英文文本词频统计_python第五天：Hamlet英文词频统计

weixin_39670441的博客

11-25

584

1 #CalHamletV1.py2 def getText(): #定义函数读取文件3 txt = open("hamlet.txt","r").read()4 txt = txt.lower() #将所有字符转换为小写5 for ch in '!@#$%^&*(_)-+=[...

Python英文词频统计（哈姆雷特）程序示例

永远是少年

12-13

1万+

python 统计哈姆雷特词汇频率

Rao的博客

06-16

1万+

基础语法解决------》哈姆雷特词频统计''' Text word frequency statistics use wordcloud ''' import wordcloud import time def file_change(path="../use_data/hamlet.txt"): '''处理特殊字符和大写''' with open(path) as f...

Python——实现英文词频统计：以hamlet为例

An_xiaotaiyang的博客

06-23

3326

中国大学MOOC 嵩天老师在课堂上讲解的，附上代码和详细注释。代码和文本文件需要放到同一目录下。 def getText(): txt = open("hamlet.txt","r").read() txt = txt.lower() # 将所有字符转换为小写 for ch in '!@#$%^&*()":;?,.><+=-_{}[\\]\/|`~': #将所有特殊符号用空格替代 txt = txt.replace(ch," ") .

python哈姆雷特词频统计_【Python】词频统计

weixin_39610722的博客

11-25

888

需求：一篇文章，出现了哪些词？哪些词出现得最多？英文文本词频统计统计英文词频分为两步：文本去噪及归一化使用字典表达词频代码：#CalHamletV1.pydef getText():txt = open("hamlet.txt", "r").read()txt = txt.lower()for ch in '!"#$%&()*+,-./:;?@[\\]^_‘{|}~':txt = txt.repl...

hamlet词频统计

Mzjuser的博客

09-08

3009

题目来源：Python语言程序设计授课老师：嵩天、黄天羽、礼欣 hamlet小说下载路径:https://python123.io/resources/pye/hamlet.txt 代码 def getText(path): ''' 根据路径获取文件的内容,并将文件中的字母转换成小写同时用空格代替特殊的字符 ''' text ...

python哈姆雷特词频统计

weixin_33734785的博客

02-12

7666

2019独角兽企业重金招聘Python工程师标准>>> ...

python123 实例10：文本词频统计 -- Hamlet

最新发布

04-02

<think>嗯，用户的问题是关于如何用Python对《哈姆雷特》进行词频统计。我需要根据提供的引用内容来构建一个清晰的步骤说明和示例代码。首先，用户可能对文本处理的基本流程不太清楚，所以得先分解步骤：获取文本、预处理、统计词频、排序输出。用户提供的引用中，引用2详细描述了处理步骤，包括读取文件、处理特殊符号、归一化、分割单词和使用字典统计。引用4提到了使用counts.get(word,0)+1来更新词频，这点很重要，需要包含在代码示例中。另外，用户提到需要处理标点和大写，所以预处理部分需要包括转换为小写和替换标点为空格。可能需要注意的问题：用户可能不知道如何处理文件读取时的编码问题，所以示例代码中最好指定编码方式，比如'utf-8'。此外，分割单词时，如果文本中有连字符或者缩略词，简单的split()可能不够，但根据引用中的方法，用空格替换标点后split应该是可行的。示例代码的结构要清晰，每个步骤加上注释。比如，读取文件、预处理文本、统计词频、排序和输出结果。同时，要避免使用高级库，按照引用3中的要求，只能使用字典，不能使用collections.Counter。最后，生成的相关问题需要与词频统计相关，比如预处理的注意事项、排除停用词的方法、结果展示方式等。确保问题覆盖用户可能遇到的后续疑问。</think>### Python实现《哈姆雷特》词频统计步骤 #### 1. 文本获取与读取从Gutenberg项目下载《哈姆雷特》英文文本[^3]，保存为`hamlet.txt`。使用Python内置函数读取文件内容： ```python with open('hamlet.txt', 'r', encoding='utf-8') as f: text = f.read() ``` #### 2. 文本预处理 - **符号过滤**：将所有非字母字符替换为空格 - **归一化处理**：统一转为小写字母 ```python text = text.lower() for char in '!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~': text = text.replace(char, ' ') ``` #### 3. 单词分割与统计使用字典数据结构进行词频统计： ```python words = text.split() counts = {} for word in words: counts[word] = counts.get(word, 0) + 1 # 字典的get方法实现自动初始化[^4] ``` #### 4. 结果排序与输出将字典转换为列表并按词频降序排序： ```python items = list(counts.items()) items.sort(key=lambda x: x[1], reverse=True) for i in range(10): # 输出前10个高频词 word, count = items[i] print(f"{word:<15}{count}") ``` ### 完整示例代码 ```python def hamlet_word_count(): # 读取文件 with open('hamlet.txt', 'r', encoding='utf-8') as f: text = f.read() # 预处理 text = text.lower() symbols = '!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~' for char in symbols: text = text.replace(char, ' ') # 统计词频 words = text.split() counts = {} for word in words: counts[word] = counts.get(word, 0) + 1 # 排序输出 items = list(counts.items()) items.sort(key=lambda x: x[1], reverse=True) for i in range(10): word, count = items[i] print(f"{word:<15}{count}") hamlet_word_count() ```