Python词频分析

本文介绍如何使用Python分析文本中单词的频率,并通过创建过滤列表去除常见词汇,以便专注于不熟悉的高频词汇。首先,将TXT文件中的所有英文单词存储到列表中,然后构建一个词频字典并排序。接着,引入四级词汇过滤列表,筛选出不常见的单词。通过自定义程序处理词汇变化形式,过滤列表得到更新,使得分析更有效。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我想写一个程序分析一本书各个单词出现的频率。在阅读之前,先找出其中单词出现频率高我还不认识的单词,事先背上,然后再阅读。

思路:

把TXT文件里面所有的英文单词储存在一个list里面(注意,里面的元素有重复的。)用for循坏分析list里的每一个元素,建立一个单词为key,出现次数为value的dictionary。然后进行排序。

# -*- coding: utf-8 -*-  
import re  
f = open("file to analyse.txt","r")  
wordlist = []  
freqdic = {}  
'''  
    将list中各个元素出现的数目进行统计,放入freqdic中。  
'''  
def countfreq(list):  
    for i in list:  
        if i in freqdic:  
            freqdic[i] += 1  
        else:  
            freqdic[i] = 1  
for line in f.readlines():  
    str = line.lower()  
    singlelinelist = re.split("\W+",str)#re.split没有去除文本中的数字,数字会在后面的程序中进行处理。  
    countfreq(singlelinelist)  
t = []  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值