“文本词频统计”实例详解(英文文本《巴黎圣母院》)

本文探讨了如何通过噪音处理和归一化对《巴黎圣母院》和《三国演义》进行文本分析,统计英文文本中单词频率并分析《三国演义》的人物分布,揭示了关键词的高频出现和人物角色的重要性。

需求:一篇文章出现了哪些词?哪些词出现得最多?

文本词频统计:

英文文本:《巴黎圣母院》 分析词频

中文文本:《三国演义》 分析人物

《巴黎圣母院》

将文本进行噪音处理、归一化,提取其中的每一个单词作为第一步骤。

我们首先需要进行读文件,然后再在所提取的文件里面进行统计。设计思路如下:

我们首先设立一个函数,进行文件的提取,函数命名为getText,利用open函数去将我们需要读取的文件进行提取,打开模式为r,为只读模式,我们将会在后面的文章进行详解文件的读取。同时利用lower方法将文章里面的所有大写字母变成小写字母,当然也可以利用upper()方法将文章里面的所有小写字母变成大写字母。视情况而定。之后我们进行遍历,利用for循环,将文章里面的所有特殊字符转变为空格!利用replace方法进行替换,replace方法为str.replace(旧字符,新字符,替换次数)。之后我们返回的文本即为英文文本里面大小写一致,而且没有特殊字符。可以进行更好的统计。所以我们在进行文本统计之前,先要对文本进行一定的转变,以便于我们进行更好的统计。即将文本进行噪音处理、归一化,提取其中的每一个单词作为第一步骤。代码如下所示:

def getText():
    txt=open("巴黎圣母院.txt","r").read()  #阅读文件,打开文件
    txt=txt.lower()   #将所有大写字母变成小写字母
    for ch in '!"#$%&()*+,-./:;<=>@[\\]^_{|}~':
        txt=txt.replace(ch,"")  #用空格将特殊字符进行取代
    return  txt

之后我们将所清理后的文本进行提取。我们将该值赋值给BaliTxt,即为转变后的文本。由于split方法可以按照指定分隔符对字符串进行分割,该方法会返回由分割后的子串组成的列表。所以我们利用该方法进行分割的同时返回列表。str.split(分隔符,分割次数)默认情况下为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一直再追梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值