需求:一篇文章出现了哪些词?哪些词出现得最多?
文本词频统计:
英文文本:《巴黎圣母院》 分析词频
中文文本:《三国演义》 分析人物
《巴黎圣母院》
将文本进行噪音处理、归一化,提取其中的每一个单词作为第一步骤。
我们首先需要进行读文件,然后再在所提取的文件里面进行统计。设计思路如下:
我们首先设立一个函数,进行文件的提取,函数命名为getText,利用open函数去将我们需要读取的文件进行提取,打开模式为r,为只读模式,我们将会在后面的文章进行详解文件的读取。同时利用lower方法将文章里面的所有大写字母变成小写字母,当然也可以利用upper()方法将文章里面的所有小写字母变成大写字母。视情况而定。之后我们进行遍历,利用for循环,将文章里面的所有特殊字符转变为空格!利用replace方法进行替换,replace方法为str.replace(旧字符,新字符,替换次数)。之后我们返回的文本即为英文文本里面大小写一致,而且没有特殊字符。可以进行更好的统计。所以我们在进行文本统计之前,先要对文本进行一定的转变,以便于我们进行更好的统计。即将文本进行噪音处理、归一化,提取其中的每一个单词作为第一步骤。代码如下所示:
def getText():
txt=open("巴黎圣母院.txt","r").read() #阅读文件,打开文件
txt=txt.lower() #将所有大写字母变成小写字母
for ch in '!"#$%&()*+,-./:;<=>@[\\]^_{|}~':
txt=txt.replace(ch,"") #用空格将特殊字符进行取代
return txt
之后我们将所清理后的文本进行提取。我们将该值赋值给BaliTxt,即为转变后的文本。由于split方法可以按照指定分隔符对字符串进行分割,该方法会返回由分割后的子串组成的列表。所以我们利用该方法进行分割的同时返回列表。str.split(分隔符,分割次数)默认情况下为

本文探讨了如何通过噪音处理和归一化对《巴黎圣母院》和《三国演义》进行文本分析,统计英文文本中单词频率并分析《三国演义》的人物分布,揭示了关键词的高频出现和人物角色的重要性。
最低0.47元/天 解锁文章
1165

被折叠的 条评论
为什么被折叠?



