“文本词频统计”实例详解（英文文本《巴黎圣母院》）

最新推荐文章于 2024-06-11 00:15:00 发布

原创

最新推荐文章于 2024-06-11 00:15:00 发布 · 961 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #后端

本文探讨了如何通过噪音处理和归一化对《巴黎圣母院》和《三国演义》进行文本分析，统计英文文本中单词频率并分析《三国演义》的人物分布，揭示了关键词的高频出现和人物角色的重要性。

需求：一篇文章出现了哪些词？哪些词出现得最多？

文本词频统计：

英文文本：《巴黎圣母院》分析词频

中文文本：《三国演义》分析人物

《巴黎圣母院》

将文本进行噪音处理、归一化，提取其中的每一个单词作为第一步骤。

我们首先需要进行读文件，然后再在所提取的文件里面进行统计。设计思路如下：

我们首先设立一个函数，进行文件的提取，函数命名为getText,利用open函数去将我们需要读取的文件进行提取，打开模式为r，为只读模式，我们将会在后面的文章进行详解文件的读取。同时利用lower方法将文章里面的所有大写字母变成小写字母，当然也可以利用upper()方法将文章里面的所有小写字母变成大写字母。视情况而定。之后我们进行遍历，利用for循环，将文章里面的所有特殊字符转变为空格！利用replace方法进行替换，replace方法为str.replace(旧字符，新字符，替换次数）。之后我们返回的文本即为英文文本里面大小写一致，而且没有特殊字符。可以进行更好的统计。所以我们在进行文本统计之前，先要对文本进行一定的转变，以便于我们进行更好的统计。即将文本进行噪音处理、归一化，提取其中的每一个单词作为第一步骤。代码如下所示：

def getText():
    txt=open("巴黎圣母院.txt","r").read()  #阅读文件，打开文件
    txt=txt.lower()   #将所有大写字母变成小写字母
    for ch in '!"#$%&()*+,-./:;<=>@[\\]^_{|}~':
        txt=txt.replace(ch,"")  #用空格将特殊字符进行取代
    return  txt

之后我们将所清理后的文本进行提取。我们将该值赋值给BaliTxt,即为转变后的文本。由于split方法可以按照指定分隔符对字符串进行分割，该方法会返回由分割后的子串组成的列表。所以我们利用该方法进行分割的同时返回列表。str.split(分隔符，分割次数）默认情况下为