用Python统计瓦尔登湖的词频

最新推荐文章于 2021-08-16 23:52:47 发布

原创

最新推荐文章于 2021-08-16 23:52:47 发布 · 2.5k 阅读

CC 4.0 BY-SA版权

本文通过Python分析英文小说《瓦尔登湖》的词频，讲解了从打开文件、分词到统计词频的过程。在处理中遇到了单词前后带有符号、大小写区分等问题，通过改进代码，如使用strip()去除符号，转为小写，利用集合去重，最终实现了按词频排序的词频统计。

在文本处理中，我们经常需要对文本中的单词出现频率做一个统计，本文以英文小说《瓦尔登湖》为例，统计一下作者最喜欢用什么单词，他们各自的出现频率如何。

首先，要打开文件，把里面的内容写到字符串里面。

接着，要对字符串进行分词，分割成独立的单词。

最后，根据每个单词进行词频统计。

把下载好的“Walden.txt”放到桌面，复制一下完整的路径名，特别注意：

Windows系统下，默认的文件名路径子级和父级之间可能是用反斜杠“ \ ”表示的，而在Python中，子级和父级之间用正斜杠“ / ”表示。

文件打开的时候，如果出现以下错误：

UnicodeDecodeError: 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence

说明文件编码格式异常，解决办法：在文件打开的语句中添加 encoding = ' utf-8 '，注意添加在open( )函数的最后。

with open(path,'r') as text:
# 添加utf-8编码支持，原语句改为：
with open(path,'r',encoding='utf-8') as t