前言
当我们手中有一篇文档,比如书籍、小说、电影剧本,若想快速了解其主要内容是什么,则可以采用绘制 WordCloud 词云图,显示主要的关键词(高频词)这种方式,非常方便。本文将介绍常见的英文和中文文本的词云图绘制,以及 Frequency 频词频词云图。
1. 英文词云
我们先绘制英文文本的词云图,因为它相对简单一些。这里以《海上钢琴师》这部电影的剧本为例。
首先,准备好电影剧本的文本文件(如下图):
接下来,我们绘制一个最简单的矩形词云图,代码如下:
1import os
2from os import path
3from wordcloud import WordCloud
4from matplotlib import pyplot as plt
5# 获取当前文件路径
6d = path.dirname(__file__) if "__file__" in locals() else os.getcwd()
7# 获取文本text
8text = open(path.join(d,'leg