python红楼梦人物词频统计_用Python绘制红楼梦词云图，竟然发现了这个！

于 2020-12-06 05:06:46 发布 · 2.3k 阅读

·

1

·

文章标签：

#python红楼梦人物词频统计

本文介绍了如何使用Python对《红楼梦》进行词频统计并绘制词云图。通过jieba分词、去除停用词，发现贾宝玉、贾母等角色的词频，揭示了贾母在故事中的重要地位。最终，利用WordCloud展示词云结果，提供了一种直观的数据分析方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原标题：用Python绘制红楼梦词云图，竟然发现了这个！

Python在数据分析中越来越受欢迎，已经达到了统计学家对R的喜爱程度，Python的拥护者们当然不会落后于R，开发了一个个好玩的数据分析工具，下面我们来看看如何使用Python，来读红楼梦，绘制小说中的词云。

首先当然要导入我们需要用到的包，下面import进来的包，都是我们将在接下来的程序中使用到的包，如果大家还没有安装它们，那么尽快安装它们吧。

import jieba

import numpy

import codecs

import pandas

import matplotlib.pyplot as plt

from wordcloud import WordCloud

接着，要分析词频，就要读取我们的《红楼梦》的文本数据，读取文本，我建议使用codecs包，它可以先通过设置文件的编码，对文件进行读入，这样子就不用边读遍转码了，非常实用。

file = codecs.open("D:\\红楼梦.txt", 'r', 'utf-8')

content = file.read()

file.close()

然后，我们就来分词了，中文分词，当然要用大名鼎鼎的jieba包，下面就是分词的方法。

这里我们需要注意两点：

1、为了提高分词的准确度，我们最好寻找我们分词的词库，这里我下载到了红楼梦的分词库，加载如jieba中，然后再进行分词。

2、对于小说中，一个字的词，基本上算是无用的词，或者说是标点符号，因此这里我直接抛弃了。

jieba.load_userdict('D:\\红楼梦词库.txt');

segments = []

segs = jieba.cut(conte

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。