python红楼梦词频统计_Python 红楼梦的字频与词频统计

本文介绍如何使用Python的jieba分词工具分析红楼梦的字频与词频,通过停用词表去除无关词汇,并生成词云图。展示了字频前100的统计结果以及词频DataFrame数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Python 红楼梦的字频与词频统计

使用jieba分词工具分词,在网上下载了一个停用词表(包括标点符号)去除停用词。

使用wordcloud生成词云。

其实除了停用词,程度词与否定词等也应该去除,但没有找到合适的词表。

字频:

字符 字频

了 13993

的 9862

不 9439

一 8160

道 7271

来 7189

人 6626

我 6204

是 6145

说 6108

这 5204

他 5193

你 5004

儿 4756

着 4105

去 4006

个 3983

也 3933

子 3896

玉 3877

有 3738

宝 3733

又 3677

们 3321

笑 3285

里 3084

贾 3005

只 2962

那 2932

见 2930

上 2594

好 2555

姐 2504

太 2466

家 2447

在 2401

就 2368

么 2363

便 2247

大 2219

头 2149

日 2113

听 2054

出 2051

得 2019

老 1994

下 1945

要 1866

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值