《红楼梦》中人物词频统计

《红楼梦》人物词频统计

import jieba
import re 

f=open('红楼梦.txt',encoding='utf-8')
txt=f.read()
f.close()

txt1=re.sub('奶奶','贾母',txt)     #替换词组
txt2=re.sub('老太太','贾母',txt1)
txt3=re.sub('林黛玉','黛玉',txt2)
txt4=re.sub('凤姐儿','凤姐',txt3)

segs=jieba.lcut(txt4)

segments={}
for seg in segs:
    if len(seg)==1:
        continue
    else:
        segments[seg]=segments.get(seg,0)+1

       

#print(segments)
       

stopwords={'什么','一个','我们','那里','你们','如今','说道','起来','这里','知道','他们','众人','姑娘','一面','自己','只见','太太','不是','没有','两个','怎么','出来','不知','这个','听见','这样','进来','咱们','告诉','就是','东西','回来','只是','大家','老爷','只得','丫头','这些','不敢','出去','所以'}

for word in stopwords:
    del(segments[word])          #删除停用词
     
#print(segments)

alies1={'黛玉','林姑娘','林妹妹'}
for e in alies1:
    for seg in segments:
        if e==seg:
            segments[seg]=segments[seg]+segments.get(e)

alies2={'袭人','花袭人'}
for e in alies2:
    for seg in segments:
        if e==seg:
            segments[seg]=segments
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值