Python 结巴分词(2)关键字提取

本文通过关键字提取技术,对热门网络小说《完美世界》的前10章节进行了内容分析,揭示了小说初期的主要人物及场景设定,如小不点、石村等,并探讨了这些元素如何构建起小说的基础世界观。

 

提取关键字的文章是,小说完美世界的前十章;

我事先把前十章合并到了一个文件中;

然后直接调用关键字函数;

 1 import sys
 2 sys.path.append('../')
 3 
 4 import jieba
 5 import jieba.analyse
 6 from optparse import OptionParser#引入关键词的包
 7 from docopt import docopt
 8 data_path = "C:\\Users\\wangyuguang\\Desktop\\work_data\\profect_world\\"
 9 topK = 10
10 withWeight = False
11 content = ""
12 for i in range(1,2):
13     Data_path = data_path + "he"+".txt"
14     content ="".join(open(Data_path, 'rb').read())
15 # print content
16 tags = jieba.analyse.extract_tags(content, topK=topK, withWeight=withWeight)#直接调用
17 
18 if withWeight is True:
19     for tag in tags:
20         print("tag: %s\t\t weight: %f" % (tag[0],tag[1]))
21 else:
22     print(",".join(tags))

关键字结果:

Building prefix dict from the default dictionary ...
Loading model from cache c:\users\wangyuguang\appdata\local\temp\jieba.cache
Loading model cost 0.386 seconds.
Prefix dict has been built succesfully.
小不点,孩子,族长,石云峰,石村,凶禽,青鳞鹰,凶兽,一群,石昊
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值