Python实现《红楼梦》中贾宝玉与十二金钗关系图谱

       这段代码的整体功能是从一个红楼梦文本文件中利用python的jieba分词库通过算法提取人名,分析这些人名在文本中的出现频率以及他们之间的关联关系,然后将这些信息输出到两个文件中,并最终在控制台上以prettytable表格的形式展示关系信息。下面我会详细解释每个部分的工作原理:

导入必要的库

  • codecs:用于读取和写入文件,支持多种编码方式。
  • jieba:中文分词工具。
  • jieba.posseg:用于词性标注的分词工具。
  • PrettyTable:用于创建漂亮的表格输出。

定义相关变量

  • names:一个字典,用于存储每个人名及其出现的次数。
  • relationships:一个字典,用于存储人名之间的关联关系及其次数。
  • line_names:一个列表,用于存储每一行文本中识别出的人名。

加载任务表和分词

  • 使用jieba.load_userdict("./names.txt")加载用户自定义词典,这里假设names.txt包含了一些人名。
  • 读取hlm.txt文件,对每一行进行分词和词性标注。
  • 如果一个词的词性为nr(人名)且长度大于或等于2,则将其添加到line_names列表,并更新namesrelationships
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值