这段代码的整体功能是从一个红楼梦文本文件中利用python的jieba分词库通过算法提取人名,分析这些人名在文本中的出现频率以及他们之间的关联关系,然后将这些信息输出到两个文件中,并最终在控制台上以prettytable表格的形式展示关系信息。下面我会详细解释每个部分的工作原理:
导入必要的库
codecs:用于读取和写入文件,支持多种编码方式。jieba:中文分词工具。jieba.posseg:用于词性标注的分词工具。PrettyTable:用于创建漂亮的表格输出。
定义相关变量
names:一个字典,用于存储每个人名及其出现的次数。relationships:一个字典,用于存储人名之间的关联关系及其次数。line_names:一个列表,用于存储每一行文本中识别出的人名。
加载任务表和分词
- 使用
jieba.load_userdict("./names.txt")加载用户自定义词典,这里假设names.txt包含了一些人名。 - 读取
hlm.txt文件,对每一行进行分词和词性标注。 - 如果一个词的词性为
nr(人名)且长度大于或等于2,则将其添加到line_names列表,并更新names和relationships字典。
分析人名关联关系
- 遍历
line_names列表,分析每一行中不同人名之间的关联关系。 - 如果两个不同的人名在同一行

最低0.47元/天 解锁文章





