基于图排序的方法:TextRank (中文摘要)

该博客介绍了基于图排序的TextRank算法用于文本摘要。首先,通过分句和分词处理新闻文本,然后利用jieba进行中文处理,去除停用词。接着,构建句子向量并计算相似度矩阵,最后通过NetworkX的pagerank算法计算句子的重要性。实验结果显示,TextRank能够有效地提取关键信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


基于图排序的方法:TextRank

原理:重要的页面容易为其他页面引用
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

一、文件目录

![在这里插入图片描述](https://img-blog.csdnimg.cn/b42b02bd206648219514574adbb79c98.png# 三、数据处理(bulid_data.py)

二、TextRank(main.py)

import re #正则表达式模块
import jieba #中文分词库
from itertools import chain #迭代器
from sklearn.metrics.pairwise import cosine_similarity #计算两个矩阵之间的相似度
import networkx as nx #复杂网络的库,这里可直接调用pagerank算法
import numpy as np

news_dir = './news.txt'
stopwords_dir = './stopwords.txt'
local_vocab_dir = './local_vocab.txt'


# **********文档分句********** #
sentences_list = []
file = open(news_dir,'r',encoding="utf8")
for line in file.readlines():
    # line=信息量巨大!易会满首秀,直面科创板8大问题,对散户加速入场笑而不语……
    if line.strip():#line不为空
        # line_split=['信息量巨大', '易会满首秀', '直面科创板8大问题', '对散户加速入场笑而不语……']
        line_split = re.split(r'[|。|!|;|?|]|,', line.strip())# 句子以。 ! ? ; 分隔开
        # line_split=['信息量巨大', '易会满首秀', '直面科创板8大问题', '对散户加速入场笑而不语……']
        line_split = [line.strip() for line in line_split if line.strip(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值