基于图排序的方法:TextRank
原理:重要的页面容易为其他页面引用
一、文件目录

二、TextRank(main.py)
import re #正则表达式模块
import jieba #中文分词库
from itertools import chain #迭代器
from sklearn.metrics.pairwise import cosine_similarity #计算两个矩阵之间的相似度
import networkx as nx #复杂网络的库,这里可直接调用pagerank算法
import numpy as np
news_dir = './news.txt'
stopwords_dir = './stopwords.txt'
local_vocab_dir = './local_vocab.txt'
# **********文档分句********** #
sentences_list = []
file = open(news_dir,'r',encoding="utf8")
for line in file.readlines():
# line=信息量巨大!易会满首秀,直面科创板8大问题,对散户加速入场笑而不语……
if line.strip():#line不为空
# line_split=['信息量巨大', '易会满首秀', '直面科创板8大问题', '对散户加速入场笑而不语……']
line_split = re.split(r'[|。|!|;|?|]|,', line.strip())# 句子以。 ! ? ; 分隔开
# line_split=['信息量巨大', '易会满首秀', '直面科创板8大问题', '对散户加速入场笑而不语……']
line_split = [line.strip() for line in line_split if line.strip(