"""
关键词抽取: 是指从文本中确定一些能够描述文档含义的关键术语的过程
关键短语抽取: 关键词抽取结束后, 可以得到N个关键词, 在原始文本中相邻的关键词便构成了关键短语
关键句抽取: 句子抽取任务主要就是为了解决自动文本摘要任务, 将每一个sentence作为一个顶点, 根据两个句子之间的内容重复程度来计算他们之间的相似度
"""
import jieba.analyse
from textrank4zh import TextRank4Keyword, TextRank4Sentence
# 提取文本中的关键词
def extract_keywords(text):
# 设置允许的词性标签,主要是名词
noun_tags = ['n', 'nr', 'nrfg', 'ns', 'nt', 'nz']
# 初始化关键词提取器,指定允许的词性
keyword_extractor = TextRank4Keyword(allow_speech_tags=noun_tags)
# 分析文本,生成关键词图
keyword_extractor.analyze(
text, # 输入文本
window=2, # 滑动窗口大小
lower=True, # 将文本转换为小写
vertex_source='all_filters', # 顶点来源,使用所有过滤条件
edge_source='no_stop_words', # 边的来源,不使用停用词
pagerank_config={'alpha': 0.