TextRank算法代码实践_python textrank-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_74254879/article/details/141307086

"""
关键词抽取: 是指从文本中确定一些能够描述文档含义的关键术语的过程
关键短语抽取: 关键词抽取结束后, 可以得到N个关键词, 在原始文本中相邻的关键词便构成了关键短语
关键句抽取: 句子抽取任务主要就是为了解决自动文本摘要任务, 将每一个sentence作为一个顶点, 根据两个句子之间的内容重复程度来计算他们之间的相似度
"""
import jieba.analyse
from textrank4zh import TextRank4Keyword, TextRank4Sentence


# 提取文本中的关键词
def extract_keywords(text):
    # 设置允许的词性标签，主要是名词
    noun_tags = ['n', 'nr', 'nrfg', 'ns', 'nt', 'nz']

    # 初始化关键词提取器，指定允许的词性
    keyword_extractor = TextRank4Keyword(allow_speech_tags=noun_tags)

    # 分析文本，生成关键词图
    keyword_extractor.analyze(
        text,                          # 输入文本
        window=2,                      # 滑动窗口大小
        lower=True,                    # 将文本转换为小写
        vertex_source='all_filters',   # 顶点来源，使用所有过滤条件
        edge_source='no_stop_words',   # 边的来源，不使用停用词
        pagerank_config={'alpha': 0.