TextRank算法代码实践

"""
关键词抽取: 是指从文本中确定一些能够描述文档含义的关键术语的过程
关键短语抽取: 关键词抽取结束后, 可以得到N个关键词, 在原始文本中相邻的关键词便构成了关键短语
关键句抽取: 句子抽取任务主要就是为了解决自动文本摘要任务, 将每一个sentence作为一个顶点, 根据两个句子之间的内容重复程度来计算他们之间的相似度
"""
import jieba.analyse
from textrank4zh import TextRank4Keyword, TextRank4Sentence


# 提取文本中的关键词
def extract_keywords(text):
    # 设置允许的词性标签,主要是名词
    noun_tags = ['n', 'nr', 'nrfg', 'ns', 'nt', 'nz']

    # 初始化关键词提取器,指定允许的词性
    keyword_extractor = TextRank4Keyword(allow_speech_tags=noun_tags)

    # 分析文本,生成关键词图
    keyword_extractor.analyze(
        text,                          # 输入文本
        window=2,                      # 滑动窗口大小
        lower=True,                    # 将文本转换为小写
        vertex_source='all_filters',   # 顶点来源,使用所有过滤条件
        edge_source='no_stop_words',   # 边的来源,不使用停用词
        pagerank_config={'alpha': 0.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值