TextRank

部署运行你感兴趣的模型镜像

关键字

嗯,模型比较简单,限定一个窗口(比如一个词前后k个词,认为他们具有连接),然后计算PageRank
这里写图片描述
得到的就是这段话里的关键字,据说比TFIDF要靠谱点

关键句

主要也是句子间连接关系的限定,paper里计算句子的相似度:
这里写图片描述
然后一样计算:
这里写图片描述
看清楚累加的下标 Vj 是 In(Vi) 的集合,分母是 Out(Vj) 的集合

参考信息

参考1
参考2
代码
论文

您可能感兴趣的与本文相关的镜像

Facefusion

Facefusion

AI应用

FaceFusion是全新一代AI换脸工具,无需安装,一键运行,可以完成去遮挡,高清化,卡通脸一键替换,并且Nvidia/AMD等显卡全平台支持

### Textrank 算法实现文本摘要与关键词提取 #### 什么是Textrank算法? Textrank算法是一种基于图的自然语言处理技术,主要用于文本摘要关键词提取。它的核心思想来源于PageRank算法,通过构建一个有向加权图来衡量节点的重要性,在此场景下,这些节点可以代表单词或者句子[^2]。 #### 文本预处理 在应用Textrank之前,通常需要对原始文本进行一系列预处理操作。这包括分词、去除停用词以及可能的词形还原等步骤。这样做的目的是为了减少噪声数据的影响,从而提高后续分析的质量[^3]。 #### 图结构构建 对于关键词提取任务而言,每篇文章中的词汇会被视为图上的顶点;而边则由共现关系定义——如果两个词在同一窗口(即固定长度范围内)内共同出现,则它们之间存在一条连接线,并赋予相应的权重值反映两者的关联程度[^4]。 #### 迭代过程 一旦完成了上述准备工作之后,就可以按照如下方式更新每个节点得分: \[ \text{Score}(v_i)= (1-d)+d\sum_{j}(\frac{\text{Weight}_{ji}}{\sum_k \text{Weight}_{jk}}*\text{Score}(v_j)) \] 其中 \( d \) 表示阻尼系数,默认取0.85;\( v_i \) \( v_j \) 分别指当前被评估对象及其邻居结点;分数越高意味着越重要[^5]。 以下是Python中利用`gensim`库完成的一个简单例子展示如何使用Textrank来进行关键词提取: ```python from gensim.summarization import keywords def extract_keywords(text, ratio=0.2): result = keywords(text=text, words=None, lemmatize=True).split('\n') return result[:int(len(result)*ratio)] sample_text = """Natural language processing is a field of computer science and artificial intelligence concerned with the interactions between computers and human languages.""" print(extract_keywords(sample_text)) ``` 以上代码片段展示了怎样调用 `gensim` 库内的函数快速获取给定字符串的主要术语列表。 #### 总结 综上所述,Textrank不仅能够有效地识别出文章的核心概念,而且还能生成简洁明了的内容概要。由于其依赖于局部上下文特征而非全局统计特性,所以在面对较短篇幅材料时表现尤为突出。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值