多种中英文关键词抽取算法的实现

中英文关键词抽取

欢迎使用中英文关键词抽取工具,本工具支持多种关键词抽取算法,帮助用户从文本中快速提取重要信息。下图展示了我们所支持的关键词抽取算法:

介绍

本工具提供多种关键词抽取算法,满足不同需求。支持的算法如下:

  • TF-IDF:通过词频和逆文档频率来衡量词汇的重要性。
  • TextRank:基于图算法的无监督关键词抽取方法。
  • KeyBERT:结合BERT模型的关键词抽取技术,能捕捉语义相关性。
  • Word2Vec:利用词向量表示来进行关键词提取。
  • LDA:一种基于主题模型的关键词抽取方法。

使用方法

1、TF-IDF

from keyword_extract import KeywordExtract

input_list = [
    "自然语言处理是人工智能领域中的一个重要方向。它研究人与计算机之间如何使用自然语言进行有效沟通。"
]
key_extract = KeywordExtract(type="TF-IDF")
# 基于TF-IDF进行关键词的抽取
print(key_extract.infer(input_list))

2、TextRank

from keyword_extract import KeywordExtract
   
input_list = ["自然语言处理是人工智能领域中的一个重要方向。它研究人与计算机之间如何使用自然语言进行有效沟通。"]
key_extract = KeywordExtract(type="TextRank")
# 基于TextRank进行关键词的抽取
print(key_extract.infer(input_list))

3、KeyBERT

from keyword_extract import KeywordExtract
  
input_list = ["自然语言处理是人工智能领域中的一个重要方向。它研究人与计算机之间如何使用自然语言进行有效沟通。"]
key_extract = KeywordExtract(type="KeyBERT")
# 基于KeyBERT进行关键词的抽取
print(key_extract.infer(input_list))

4、Word2Vec

from keyword_extract import KeywordExtract

input_list = ["自然语言处理是人工智能领域中的一个重要方向。它研究人与计算机之间如何使用自然语言进行有效沟通。"]
key_extract = KeywordExtract(type="Word2Vec")
# 基于Word2Vec进行关键词的抽取
print(key_extract.infer(input_list))

5、LDA

from keyword_extract.lda_model.lda import LDA
 
input_list = ["自然语言处理是人工智能领域中的一个重要方向。它研究人与计算机之间如何使用自然语言进行有效沟通。"]
lda_model = LDA(type="LDA")
# 基于LDA 进行关键词的抽取,topic_num是主题的个数
print(lda_model.infer(input_list, topic_num=3))

本项目地址:https://github.com/TW-NLP/KeywordExtract

欢迎使用和交流,大家可以在问题单中提出自己认为好的关键词抽取算法,我们会进行复现和集成。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值