LDA提取标签

本文介绍使用LDA主题模型进行文本关键词提取的方法,通过选取概率最高的主题及主题词,结合TF-IDF权重,确定关键词。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

LDA (一) 文本关键词提取

LDA (三) 关键词提取2.0

LDA相关改进

测试文本到来,先LDA一把,得到主题向量,选概率最高的前K(K=10?或者根据测试文本长度来定)个主题,每个主题再选主题词向量里概率最高的N个词(N=30?),构成候选关键词集合(可以带权重,权重可以=主题概率*词概率*测试文本该词的TF-IDF), 测试文本里在候选关键词集合里的词,且权重大于一定阈值(或者个数和文本长度有关),就视为关键词。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值