基于wikipedia的摘要系统

本文介绍了一种使用Wikipedia相似度计算方法进行文本摘要生成的高效技术,通过四步曲实现从句子到语义相似度的转换,最终去除冗余信息,确保摘要与原文主题高度相关且保持语义一致性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    传统的基于图的摘要,我们所选择作为摘要的句子,不仅应该与主题相似而且相似于与主题有很高相似度的句子。

    基于 wikipedia相似度计算方法分为四部曲。

    The first one is sentence wikipedia.

    传统的BOW方法是利用tf-tdf把句子刻画成一个词的向量。本文中把句子wikipedia化的方法是利用exact—match策略,首先抽取wikipedia概念,其次步骤如下:first,合并概念(当两个词合成表示一个意思时要把两个词当做一个词来对待)。sencond,去掉一些无用概念(对于句子表达毫无意义的词)。finally,句子就被表征为词的向量。

    The sencond step is smooting concept matching with semantic relatedness

    当然根据第一步我们已经生成了句子的向量,就可以用consin来计算他们的相似度。但是这样效果并不好,例如{Kyoto protocol ,Emissions trading,Carbon dioxide}和{Global warming,Greenhouse gas,Fossil fuel}语义上很相似,但是用上面的方法的相似度为零,所以我们建了一个词的矩阵,用来存储词与词的相似度。其中涉及到的阈值为0.4-0.7。

    Third conbined similarity and summarization

   就是两个方法都用,中间加一个参数就ok了

    第四步 redundancy checking

去除一些冗余信息


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值