35、自然语言处理技术在文档摘要与微博数据挖掘中的应用

自然语言处理技术在文档摘要与微博数据挖掘中的应用

1. 中文文档自动摘要技术

1.1 信息熵的引入

为了衡量句子的重要性,引入了信息熵这一概念。在信息论中,熵用于衡量随机变量的期望值。对于值域为 ${x_1, x_2, \cdots, x_n}$ 的随机变量 $X$,其熵值 $H$ 定义如下:

同时,根据期望的定义和自信息公式,可得到熵值 $H$ 的另一种表达式。在衡量句子时,将句子在特定词组合中出现的情况视为随机变量,其取值范围为 ${$ 出现,不出现 $}$,并基于该随机变量在指定值域上的概率分布计算句子的信息熵。

1.2 句子信息熵的计算方法

在计算句子信息熵时,对文档中的词做了独立性假设,即假设每个词的出现与其他词的出现无关。那么,句子在文档中出现的概率为:

其中,$token(i)$ 是句子的第 $i$ 个词,$m$ 是当前句子的词数,$topic(j)$ 是当前文档主题分布中概率最高的主题,$P(topic(i)|topic(j))$ 是通过训练 LDA 模型得到的特定词在当前主题下出现的概率值。

该随机变量信息熵的计算公式为:

其中,$E(sentence)$ 是句子的信息熵,$P(sentence|topic(j))$ 是句子在当前主题下出现的概率值,$\overline{P}(sentence|topic(j))$ 是句子在当前主题下不出现的概率值。

1.3 算法介绍

1.3.1 算法提出

传统的文档摘要系统通常计算词的权重和句子相似度,忽略了文档的主题信息。而考虑文档主题信息的摘要算法,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值