自然语言处理技术在文档摘要与微博数据挖掘中的应用
1. 中文文档自动摘要技术
1.1 信息熵的引入
为了衡量句子的重要性,引入了信息熵这一概念。在信息论中,熵用于衡量随机变量的期望值。对于值域为 ${x_1, x_2, \cdots, x_n}$ 的随机变量 $X$,其熵值 $H$ 定义如下:
同时,根据期望的定义和自信息公式,可得到熵值 $H$ 的另一种表达式。在衡量句子时,将句子在特定词组合中出现的情况视为随机变量,其取值范围为 ${$ 出现,不出现 $}$,并基于该随机变量在指定值域上的概率分布计算句子的信息熵。
1.2 句子信息熵的计算方法
在计算句子信息熵时,对文档中的词做了独立性假设,即假设每个词的出现与其他词的出现无关。那么,句子在文档中出现的概率为:
其中,$token(i)$ 是句子的第 $i$ 个词,$m$ 是当前句子的词数,$topic(j)$ 是当前文档主题分布中概率最高的主题,$P(topic(i)|topic(j))$ 是通过训练 LDA 模型得到的特定词在当前主题下出现的概率值。
该随机变量信息熵的计算公式为:
其中,$E(sentence)$ 是句子的信息熵,$P(sentence|topic(j))$ 是句子在当前主题下出现的概率值,$\overline{P}(sentence|topic(j))$ 是句子在当前主题下不出现的概率值。
1.3 算法介绍
1.3.1 算法提出
传统的文档摘要系统通常计算词的权重和句子相似度,忽略了文档的主题信息。而考虑文档主题信息的摘要算法,
超级会员免费看
订阅专栏 解锁全文
1033

被折叠的 条评论
为什么被折叠?



