基于子图选择方法的越南语多文档摘要生成
在多文档摘要生成领域,一种基于子图选择的方法被提出用于越南语多文档摘要任务。该方法利用图信息自注意力机制,在多个数据集上展现出了优于一些可靠基线模型的性能。
1. 方法介绍
该方法的整体框架包含多个关键步骤,下面将详细介绍。
1.1 图构建
一个包含 N 个文档的簇可以表示为无向图 G = (V, E),其中 V 表示输入文档中每个句子的节点表示,E 是节点之间的关系集合。句子作为基本信息单元,在图中表示为节点,句子之间的关系表示为边。假设文档中的所有句子都相互连接,同一簇中同一文档的任意两个节点在图中相连。
图表示矩阵 G 中,Gij 表示句子 Si 和 Sj 之间的 tf - idf 余弦相似度。具体操作步骤如下:
1. 将每个文档 di 表示为词袋。
2. 计算文档中每个标记 tik 的 tf - idf 值 vik:
[vik(tik) = Nw(tik)\log(\frac{Nd}{Ndw(tik)})]
其中,Nw(t) 是文档中单词 t 的计数,Ndw(t) 是包含该单词的文档总数,Nd 是文档总数。
3. 得到每个文档的 tf - idf 向量,计算 Si 和 Sj 之间的 tf - idf 向量的余弦相似度,该值作为图中连接这对节点的边的权重 Gij。
4. 消除权重小于 0.2 的边。
1.2 图编码器
源文档使用分层变压器进行编码,它由多个共享权重的单个变压器组成,每个变压器单独处理一个文档。每个变压器接收分词后的文档作为输入,并生成句子表示。这种架构使模型能够处理更长的输
超级会员免费看
订阅专栏 解锁全文
2590

被折叠的 条评论
为什么被折叠?



