文本摘要与植物病害分类的创新技术探索
一、BASiP:抽象文本摘要的新架构
(一)BASiP架构流程
BASiP是一种用于抽象文本摘要的新颖架构,其主要流程包含多个关键步骤:
1. BART模型处理 :BART使用注意力机制和束搜索的组合,在保持摘要简洁的同时,为给定的输入文本生成准确且流畅的摘要。
2. SimCLS框架优化 :将BART生成的摘要S1作为输入送入SimCLS框架,进一步优化摘要。SimCLS是一个抽象摘要模型,采用两阶段方法:
- 第一阶段 :训练生成模型g(·),以最大化给定数据集D下参考摘要Ŝ的可能性。g(·)是一个Seq2Seq模型。之后,在预训练的g(·)上使用束搜索等实例方法,生成多个候选摘要S₁, …, Sₙ ,其中n为采样候选的数量。
- 第二阶段 :评分器根据源文档为每个候选摘要分配分数。主要目的是改进生成的候选摘要Si,以提高与原始文本D相比的ROUGE分数。通过对比学习构建评估函数h(·),根据源文本和候选摘要Si之间的相似度,为生成的候选摘要赋予不同的ROUGE分数r₁, …, rₙ ,即rᵢ = h(Sᵢ, D) 。该值是编码时第一个标记之间生成的余弦相似度。得分最高的候选摘要即为最终输出摘要S。
3. 释义处理 :为了提供更精确和合理的输出,引入了释义部分。释义器将文章细分为每个句子,分别对每个句子进行重构,最后将它们组合在一起。有时会用同义词替换术语,使摘要更流畅,加强句子结构,使生成的摘要S更合适且适用于实际应
超级会员免费看
订阅专栏 解锁全文
3420

被折叠的 条评论
为什么被折叠?



