个性化提取式摘要:基于语篇结构约束的高效新闻对话交付
1. 引言
随着人们兴趣和偏好的日益多样化,个性化摘要技术的需求也在不断增加。摘要可分为通用摘要和以用户为中心的摘要。通用摘要主要从文本中提取重要信息,而以用户为中心的摘要不仅考虑重要信息,还会结合用户的兴趣和偏好。然而,传统的以用户为中心的摘要方法往往生成的摘要缺乏连贯性。为了同时实现个性化和连贯性,我们提出了一种基于文档语篇结构提取用户可能感兴趣的句子,并为每个用户生成个性化摘要的方法。
随着移动个人助理和智能音箱的普及,对话式媒体的需求也在增加。但与文本媒体相比,对话式媒体的限制更多,用户在收听时无法跳过不必要的信息或快速浏览必要信息。因此,对于未来的对话式媒体来说,高效地提取和传递用户特别感兴趣的信息至关重要。
我们将这种个性化摘要方法应用于一个新闻对话系统中。该系统根据主计划解释新闻文章的摘要,并通过问答的方式传递补充信息。只要用户被动收听,系统就会传递主计划的内容。个性化主计划生成问题可以表述为:从N个不同主题的文档中,根据每个文档的语篇结构提取用户可能感兴趣的句子,并在T秒内通过语音传递这些内容。
2. 数据集
我们构建了一个新闻文章语料库,其中包含语篇结构注释、用户资料以及对句子和主题的兴趣标注。
2.1 语篇结构数据集
两位网络新闻剪辑专家对1200篇日语新闻文章的句子间依赖关系、语篇关系和语块进行了标注。这些文章分为体育、科技、经济、国际、社会和本地六个类别,每个类别手动选择200篇文章以减少主题重叠。每篇文章包含15 - 25个句子。标注工作按依赖关系、语篇关系和语块的顺序进行,语篇单元为句子。
-
超级会员免费看
订阅专栏 解锁全文
724

被折叠的 条评论
为什么被折叠?



