自然表达性演讲研究:自动检测令人难忘的口语引用及合作说服性对话系统评估
1. 自动检测令人难忘的口语引用
1.1 研究背景
随着口语对话系统从传统基于任务的框架向更复杂的社交代理发展,理解人类在公共演讲中自然表达自己并吸引听众的方式变得至关重要。历史上,优秀的演讲往往包含令人难忘且能真正激励听众的引用,如肯尼迪的“不要问国家能为你做什么,要问你能为国家做什么”。TED演讲中也有许多著名人物通过他们的名言激励着人们,TED还推出了“TED Quotes”来收集和分享这些名言。然而,为什么有些口语引用令人难忘且具有启发性,而有些则不然,以及为什么有些名言比其他名言更受欢迎,这些问题的答案并非简单地通过检测特定关键词就能得出。
1.2 难忘口语引用检测
1.2.1 语料库构建
为了让系统学会区分难忘和非难忘的口语引用,我们从TED网站收集了语料库。收集到的难忘引用共得到2118个语音转录片段文件,同时从其余数据中随机选择2118个语音转录片段文件作为非难忘引用。我们利用TED的“分享”功能,将分享次数作为受欢迎程度的衡量标准,构建了一个包含262个非流行引用(分享次数为0)和179个流行引用(分享次数超过50)的语料库。
1.2.2 口语引用的特征
我们使用了Bandersky等人定义的三种语言特征:词汇、词性和词性标注(POS)。具体特征如下表所示:
| 特征 | 描述 |
| — | — |
| 词汇特征 | |
| #capital | 引用中大写单词的数量 |
| #quantifier | 引用中通用量词的数量 |
| #s
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



