多方多模态辅导机器人的研究与实践
1. 引言
如今,先进、可靠且实时的捕捉设备和建模技术日益成熟,研究人员也更容易获取这些资源。与此同时,关于人与人对话的新发现,凸显了对对话中所有可用的言语和非言语行为进行建模的重要性,这对于构建更具人类特征的对话系统至关重要,此类系统可用于让化身和机器人展现自然行为。
随着这些技术的发展,研究方向逐渐转向分析多方、多模态对话,旨在理解和建模对话参与者调节互动的结构和策略,以确保对话丰富、流畅且成功。构建具有社交意识和情感的口语对话系统,不仅能提供免提式的信息输入输出界面,更重要的是,在许多应用场景中,它能利用语音提供一种类人的交互界面,理解并传达伴随声音流的微妙非言语信号,这些信号包含了用户状态和言语行为的重要信息。在情感和社交技能对交互成功至关重要的场景中,如学习、协作任务解决、游戏和商业活动,这些信号的作用更为关键。
尽管社交和情感技术的挑战与潜力尚未完全被探索和理解,但由于近期捕捉设备(如麦克风阵列、深度传感器)、建模技术(如语音识别器、面部跟踪、对话建模)以及灵活类人的合成设备(如化身和人形机器人)的可用性和稳定性不断提高,一些项目开始针对不同应用的潜力和建模社交及情感口语交互的高端效果展开研究。
然而,探索人工实体的口语社交和情感行为效果面临着诸多障碍,其中之一是这些设置的多学科性质以及所涉及的不同技术的局限性。例如,这些应用旨在激发用户自然、流畅和自发的口语行为,但自动语音识别系统在处理口语对话语句时,在声学和语法方面的能力仍然有限。另一个重要挑战是如何确保这些设置是非侵入性的,不影响交互的流畅性和自发性,避免使用电缆、耳机和视线跟踪器等限制用户活动空间的设备。
本项目旨在开发一个相对自然、具
超级会员免费看
订阅专栏 解锁全文
730

被折叠的 条评论
为什么被折叠?



