语音代理时代EMNLP会议拓展技术边界

语音代理激增,EMNLP拓展研究范畴

某机构学者Julia Hirschberg阐述语音理解与自然语言理解为何密不可分。

在今年的自然语言处理实证方法会议(EMNLP)上,某机构学者、哥伦比亚大学计算机科学教授Julia Hirschberg担任语音与多模态领域的三位主席之一,负责监督语音相关论文提交的评审工作。然而直到去年,EMNLP从未设立过语音领域主席。传统上,致力于理解自由形式语言的自然语言处理(NLP)主要关注文本;语音技术(如自动语音识别)被视为为NLP系统提供文本输入的方式。

基于语音技术的广泛采用,特别是像Alexa这样的对话助手,改变了这一现状。正如Hirschberg所解释的,对于口语而言,理解含义(传统上属于NLP范畴)在很大程度上依赖于声学语音信号。

"我研究韵律学,"Hirschberg提到人类语音多变的语调和节奏,“我们都会产生不同的韵律轮廓,这些轮廓——以及你强调什么、不强调什么、在哪里停顿——都能完全改变你表达的内容。这可能让意思变得完全不同。因此同时研究语音和NLP非常重要。”

此外,Hirschberg指出,有些人只能通过语音使用NLP技术。"用文本来进行对话非常繁琐,"她说,“而且有很多人因为视力障碍无法进行文本对话。还有一些人,特别是在低资源语言国家,不识字。数百万人处于这种状态,因此关于如何通过语音与技术交互并在低资源语言上工作的研究非常多。”

Hirschberg参与的某机构项目之一是自然轮转技术,该功能将允许多个用户与Alexa对话而无需重复唤醒词"Alexa"。区分设备导向语音是一个典型问题,结合语音信号的声学特征和语义解释比单独考虑任一因素能更好地解决这个问题。

"我们现在正在研究的另一个问题是理解说话节奏,以便知道用户何时结束讲话,"Hirschberg说,“既不想打断用户,也不想等待太久。例如,我们在长期研究中发现,当人类真正良好地交谈时,他们的语音重叠时间约为两毫秒。而对话系统通常做不到这一点。”

然而,Hirschberg在EMNLP主持的研究领域不仅仅是语音,还包括语音与多模态。某机构研究人员在自然轮转方面的工作不仅整合了语义分析和声学分析,还整合了计算机视觉,这有助于区分用户之间的对话与设备导向语音。

"我们现在正变得越来越多元化,"Hirschberg说,“这是未来的趋势。”

正如Hirschberg对口语理解系统如何从韵律推断含义感兴趣一样,她也对文本转语音系统如何使用韵律传达含义感兴趣。

"我感兴趣但之前从未研究过的是共情语音,"Hirschberg说,“它之所以如此酷,是因为你需要理解语境才能恰当地表达共情。这不仅仅是模仿:你并不总是想让自己的语音听起来像对方。比如对方非常生气,你肯定不想听起来也很生气,对吧?”

考虑到语音和NLP相互补充的方式,Hirschberg表示:“我认为这(语音轨道)是让EMNLP更加多元化的良好开端。他们可能还想纳入多模态数据,因为这在当今变得越来越重要。如果他们想跟上AI浪潮,我认为这样做也是个好主意。而且我认为,这对于基本上基于文本研究的人们理解语言其他方面的重要性也很有帮助。我认为这是一个好的开始,希望它能持续下去。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值