“环境智能”将加速通用人工智能的进展
随着世界互联程度日益加深,计算渗透到我们周围的环境中,一种新的人工智能范式正在兴起:环境智能。在此范式中,我们的环境能够响应请求、预测需求、提供信息或建议行动,然后退居幕后。
环境智能的这一愿景与《星际迷航》中的场景并无太大不同。但在过去十年的大部分时间里,重点一直放在反应式协助上——例如,确保客户主动向Alexa发起的请求能够满足其期望。在环境智能的愿景中,像Alexa这样的人工智能服务能够理解您环境的状态,包括设备、传感器、物体、人员以及您周围的活动,以在您需要协助的任何情况下提供帮助——无论是反应式(客户发起)还是主动式(AI发起)。
实现环境智能的最终潜力,需要Alexa将最佳的机器智能能力与最佳的人类智能能力结合起来,这也是当今通用智能的衡量标准。
通用智能最务实的定义是具备以下能力:(1) 联合学习多项任务,而不是独立建模每个任务;(2) 在已知任务集合内持续适应变化,无需明确的人工监督;(3) 直接通过与最终用户交互来学习新任务。
虽然这些通用智能特征适用于所有类型的人工智能系统,但对于像Alexa这样的交互式人工智能服务而言,另外两个属性至关重要:(1) 多感官与多模态智能——能够处理来自多个输入传感器(例如麦克风、摄像头、超声波)的数据,融合传感器数据以更好地理解客户目标,并以不同模态(例如语音、文本、图像、视频)生成输出;(2) 交互技能——能够以类人的方式进行对话,这不仅包括对自然语言的掌握,还包括识别和响应情感的能力。
这对我们的客户意味着,Alexa将变得:
- 更强大: Alexa的功能和技能将通过多任务智能更快地扩展。此外,Alexa将通过自学习不断改进,减少对标注数据的依赖;
- 更自然、更具对话性: 通过多感官智能、可泛化的语言模型、常识推理和情感建模,Alexa交互将如人类互动般自然流畅;
- 更个性化: Alexa将通过语音和计算机视觉适应每个个体。此外,客户将能够以显式和隐式方式直接个性化Alexa;
- 更具洞察力和主动性: Alexa将通过感知共享环境来预测客户需求、提出建议,甚至代表客户行事;
- 更值得信赖: Alexa将拥有我们珍视的可信赖之人所具备的特质,例如审慎、公平和道德行为。
在过去一年中,Alexa在所有这些方面都取得了显著进展。
更强大
Alexa每月接收数百亿次请求,确保每次请求都能让客户满意至关重要。2021年,通过自动语音识别、自然语言理解和动作解析方面的进步,Alexa的准确性比上一年提高了13%——尽管客户请求的复杂性有所增加。
Alexa拥有超过13万个第三方技能,其多样性证明了开发者的创造力。此外,它在80多个国家提供超过15种语言变体,最近在沙特阿拉伯推出了海湾阿拉伯语。
通过大型预训练语言模型的进展,我们正使扩展Alexa在技能和语言方面的功能变得更加容易。具体来说,我们训练了一个“Alexa教师模型”,这是一个拥有数十亿参数的大型预训练多语言模型,能够编码语言以及与Alexa交互的显著模式。我们无需从头开始在特定任务数据上构建新的任务特定自然语言理解模型(例如,一个技能、功能或语言),而是可以通过微调Alexa教师模型来构建它们,这能在相同数量的任务特定训练数据下提供显著的性能提升。
虽然目前Alexa教师模型本身不适用于实时语言理解,但一旦经过蒸馏和微调,它就会变得足够紧凑以实时运行,同时仍比从头训练的类似规模模型更准确。语言模型所实现的跨任务泛化能力,是通用智能的标志之一。
从Alexa教师模型衍生出的模型已经帮助减少了多个地区的客户交互摩擦,并将在未来几年帮助促进和扩展多语言和多模态用例。
然而,更快地部署新功能还不够。客户与Alexa的交互在不断演变,因此Alexa需要持续改进。为此,我们扩展了Alexa的自学习能力——特别是其从隐式反馈中自动学习的能力,例如,当客户为了重新措辞查询而打断Alexa时。
目前,我们有两种从隐式反馈中学习的方法。一种机制是学习自动重写自动语音识别输出以确保更准确的响应,另一种则自动标注交互数据,以最小的手动参与来重新训练自然语言理解模型。
在今年的自然语言处理实证方法会议上,Alexa AI研究人员发表的论文报告了我们在这两个方面的进展。
学习如何重写客户请求需要识别哪些成功的请求是失败请求的改写。过去关于改写检测的工作考虑成对的句子,确定一个句子是另一个句子改写的可能性。在我们的会议论文中,我们解释了如何利用对话历史的时间特征来更好地识别改写,在一个测试数据集上的准确率提高了28%。
在另一篇论文中,我们描述了一个可扩展的框架,用于使用自动标注的数据持续更新我们的自然语言理解模型。这篇论文展示了如何将我们之前关于自动标注的工作付诸实践,以立即为客户提供结果。
更自然、更具对话性
虽然仅通过说出其名称与Alexa交互很神奇,但在较长的交互中重复该名称会感觉不自然:当我们与他人交谈时,不会在每次对话中都使用对方的名字。
今年,我们通过对话模式在使与Alexa的交互更加自然方面迈出了一大步。对话模式利用Echo Show 10的摄像头,通过改进设备定向性检测(即,是否在向Alexa说话)来实现无需唤醒词的交互——即使房间内有多个人员在相互交谈以及同时与Alexa对话。
对话模式使用新颖的计算机视觉算法来评估客户朝向设备的身体方向,这指示了他们是在对Alexa说话还是在彼此交谈。视觉和音频信息的结合极大地改善了设备定向语音检测,优于单独使用任一模态。此外,使用完全神经循环神经网络传感器进行设备端语音识别,确保Alexa能够以低延迟识别对话语音。
我们也开始扩展Alexa的对话记忆,超越了交互会话内的指代消解(例如,在购买电视时询问“它的分辨率是多少?”),在某些情况下临时保持跨会话的记忆。例如,对于像电视这样的高考虑度购买,Alexa会记住您上次的交互,并在您下次交互时从您离开的地方开始。此功能需要我们扩展Alexa对话,该功能基于开发人员提供的少量数据自动生成的合成数据来训练基于深度学习的模型。
尽管大型基于神经变换器的语言模型在生成文本响应方面非常有效,但它们缺乏常识和知识基础,而这在大规模人机交互中真正有用是必需的。今年秋天,为了帮助培育克服这些挑战所需的创新,我们发布了常识对话数据集,其中包含超过11,000个新收集的对话。在每个对话中,连续的对话轮次通过公共常识知识图谱Conceptnet中的关系三元组相关联,例如 <医生, 位于, 医院> 或 <专家, 属于, 医生>。
另一种将常识注入对话模型的方法是使它们能够在需要时动态地从在线或其他来源导入信息。在本月初的神经信息处理系统会议高效自然语言与语音处理研讨会上,Alexa研究人员因此获得了一篇最佳论文奖。他们提出了一种少样本学习方法来训练知识寻求轮次检测器,该检测器可以识别无法通过现有API调用回答的客户问题。
今年,我们还发表了几篇关于情感建模的论文。在声学、语音与信号处理国际会议上,我们提出了使用对比无监督学习来改进训练数据稀缺时的情绪识别;在口语技术会议上,我们描述了将已在自然语言处理任务上取得巨大成功的预训练语言模型,应用于社交与情感常识推理问题的适配方法。
另一方面,当人类说话者识别到与之交谈者的情绪状态变化时,他们会修改自己回应中的情感。在今年夏天的语音合成研讨会上,我们扩展了先前在韵律变化方面的工作,以修改合成语音的情感特征。
更个性化
人工智能适应客户而非让客户适应它的能力,使其区别于其他技术进步。今年秋天,我们推出了多项新服务,允许客户以自助方式个性化人工智能。
通过偏好教学,客户可以明确地教导Alexa哪些技能应处理与天气相关的问题、他们关注哪些运动队以及他们偏好哪些菜系。
通过自定义声音事件检测,客户可以用少数几个示例训练Alexa识别新的声音——例如门铃响。自定义声音事件检测利用神经网络表示空间中的邻近性来识别相同声音的实例。
用于Ring视频门铃摄像头和Spotlight摄像头的自定义事件警报以类似方式工作。只需几个示例,客户就可以训练他们的设备识别世界上的某些状态——例如一扇被留开的棚屋门。
八月,我们为Alexa推出了自适应音量功能,该功能让Echo设备能够根据环境噪音水平调整音量,从而使客户感知到的噪音水平保持一致。该方法的关键要素之一是将语音信号和噪音信号在算法上分离,使它们成为音量适配模型的独立输入。
我们还为美国英语推出了自适应聆听功能,这是一项选择加入的功能,为顾客提供更多时间说完话再让Alexa回应,使Alexa成为一个更具可访问性、更耐心的倾听者。对于有某些言语障碍的说话者,自适应聆听已将他们与Alexa交互的摩擦减少了三分之二以上。
最后,Alexa客户可以选择与名人个性进行互动。年底时,我们甚至通过推出圣诞老人的节日个性,为Alexa互动带来了节日欢乐。
更具洞察力和主动性
如今,四分之一的智能家居交互是由Alexa发起的,这得益于其预测和主动功能的扩展,例如预感功能和日常例程。
自2018年以来,Alexa预感功能能够识别客户日常例程中的异常并提出纠正建议——例如,注意到夜间灯还亮着并主动提出关掉它。今年,我们为客户提供了使预感功能更加主动的选项,以便Alexa可以代表他们采取行动。当启用主动预感功能时,Alexa会先关掉那盏灯而无需先询问。
日常例程让您可以用一个触发词启动一系列动作,而无需反复发出相同的指令。以前,客户必须指定他们想要串联哪些动作。但今年,我们开始逐步推出推断例程。通过推断例程,Alexa识别客户通常重复的动作序列——例如,打开厨房灯、启动咖啡机、播放“起床!”播放列表——并建议将它们组合成一个例程。要保存例程,客户只需接受Alexa的建议。
我们还继续扩展潜在目标预测功能,即Alexa识别初始请求所隐含的更大客户需求,并提出满足该需求的动作或技能建议。例如,客户问:“凯尔特人队谁赢了?”,Alexa回答后接着问:“你想知道凯尔特人队下次什么时候比赛吗?”
潜在目标预测使用点互信息来衡量给定上下文中交互模式的可能性相对于其在所有Alexa流量中的可能性,并使用多臂老虎机学习来跟踪推荐是否有帮助,并抑制表现不佳的体验。
我们还在最新的Echo设备Echo Show 15上引入了视觉ID。借助视觉ID,Alexa可以显示仅针对您的备注和其他提醒(例如,“给Jack留个便条,他的新护照到了”)。视觉ID也可在Astro上使用,Astro是一款支持Alexa的家庭机器人,可将环境和状态感知扩展到您的物理空间。Astro可以跟随您播放媒体,或者找到您以传送通话、消息、计时器、闹钟或提醒。借助Ring Protect Pro订阅,Astro还可以主动巡逻您的家并调查异常活动。
更值得信赖
保护客户隐私对我们而言是不可妥协的原则,也是一个创新领域。差分隐私尤其是我关注的关键领域之一。今年,我们在佛罗里达人工智能研究学会年度会议上因一种在满足差分隐私分析所要求的隐私标准的同时提高机器学习模型性能的方法而获得最佳论文奖。
在计算语言学协会欧洲分会会议上,我们提出了一种通过自动改写训练文本来保护隐私的方法,同时保留其语义意义,并以一种再次满足差分隐私标准的方式进行。
我们希望Alexa对每个人都能同样出色地工作。为此,除了我们在人工智能公平性领域与国家科学基金会的合作伙伴关系外,我们还在进行检测和减轻不当偏见的研究。在公平、问责与透明度ACM会议以及计算语言学欧洲协会会议上,我们发表了两篇关于测量语言模型偏见以及检测用于训练不可靠新闻识别模型的数据集中偏见的论文。
未来之路
我认识到,通往通用人工智能有多条路径,每条路径都需要多年的基础研究。我相信,Alexa及其环境智能的底层愿景为通用人工智能提供了一条务实的道路——在这条道路上,每一项进步都使Alexa在我们的客户日常生活中更加有用。
我对Alexa团队在最困难的情况下取得的创新速度感到惊叹。在我们又结束一个疫情年份之际,我希望全球人工智能研究界在人工智能各个学科上取得的进步将有助于我们预防未来的大流行。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

被折叠的 条评论
为什么被折叠?



