亚马逊推出Nova Sonic:语音AI模型加入竞争

当人工智能感知到你语音中的沮丧或喜悦时会发生什么?

亚马逊新推出的名为Nova Sonic的语音到语音AI模型,整合了语音识别和生成功能,可实现更自然的语音交互。这是该西雅图科技巨头为了与谷歌、OpenAI等公司竞争,在开发类人智能方面所做的更广泛努力的一部分。

亚马逊表示,Nova Sonic的一大进步在于能够识别语音语调,从而适应用户的说话风格和情绪。例如,对于愤怒的客户服务来电,系统可能会以平静稳定的语音回应;而对于听起来兴奋的用户,则可能给出更加活跃的回应。

亚马逊人工通用智能高级副总裁Rohit Prasad表示:"我认为智能与上下文是密不可分的。"他领导着公司最先进AI技术的核心团队。他举例说明:"如果你对夏威夷感到兴奋,它也会表现得很兴奋。如果你不感兴趣,它就会建议其他目的地。"

Nova Sonic将通过亚马逊的Bedrock服务向第三方开发者开放。亚马逊已经在内部产品中使用了该模型的部分组件,包括最近发布的Alexa+语音助手。

与传统语音系统将语音识别、语言处理和文本转语音等模型分开的做法不同,Nova Sonic在单一架构中集成了这三个功能。

亚马逊表示,这种集成使模型能够保留对话的完整上下文——包括语调、节奏和意图,从而使交互更加自然和灵敏。

它还可以在对话过程中执行操作,如查找航班选项或检查账户,而不会中断交互流程。

亚马逊正通过一个为实时语音应用设计的新流媒体API提供Nova Sonic服务。目前支持英语,并提供几种不同的声音和口音。亚马逊表示正在努力支持更多语言。

随着各公司竞相开发更像人类的数字助手,Nova Sonic加入了日益扩大的语音和多模态AI模型阵营。OpenAI最近推出了自己的实时语音模型GPT-4o,而谷歌则为其Gemini助手添加了会话语音功能。

根据测试结果,亚马逊表示Nova Sonic在速度和成本方面优于竞争对手,具有更低的延迟和更好的定价。

例如,亚马逊称Nova Sonic的平均响应时间仅略超过一秒——根据研究机构Artificial Analysis的测试,这比OpenAI的GPT-4o和谷歌的Gemini Flash 2.0都要快。该公司表示,在实时语音交互方面,Nova Sonic的使用成本比GPT-4o低近80%。

曾任Alexa首席科学家的Prasad现在负责亚马逊的AGI(通用人工智能)团队,直接向亚马逊CEO Andy Jassy汇报。

Prasad在采访中表示,长期目标是创建能处理任何类型输入并以最自然方式响应的统一模型——实现人工通用智能中"通用"的特性。

"我认为这实际上是在将人类和机器的能力融合在一起,"Prasad谈到AGI计划时说,"这就是为什么这项工作如此重要。"

他称Nova Sonic在这个方向上迈出了"巨大的一步"。

目前正在测试Nova Sonic的公司包括:将其用于客户服务电话的ASAPP、将其应用于语言学习工具的Education First,以及使用它通过语音提供实时体育资讯的Stats Perform。

亚马逊表示,Nova Sonic的设计可以与企业系统集成,访问价格、库存或时间表等实时信息。该模型还可以在对话过程中执行任务,包括预订或提供替代选项。

Nova Sonic是亚马逊Nova系列AI模型的最新成员,该系列由Jassy在12月的AWS re:Invent大会上推出,包含用于生成和理解文本、图像和视频的AI。这紧随亚马逊最近发布的用于构建基于网络的AI代理的Nova Act研究预览版之后。

内容概要:本文档是Kenwood TK-6110 VHF FM收发器的操作手册,详细介绍了设备的基本功能、安装步骤和操作指南。手册首先感谢用户选择Kenwood产品,并强调了设备的安全性和合规性,包括FCC警告和政府法律禁止未经授权的无线电台操作。接着,手册逐步指导用户进行设备的拆箱检查、安装准备(如工具、电源连接)、安装步骤以及熟悉设备的前面板、后面板和麦克风布局。此外,还涵盖了基本操作(如开关机、音量调整、频道选择和通话)以及辅助功能(如定时断电、忙道锁定、双音多频呼叫等)。最后,提供了关于DTMF呼叫(手动拨号、重拨、自动拨号)的具体操作步骤。 适合人群:适用于需要使用Kenwood TK-6110 VHF FM收发器的专业用户或技术人员,特别是那些负责安装和维护移动通信设备的人员。 使用场景及目标:①帮助用户正确安装和配置Kenwood TK-6110 VHF FM收发器,确保其在车辆或其他移动平台上安全可靠地运行;②指导用户掌握设备的基本操作技能,如频道选择、通话、信号发送等;③提供详细的辅助功能设置说明,使用户能够充分利用设备的各种高级功能,如定时断电、忙道锁定、双音多频呼叫等。 其他说明:用户应仔细阅读并遵守所有安全警告和操作指南,以避免潜在的危害和法律问题。建议在安装和使用过程中咨询授权经销商或专业技术人员,以确保设备的正常运行和最佳性能。
内容概要:本文档详细介绍了一个基于MATLAB实现的Crossformer-Transformer跨变量注意力增强模型,用于多变量时间序列预测。项目旨在提升预测精度、构建高效且可扩展的深度学习架构、实现完整的模型实现与调试、深入分析变量间的时序依赖及交互机制、提升模型泛化能力和鲁棒性、促进多领域应用的智能化升级以及推动跨领域学术与技术交流。文档涵盖项目背景、目标与意义、挑战及解决方案、模型架构、代码实现、特点与创新、应用领域、注意事项、数据生成、目录结构设计、部署与应用、未来改进方向、总结与结论以及详细的程序设计思路和代码实现。 适用人群:具备一定编程基础,对深度学习、时间序列预测感兴趣的科研人员和工程师,特别是工作1-3年的研发人员。 使用场景及目标:①用于金融市场、智能制造、气象预报、交通流量、医疗健康、能源管理、生态环境、供应链等多领域的时间序列预测;②提升多变量时间序列预测的精度和泛化能力;③实现MATLAB环境下高效的模型训练与调试;④深入分析变量间的动态关系和时序依赖;⑤推动智能预测技术在实际场景中的应用与推广。 阅读建议:此资源不仅提供了完整的代码实现,还详细介绍了模型架构、训练过程和应用场景,读者在学习过程中应结合具体的应用场景进行实践,重点关注数据预处理、模型参数调整和结果解释,以确保理论与实践相结合,更好地理解和应用Crossformer-Transformer模型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值