Hertz-dev:开启全双工音频交互的新篇章

在人工智能领域,对话系统一直是研究的热点之一。随着技术的进步,我们越来越期待机器能够像人类一样自然地参与对话。最近,Standard Intelligence团队宣布开源了他们的全双工音频交互基础模型——Hertz-dev,这标志着我们在实现这一目标上迈出了重要的一步。

Hertz-dev简介

Hertz-dev是一个具有8.5亿参数的全双工、仅音频的transformer基础模型。它的设计目标是让设备能够听懂人类的语言并参与到对话中来。这个模型的开源,为研究人员和开发者提供了一个强大的工具,用于研究和开发下一代的语音交互系统。

核心组件

Hertz-dev由以下几个核心组件构成:

  1. hertz-codec:这是一个卷积音频自编码器,能够将单声道、16kHz的语音转换为8Hz的潜在表示,比特率约为1kbps。在主观评估中,该编码器在1kbps的比特率下的性能超过了6kbps的Soundstream和Encodec,并且与8kbps的DAC相当,同时每秒的token数低于任何流行的tokenizer,这对于语言建模至关重要。编码器有500万参数,解码器有9500万参数。

  2. hertz-vae:这是一个18亿参数的transformer解码器,作为音频VAE的学习先验。模型使用8192个采样的潜在表示(17分钟)作为上下文,并预测下一个编码音频帧作为高斯混合。来自下一个token的15位量化信息作为语义框架,以流式方式引导生成。

  3. hertz-dev:这是一个66亿参数的transformer堆栈。主要的检查点部分从预训练的语言模型权重初始化,然后在500B个token上训练一个epoch,上下文长度为2048-token(4分钟)。团队还发布了一个语言模型初始化的消融版本,同样在500B个token上训练。

技术亮点

Hertz-dev是第一个公开发布的音频基础模型。基础模型作为研究产品具有独特价值,因为它们能够准确模拟它们训练的数据分布,与那些经过大量RL调整以缩小其生成分布的模型不同。这使得基础模型成为微调以适应大量不同任务的最佳起点。

Hertz-dev的理论延迟为65ms,实际世界平均延迟为120ms(在RTX 4090上)。这比世界上任何公共模型的延迟都要低大约2倍,是模型能够以类似人类的方式与您互动的先决条件,而不是感觉像延迟、断断续续的电话通话。Standard Intelligence目前正在训练一个更大、更先进的Hertz版本,将使用扩展的基础模型配方和RL调整来大幅提高模型的原始能力和最终连贯性。Hertz-dev是实时语音交互未来的一瞥,也是世界上最容易为研究人员微调和构建的对话音频模型。

使用指南

对于想要尝试Hertz-dev的用户,Standard Intelligence推荐从inference.ipynb开始,使用它来从提示生成单声道或双声道的补全。然后,可以使用inference_client.pyinference_server.py通过麦克风实时与模型对话。这三个脚本将自动将模型下载到./ckpt目录。

应用前景

Hertz-dev的开源,为语音识别和生成领域带来了新的可能性。它不仅可以用于改进现有的语音助手,还可以用于开发全新的应用,比如:

  • 智能客服:通过更自然的对话能力,提升客户服务体验。
  • 语言学习应用:模拟母语者的发音和语调,帮助学习者提高语言技能。
  • 游戏和娱乐:为虚拟角色提供更真实的语音交互,增强沉浸感。
  • 辅助听力设备:帮助听力受损者更好地理解和参与对话。

结语

Hertz-dev的开源是语音技术发展的一个重要里程碑。它不仅提供了一个强大的研究工具,也为未来的语音交互技术指明了方向。随着技术的不断进步,我们有理由相信,Hertz-dev将为语音识别和生成领域带来更多的创新和突破。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码农工具百宝箱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值