在人工智能领域,对话系统一直是研究的热点之一。随着技术的进步,我们越来越期待机器能够像人类一样自然地参与对话。最近,Standard Intelligence团队宣布开源了他们的全双工音频交互基础模型——Hertz-dev,这标志着我们在实现这一目标上迈出了重要的一步。
Hertz-dev简介
Hertz-dev是一个具有8.5亿参数的全双工、仅音频的transformer基础模型。它的设计目标是让设备能够听懂人类的语言并参与到对话中来。这个模型的开源,为研究人员和开发者提供了一个强大的工具,用于研究和开发下一代的语音交互系统。
核心组件
Hertz-dev由以下几个核心组件构成:
-
hertz-codec:这是一个卷积音频自编码器,能够将单声道、16kHz的语音转换为8Hz的潜在表示,比特率约为1kbps。在主观评估中,该编码器在1kbps的比特率下的性能超过了6kbps的Soundstream和Encodec,并且与8kbps的DAC相当,同时每秒的token数低于任何流行的tokenizer,这对于语言建模至关重要。编码器有500万参数,解码器有9500万参数。
-
hertz-vae:这是一个18亿参数的transformer解码器,作为音频VAE的学习先验。模型使用8192个采样的潜在表示(17分钟)作为上下文,并预测下一个编码音频帧作为高斯混合。来自下一个token的15位量化信息作为语义框架,以流式方式引导生成。
-
hertz-dev:这是一个66亿参数的transformer堆栈。主要的检查点部分从预训练的语言模型权重初始化,然后在500B个token上训练一个epoch,上下文长度为2048-token(4分钟)。团队还发布了一个语言模型初始化的消融版本,同样在500B个token上训练。
技术亮点
Hertz-dev是第一个公开发布的音频基础模型。基础模型作为研究产品具有独特价值,因为它们能够准确模拟它们训练的数据分布,与那些经过大量RL调整以缩小其生成分布的模型不同。这使得基础模型成为微调以适应大量不同任务的最佳起点。
Hertz-dev的理论延迟为65ms,实际世界平均延迟为120ms(在RTX 4090上)。这比世界上任何公共模型的延迟都要低大约2倍,是模型能够以类似人类的方式与您互动的先决条件,而不是感觉像延迟、断断续续的电话通话。Standard Intelligence目前正在训练一个更大、更先进的Hertz版本,将使用扩展的基础模型配方和RL调整来大幅提高模型的原始能力和最终连贯性。Hertz-dev是实时语音交互未来的一瞥,也是世界上最容易为研究人员微调和构建的对话音频模型。
使用指南
对于想要尝试Hertz-dev的用户,Standard Intelligence推荐从inference.ipynb
开始,使用它来从提示生成单声道或双声道的补全。然后,可以使用inference_client.py
和inference_server.py
通过麦克风实时与模型对话。这三个脚本将自动将模型下载到./ckpt
目录。
应用前景
Hertz-dev的开源,为语音识别和生成领域带来了新的可能性。它不仅可以用于改进现有的语音助手,还可以用于开发全新的应用,比如:
- 智能客服:通过更自然的对话能力,提升客户服务体验。
- 语言学习应用:模拟母语者的发音和语调,帮助学习者提高语言技能。
- 游戏和娱乐:为虚拟角色提供更真实的语音交互,增强沉浸感。
- 辅助听力设备:帮助听力受损者更好地理解和参与对话。
结语
Hertz-dev的开源是语音技术发展的一个重要里程碑。它不仅提供了一个强大的研究工具,也为未来的语音交互技术指明了方向。随着技术的不断进步,我们有理由相信,Hertz-dev将为语音识别和生成领域带来更多的创新和突破。