Hertz-dev：开启全双工音频交互的新篇章

最新推荐文章于 2025-06-02 16:08:05 发布

码农工具百宝箱

最新推荐文章于 2025-06-02 16:08:05 发布

阅读量1.2k

点赞数 17

分类专栏：码农小工具文章标签：人工智能语音识别

本文链接：https://blog.youkuaiyun.com/u013818406/article/details/143492472

版权

码农小工具专栏收录该内容

35 篇文章

订阅专栏

在人工智能领域，对话系统一直是研究的热点之一。随着技术的进步，我们越来越期待机器能够像人类一样自然地参与对话。最近，Standard Intelligence团队宣布开源了他们的全双工音频交互基础模型——Hertz-dev，这标志着我们在实现这一目标上迈出了重要的一步。

Hertz-dev简介

Hertz-dev是一个具有8.5亿参数的全双工、仅音频的transformer基础模型。它的设计目标是让设备能够听懂人类的语言并参与到对话中来。这个模型的开源，为研究人员和开发者提供了一个强大的工具，用于研究和开发下一代的语音交互系统。

核心组件

Hertz-dev由以下几个核心组件构成：

hertz-codec：这是一个卷积音频自编码器，能够将单声道、16kHz的语音转换为8Hz的潜在表示，比特率约为1kbps。在主观评估中，该编码器在1kbps的比特率下的性能超过了6kbps的Soundstream和Encodec，并且与8kbps的DAC相当，同时每秒的token数低于任何流行的tokenizer，这对于语言建模至关重要。编码器有500万参数，解码器有9500万参数。
hertz-vae：这是一个18亿参数的transformer解码器，作为音频VAE的学习先验。模型使用8192个采样的潜在表示（17分钟）作为上下文，并预测下一个编码音频帧作为高斯混合。来自下一个token的15位量化信息作为语义框架，以流式方式引导生成。
hertz-dev：这是一个66亿参数的transformer堆栈。主要的检查点部分从预训练的语言模型权重初始化，然后在500B个token上训练一个epoch，上下文长度为2048-token（4分钟）。团队还发布了一个语言模型初始化的消融版本，同样在500B个token上训练。

技术亮点

Hertz-dev是第一个公开发布的音频基础模型。基础模型作为研究产品具有独特价值，因为它们能够准确模拟它们训练的数据分布，与那些经过大量RL调整以缩小其生成分布的模型不同。这使得基础模型成为微调以适应大量不同任务的最佳起点。

Hertz-dev的理论延迟为65ms，实际世界平均延迟为120ms（在RTX 4090上）。这比世界上任何公共模型的延迟都要低大约2倍，是模型能够以类似人类的方式与您互动的先决条件，而不是感觉像延迟、断断续续的电话通话。Standard Intelligence目前正在训练一个更大、更先进的Hertz版本，将使用扩展的基础模型配方和RL调整来大幅提高模型的原始能力和最终连贯性。Hertz-dev是实时语音交互未来的一瞥，也是世界上最容易为研究人员微调和构建的对话音频模型。

使用指南

对于想要尝试Hertz-dev的用户，Standard Intelligence推荐从inference.ipynb开始，使用它来从提示生成单声道或双声道的补全。然后，可以使用inference_client.py和inference_server.py通过麦克风实时与模型对话。这三个脚本将自动将模型下载到./ckpt目录。