语音大模型
文章平均质量分 94
comli_cn
算法工程师,知乎号,微信公众号同名:李歪理
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
阅读Qwen2-Audio技术报告
我们介绍了 Qwen-Audio 的最新进展 —— 一个名为 Qwen2-Audio 的大规模音频-语言模型。该模型能够接受多种音频信号输入,并执行音频分析,或针对语音指令直接生成文本回应。与复杂的分层标签体系相比,我们简化了预训练流程,采用自然语言提示来覆盖不同的数据和任务,并进一步扩大了数据规模。我们增强了 Qwen2-Audio 的指令跟随能力,并实现了两种不同的音频交互模式:语音聊天模式和音频分析模式。在语音聊天模式下,用户可以在无需输入文本的情况下自由地与 Qwen2-Audio 进行语音互动;原创 2025-09-10 15:58:57 · 426 阅读 · 0 评论 -
FlexDuo论文阅读
微信公众号、知乎号(同名):李歪理,欢迎大家关注(论文最近更新:2025.5.29)FlexDuo是一种可插拔系统,用于为语音对话系统赋予全双工能力。全双工语音对话系统(Full-Duplex SDS)通过实现实时双向通信,显著提升了人机交互的自然性。然而,现有方法仍面临一系列挑战,例如:由于架构设计高度耦合、状态建模过于简单(仅采用二元状态模型),导致模块无法独立优化,以及上下文噪声干扰问题严重。原创 2025-06-27 11:09:01 · 749 阅读 · 1 评论 -
基于大语言模型(LLM)增强的全双工语音对话系统的对话管理
实现语音对话系统(SDS)中的全双工通信,需要在听、说、思考之间进行实时协调。本文提出了一种语义语音活动检测(VAD)模块,作为对话管理器(DM),以高效管理全双工SDS中的轮次切换。该语义VAD模块是一个轻量级(5亿参数)的大语言模型(LLM),在全双工对话数据上进行微调,能够预测四种控制标记以调节轮次切换和保持状态,区分有意和无意的插话,同时检测查询完成,以处理用户的暂停和犹豫。通过在短时间间隔内处理输入语音,语义VAD实现了实时决策,而核心对话引擎(CDE)仅在生成回复时被激活,从而降低了计算开销。原创 2025-06-27 10:40:54 · 1597 阅读 · 0 评论 -
全双工口语对话模型综述
全双工语音对话是指系统具备在接收用户语音的同时生成语音输出的能力。这种设计将电信领域的“全双工”概念——即双向、同时通信——扩展应用于对话式人工智能,消除了人工设定的轮流对话限制,支持更自然的对话形式,如语音重叠、插话和中断。一个全双工对话模型的关键特性包括:同时听与说:模型在并行通道中实时处理输入并生成输出。灵活的轮流发言机制:系统能够处理用户的“打断发言”、提供及时的回应反馈(如“嗯”、“我懂了”),并可动态地让出或掌控对话控制权。原创 2025-06-25 17:28:30 · 996 阅读 · 0 评论 -
SALMONN-omni论文阅读
为了实现流畅自然的人机语音交互,目前的全双工对话系统通常采用模块化架构,例如语音活动检测器、中断检测、对话状态预测器或多个 LLM,但这些方案存在误差累积问题,难以处理上下文依赖的“插话”(barge‑in)和回声消除等关键挑战。虽然像 Moshi 这样的系统通过将音频编解码器编码注入单一 LLM 的 token 空间,从而简化了流程,但它们在处理语音输入而非文本时仍导致显著性能退化。原创 2025-06-17 19:26:26 · 1355 阅读 · 0 评论
分享