智谱清言发布GLM-4-Voice情感语音模型,开启AI语音交互新纪元并推出AutoGLM手机操控能力

智谱清言发布GLM-4-Voice情感语音模型,开启AI语音交互新纪元并推出AutoGLM手机操控能力

【免费下载链接】webrl-glm-4-9b 【免费下载链接】webrl-glm-4-9b 项目地址: https://ai.gitcode.com/zai-org/webrl-glm-4-9b

2024年10月25日,人工智能领域再添重磅突破——智谱AI正式发布全新端到端情感语音模型GLM-4-Voice,同步推出具备手机操作能力的AutoGLM智能体系统。这两项技术革新标志着大模型在情感交互与工具使用领域实现双重跨越,为通用人工智能(AGI)的发展注入强劲动力。

继今年8月推出音视频通话功能让大模型具备"视听能力"后,智谱AI持续拓展多模态交互边界。GLM-4-Voice作为家族新成员,突破传统语音交互局限,实现从"能听会说"到"善解人意"的进化。该模型采用端到端架构设计,摒弃传统语音交互中"语音转文字再转语音"的级联处理模式,从根本上解决了信息传递过程中的损耗与延迟问题,理论建模上限实现质的飞跃。目前,用户可立即通过"智谱清言"平台体验这项技术成果。

GLM-4-Voice构建起全方位的情感语音交互体系,核心优势体现在五大维度:首先是细腻的情感表达能力,模型能根据对话场景自然呈现喜怒哀乐等丰富情绪,语音语调随情感波动呈现微妙变化;其次支持实时语速调节,用户可随时通过语音指令要求加快或减慢语速,适应不同沟通需求;第三实现灵活对话交互,允许用户随时打断并调整指令,大幅提升沟通效率;第四具备强大的语言包容性,不仅支持中英文流畅切换,更精通粤语、重庆话、北京话等多种方言;最后将与即将上线的视频通话功能深度融合,打造"能看会说"的沉浸式交互体验。

即日起,GLM-4-Voice已全面部署于清言APP,用户将获得宛若真人的对话体验——AI助手不仅能精准理解语义,更能捕捉话语中的情感色彩并给予恰当回应。随着视频通话功能的上线,用户将实现"边看边聊"的全新交互模式,AI助手将如同真实伙伴般陪伴探索世界。值得关注的是,该模型同步开启开源进程,成为智谱AI首个开放的端到端多模态模型,代码仓库地址为https://gitcode.com/zai-org/webrl-glm-4-9b。

相较于传统ASR+LLM+TTS的三级处理架构,GLM-4-Voice创新性地采用音频Token直接建模方式,在单一模型中完成语音理解与生成的全流程。其核心技术在于自主研发的音频Tokenizer,通过语音识别模型监督训练,实现12.5Hz超低码率下的语义与副语言信息(语速、情感等)完整保留。语音合成环节则运用Flow Matching模型,仅需10个音频Token即可启动合成,配合流式处理机制将延迟控制在毫秒级。

为突破语音模态下的"智商"与"表现力"双重挑战,研发团队创新性地将Speech2Speech任务拆解为Speech2Text与Text2Speech两大子任务,并设计针对性预训练方案:

图片展示了GLM-4-Voice模型中Speech2Text(S-T)和Text2Speech(T-S)两个预训练任务的数据构造流程,左侧为S-T任务(大规模文本音频交错数据)的文本转音频处理,右侧为T-S任务(大规模无监督音频数据)的音频转文本处理。 该图片清晰呈现了GLM-4-Voice模型的双路径训练策略,左侧展示从文本数据生成音频Token的Speech2Text过程,右侧呈现从音频数据提取文本转录的Text2Speech机制。这种创新架构使模型能同时吸收文本与音频数据的优势,为高质量情感语音交互奠定数据基础,帮助读者直观理解模型如何实现"听懂情绪并恰当回应"的核心能力。

在GLM-4-9B基座模型基础上,GLM-4-Voice经过数百万小时音频数据与数千亿Token文本数据的联合训练,构建起强大的音频理解与生成能力。独创的流式思考架构实现文本与语音模态的交替输出,在保证回复质量的同时将语音合成启动阈值降至20个Token,完美平衡交互流畅度与内容准确性。

GLM-4-Voice的推出标志着智谱AI在AGI征程上的重要突破,而AutoGLM系统的发布则进一步拓展了大模型的工具使用边界。这项创新将AI能力与用户最常接触的设备——手机深度融合,通过简单的文字或语音指令,即可驱动AI模拟人类完成各类手机操作任务。AutoGLM不受限于特定应用场景或API接口,完全遵循人类操作逻辑,无需用户构建复杂工作流。

AutoGLM的核心竞争力源于两大技术支柱:智谱自研的"基础智能体解耦合中间界面"与"自进化在线课程强化学习框架"。其中WebRL技术有效解决了智能体研究中的四大核心难题:任务规划与动作执行的能力拮抗、训练数据稀缺、反馈信号不足以及策略分布漂移。配合自适应学习机制,系统能够像人类学习过程般持续迭代技能,实现性能的稳定提升。

实测数据显示,AutoGLM在手机操作(Phone Use)与网页浏览(Web Browser Use)场景下均表现卓越:在AndroidLab评测基准中,其性能显著超越GPT-4o与Claude-3.5-Sonnet;WebArena-Lite评测中更是实现对GPT-4o约200%的性能提升,大幅缩小了人机在GUI操控领域的成功率差距。目前,AutoGLM Web版本已通过"智谱清言"插件开放使用,可自动完成网页内容检索、总结与生成;手机端应用已开启安卓系统内测,用户可通过指定渠道申请体验资格。

从单一文本模态到涵盖图像、视频、情感语音的多模态交互,再到工具使用能力的突破,智谱AI的技术演进始终以GLM系列基座模型为核心驱动力。最新发布的GLM-4-Plus模型不仅夯实了语言理解与生成的基础能力,更为多模态交互与工具使用提供了强大支撑。这种技术跃迁正逐步构建起完整的AGI能力体系:L1级语言能力已实现80%-90%的完成度,L2级逻辑思维能力持续深化,L3级工具使用能力通过AutoGLM取得实质性突破。

智谱AI对AGI发展路径提出清晰构想:L4级将实现AI的自我学习与反思改进,L5级则追求超越人类的科学探索能力。当前技术进展已点亮文本、视觉、声音等多模态感知能力,以及初步的逻辑推理与工具使用技能。未来,原生多模态模型的研发将成为重点方向,目标是实现认知能力与人类比肩、价值观与人类对齐的安全可控AI系统。

AutoGLM作为L3级工具能力的典型实践,正推动人机交互范式的根本性转变,为构建以大模型为核心的"GLM-OS"通用计算系统奠定基础。智谱AI认为,理想的AI工具能力应当复刻人类的行为模式:感知环境信息、规划任务步骤、执行工具操作、完成既定目标。这种"类人智能"将彻底打破当前AI应用的场景限制,开启通用人工智能的全新可能。

随着GLM-4-Voice与AutoGLM的协同发展,AI正从被动响应工具进化为主动理解、灵活协作的智能伙伴。这场技术变革不仅将重塑人机交互体验,更将在客服、教育、医疗等领域催生创新应用模式,为数字经济发展注入新动能。智谱AI表示,将持续开放技术成果,与行业伙伴共同探索AGI的无限可能。

【免费下载链接】webrl-glm-4-9b 【免费下载链接】webrl-glm-4-9b 项目地址: https://ai.gitcode.com/zai-org/webrl-glm-4-9b

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值