
英语模型
文章平均质量分 66
杰说新技术
AIGC最新前言落地技术研讨
展开
-
首个统一生成和判别任务的条件生成模型BiGR分享
BiGR模型是一种新型的条件图像生成模型,它通过使用紧凑的二进制潜在代码进行生成训练,以增强生成和表示能力。作为首个在同一框架内统一生成和判别任务的条件生成模型,BiGR在保持高生成质量的同时,能有效地执行视觉生成、辨别和编辑等多种视觉任务。BiGR建立在Llama主干之上,结合了掩码标记预测和二进制转码器。使用加权二进制交叉熵损失进行训练,以重建掩码标记。BiGR可以灵活地用于各种视觉应用,例如以零样本方式进行修复、去除修复、编辑、插值和丰富,而无需针对特定任务进行结构更改或参数微调。原创 2024-11-29 06:00:00 · 341 阅读 · 0 评论 -
超越ASR+LLM+TTS,最强端到端语音对话模型GLM-4-Voice部署
GLM-4-Voice是由智谱公司开发的一款端到端的情感语音模型。GLM-4-Voice由三个部分组成,包括Tokenizer、Decoder和9B模型,其中Tokenizer负责将连续语音转换为离散token,Decoder将token转换回连续语音输出,而9B模型则基于GLM-4-9B进行预训练和对齐,理解和生成离散化的语音。GLM-4-Voice能够模拟不同的情感和语调,如高兴、悲伤、生气、害怕等情绪,并用合适的情绪语气进行回复,这使得它在情感表达上比传统的TTS技术更加自然和细腻。原创 2024-11-04 06:00:00 · 953 阅读 · 0 评论 -
在实时语音交互上超过GPT-4o,端到端语音模型Mini-Omni部署
Mini-Omni是一个专注于音频的端到端会话模型,能够实现实时的语音输入和流式音频输出。这意味着Mini-Omni能够在对话中同时处理语音和文本,而无需依赖额外的自动语音识别(ASR)或文本到语音(TTS)系统。Mini-Omni模型采用了一种文本指导的语音生成方法,结合了批量并行策略,以进一步提升性能。Mini-Omni的架构通过引入适配器来增强音频处理能力,并能够并行生成文本和音频令牌。此外,模型还采用了流式解码技术,以支持实时交互。原创 2024-09-27 06:00:00 · 968 阅读 · 0 评论 -
超越openai的whisper,最新语音理解大模型Qwen2-Audio模型部署
Qwen2-Audio是由阿里巴巴集团研发的一款大型音频语言模型。Qwen2-Audio应用技术包括多模态输入处理、预训练与微调、注意力机制、条件文本生成、编码器-解码器架构以及Transformer架构。Qwen2-Audio支持直接语音输入和多语言文本输出,具备语音聊天和音频分析两大功能,并支持超过8种语言,包括中文、英语、粤语、法语等。原创 2024-08-19 06:00:00 · 2042 阅读 · 0 评论 -
支持多语言的MeloTTS模型最新语音合成部署分享(不看后悔)
MeloTTS是一个用于文本转语音(Text-to-Speech, TTS)的框架,它被设计成高效且可定制的,允许用户训练出具有独特音色和口音的TTS模型。MeloTTS支持英语、西班牙语、法语、中文、日语和韩语等多种语言,包括不同口音的英语。MeloTTS模型在CPU上也能实现实时语音合成,具有较快的合成速度。用户可以利用MeloTTS提供的工具和指南来训练新的TTS模型,这意味着可以创造个性化的语音合成效果,比如模仿特定人的声音或创造全新的发音风格。原创 2024-07-12 06:00:00 · 2981 阅读 · 0 评论