镰刀韭菜
视野,意志,品格;目标,坚持,实践
展开
-
新一代大规模声音克隆 TTS 模型——MaskGCT
MaskGCT是一个完全非自回归且无需文本对齐监督与音素时长预测的文本到语音合成模型。它采用掩码生成转换器进行构建,包括两个阶段,均通过掩码和预测学习范式进行训练。第一阶段是文本到语义(T2S)模型,该模型通过上下文学习预测掩码语义标记,使用文本标记序列和提示语音语义标记序列作为前缀,无需显式的时长预测。第二阶段是语义到声学(S2A)模型,它利用语义标记预测从基于RvQ的语音编码中提取的、具有提示声学标记的掩码声学标记。在推理过程中,模型能够生成一系列文本。原创 2025-01-20 20:40:41 · 245 阅读 · 0 评论 -
AudioGPT全新的 音频内容理解与生成系统
本文介绍了AudioGPT系统,该系统**结合了大型语言模型(LLMs)和音频基础模型,以处理复杂的音频信息并支持对话**。AudioGPT通过将LLMs与输入输出接口相连,实现了对语音、音乐、声音和头像生成的理解与生成任务,尤其强调了其在多轮对话中的能力。为了评估系统的性能,提出了基于一致性、能力和鲁棒性的评价原则,并通过实验展示了AudioGPT在处理多项AI任务上的有效性,包括但不限于语音合成、音乐生成、声学事件检测等。原创 2025-01-15 23:32:24 · 464 阅读 · 0 评论 -
GPT-4o背后的语音技术
GPT-4o是一个**any2any的多模态模型**,能够接受文本、音频、图像、视频等多模态输入,也能够生成包含文本、语音、图像和视频等混合内容的多模态输出。本文主要谈**语音多模态的实现**,并分享一些对于语音研究未来发展的看法。原创 2025-01-15 23:10:00 · 838 阅读 · 0 评论 -
音频语言模型与多模态体系结构
**多模态模型正在创造语言、视觉和语音等以前独立的研究领域的协同效应**。这些模型使用通用架构,将每种模式视为不同的“token”,使它们能够以一种与人类认知非常相似的方式联合建模和理解世界。原创 2025-01-15 01:14:31 · 482 阅读 · 0 评论 -
语音合成的预训练模型
可以将这些 codebook 视为音频的整数形式表示或嵌入,并且每个后续的 codebook 都能在前一个的基础上提高音频重建的质量。这给生成的语音添加了一些随机变化。输入的语音或文本(取决于任务)通过相应的预处理网络被预处理, 以获得 Transformer 可以使用的隐藏表示。虽然本文关注的是文本转语音, 但这个模型还可以用于语音转文本的任务(语音识别或说话人识别),以及语音转语音的任务(例如语音增强或变声器)。与下面讨论的 MMS 不同,它不需要指定所使用的语言,只需将输入文本调整为相应的语言即可。原创 2025-01-15 00:06:20 · 200 阅读 · 0 评论 -
语音识别的预训练模型
Whisper 是一个强大的用于语音识别和翻译的预训练模型。与 Wav2Vec2 相比,它具有更高的转写准确性,输出包含标点和大小写。它可用于转写英语和其他 96 种语言的语音,既能处理短音频片段又能通过分块处理的较长片段。这些属性使其可以直接用于许多语音识别和翻译任务,无需微调。pipeline() 方法提供了一种使用一行 API 调用轻松运行推理的方法,还能对生成的预测进行控制。尽管 Whisper 模型在许多高资源语言上表现极佳,但。原创 2025-01-14 22:48:17 · 405 阅读 · 0 评论 -
预训练语音模型的三大预测方法
预训练语音模型的三大预测方法各有千秋,它们在不同的应用场景中展现出了强大的潜力和价值。目前来看,基于transformer 的模型要好于早期基于LSTM或GRU的模型。若追求性能,那目前公认最好的预训练语音模型应该是wav2vec 2.0。但如果追求速度,那Audio ALBERT,以及NPC模型都是不错的选择,这两个模型能够在保证comparable的性能的情况下,减小模型的大小并提升模型的速度。随着技术的不断进步和数据的不断积累,我们有理由相信预训练语音模型将在未来发挥更加重要的作用。原创 2025-01-14 22:36:08 · 196 阅读 · 0 评论 -
VoiceBox:基于文本引导的多语种通用大规模语音生成
Voicebox的目的也是建立一个类似LLM的训练机制,创建一个生成式的模型。与LLM不同的是,Voicebox使用的是语音和对应文本记录数据。它的训练目标是根据音频周围的数据和相关的文本记录数据来预测目标音频。这也可以当作是一种情景学习,其中语音的风格是来自于音频情景和文本内容。Voicebox不需要任何音频的风格标注数据(包括录制人的信息、感情、噪音等),对音频数据要求很低,这些音频数据更加容易获得。因此可以很容易在更大规模数据集上训练。Voicebox本身不是一个自回归模型,而是。原创 2025-01-09 21:11:47 · 277 阅读 · 0 评论 -
10分钟快速了解OceanGPT(沧渊)
全文概要:本文介绍了一种专为海洋科学任务设计的大规模语言模型(LLM),名为OCEANGPT,它是海洋科学领域的首个大型预训练语言模型。该模型通过自动获取大量海洋领域指令数据的方式进行训练,利用多代理协作框架DOINSTRUCT自动生成高质量的海洋相关数据集,从而增强了对海洋知识的专业性和丰富性。此外,还提出了第一个海洋学基准——OCEANBENCH,用于评估不同语言模型在海洋科学任务上的性能。原创 2025-01-09 00:40:17 · 358 阅读 · 0 评论 -
【扩散模型】一文教你使用扩散模型生成音频
本文介绍源音频数据与频谱之间的转换方法,以及如何将音频数据转换为频谱所使用的生成器,然后微调一个指定曲风的音频扩散模型,最后将自己的管线上传到Hugging Face Hub。原创 2023-12-08 08:00:00 · 1835 阅读 · 1 评论 -
【研究计划书】疾病检测中的语音生物标识研究
语音识别是以语音为研究对象,通过语音信号处理和模式识别等技术让机器能够自动识别和理解人类口述的语言。语音识别技术包含机器对语音信号的处理,机器对人类语义的理解,以及将语音信号转换为相应的文本或动作等过程。语音识别可以帮助计算机理解人类的行为,判断人类当前的情绪和状态。目前,已经有大量的机器学习模型和深度学习模型被广泛应用到语音识别研究中[1-5],并取得了良好的效果。原创 2022-10-15 08:00:00 · 712 阅读 · 0 评论 -
【PaperReading】Can Machine Learning Assist Locating the Excitation of Snore Sound? A Review
在过去的三十年里,打鼾(Snoring (affecting more than 30% adults of the UK population))在医学和工程学等跨学科研究领域得到了越来越多的研究。早期的研究工作表明,鼾声可以携带有关上呼吸道状态的重要信息,这有助于发展基于无创声学的诊断和筛查阻塞性睡眠呼吸暂停和其他睡眠障碍的方法。尽管如此,临床实践对于寻找方法定位鼾声的激发有更多的要求,而不仅仅是检测睡眠障碍。为了进一步开展相关的研究,并引起大家的重视,本文综述了从机器学习到自动分类鼾声的最新技术。原创 2022-11-03 08:00:00 · 188 阅读 · 0 评论 -
【PaperReading】情感人的互联网:通过视听信号实现跨文化的可持续情感计算
在本研究中,我们致力于将传统的孤立情感计算转换为终身学习模式,即持续情感计算,提供一些新的思路。作为音频和视频领域的第一个尝试性工作,我们在该基准工作中探索了弹性权重合并的终身学习算法,并将其在一个完美的跨文化场景中,即法语和德语情感识别。为了评估引入终身学习的可行性和有效性,我们在RECOLA和SEWA数据库中进行了广泛的实验。原创 2022-11-02 08:00:00 · 264 阅读 · 0 评论 -
【PaperReading】Robust Semi-supervised Generative Adversarial Networks for Speech Emotion Recognition
语音情感识别系统的性能在很大程度上依赖于可供训练的带标记数据量。然而,获取足够的带注释的数据是非常费时费力的,并且有时候由于隐私和道德而被禁止。为了解决这个问题,本文提出了一种半监督生成式对抗网络(SSGAN),用于从标记数据和非标记数据中获取潜在的知识。SSGAN是由GAN衍生而来的,但SSGAN的鉴别器不仅能区分其输入样本的真伪,还能区分输入样本的情感类别。因此,可以学习现实输入的分布情况,以鼓励在有标签和无标签数据之间共享标签信息。原创 2022-10-31 08:00:00 · 209 阅读 · 0 评论 -
基于MATLAB的语音信号处理
基于MATLAB的语音信号处理摘要:语音信号处理是目前发展最为迅速的信息科学研究领域中的一个,是目前极为活跃和热门的研究领域,其研究成果具有重要的学术及应用价值。语音信号处理的研究,对于机器语言、语音识别、语音合成等领域都具有很大的意义。MATLAB软件以其强大的运算能力可以很好的完成对语音信号的处理。通过MATLAB可以对数字化的语音信号进行时频域分析,方便地展现语音信号的时域及频域曲线,并且根...原创 2018-07-15 01:21:20 · 114256 阅读 · 34 评论 -
【韭菜拾遗】Coqui TTS: a deep learning toolkit for Text-to-Speech
Coqui TTS是高级文本到语音生成的库。它建立在最新研究的基础上,旨在实现易于训练,速度和质量的最佳权衡。TTS配备了预验证的模型,用于测量数据集质量的工具,并且已经以20多种语言用于产品和研究项目。...原创 2022-08-11 13:11:21 · 2301 阅读 · 0 评论 -
【语音识别】论文学习笔记:利用分布平滑策略的鲁棒性半监督生成式对抗网络进行语音情感识别
随着深度学习技术的发展,语音情感识别技术在语音情感识别方面取得了巨大的成就,但语音情感识别系统的性能在很大程度上依赖于可供训练的带标记数据量。然而,获取足够的带注释的数据是非常费时费力的,并且有时候由于隐私和道德而被禁止。为了解决这个问题,本文提出了一种半监督生成式对抗网络(SSGAN),用于从标记数据和非标记数据中获取潜在的知识。SSGAN是由GAN衍生而来的,但SSGAN的鉴别器不仅能区分其输入样本的真伪,还能区分输入样本的情感类别。因此,可以学习现实输入的分布情况,以鼓励在有标签和无标签数据之间共享标翻译 2022-02-18 01:00:00 · 654 阅读 · 0 评论 -
【语音识别】作业1:语音特征提取
语音识别原理与应用:语音特征提取(实践)1. 采用标准的WAV头部,用代码实现PCM WAV文件的读写。2. 完成FBank、MFCC和PLP三种声学特征提取的代码实现3. 针对MFCC,回答以下问题:3.1 分析采样率、帧长、帧移与MFCC矢量个数之间的关系。3.2 分析FFT大小与每帧采样点数的关系3.3 分析Mel频率的计算过程3.4 分析DCT变换后得到的MFCC静态特征3.5 分析一阶和二阶动态特征的计算过程4. 对比分析STFT系列的声学特征与CQCC特征在频谱分布上的区别5. 如果对语音模拟信原创 2022-02-16 20:01:37 · 4739 阅读 · 1 评论 -
[语音识别]声学特征提取
声学特征提取语音识别:声学特征提取1. 预加重2. 分帧3. 加窗4. 离散傅里叶变换(DFT)5. 语谱图6. 梅尔刻度(Mel Scale)7. 梅尔滤波器组(Mel Filter Bank)8. FBANK特征9. MFCC特征10. 差分11. CQCC特征总结语音识别:声学特征提取常用的声学特征有FBANK、MFCC、PLP等, MFCC特征各纬度之间具有较弱的相关性,适合GMM的训练,FBANK相比MFCC保留了更原始的声学特征,多用于DNN的训练。1. 预加重语音中有频谱倾斜现象,即转载 2021-04-08 00:23:43 · 5808 阅读 · 0 评论 -
【语音识别】Kaldi学习之数据整理(2)
数据整理2. 数据预处理2.1 环境检查2.2 生成表单文件2. 数据预处理数据预处理是将原始数据的文件结构转换为Kaldi通用脚本可以处理的格式。Librispeech的预处理脚本是local/data_prep.sh。本文分析该脚本的处理步骤,展示如何准备模型训练所需的数据环境。Librispeech的总脚本(run.sh)第2阶段如下:if [ $stage -le 2 ]; then # format the data as Kaldi data directories for pa原创 2021-04-07 23:43:53 · 1084 阅读 · 0 评论 -
【语音识别】Kaldi学习之数据整理(1)
数据整理1. 数据分集在使用语音识别工具训练声学模型时,需要面临的两个问题:如何选择训练数据如何将数据整理成工具可以支持的格式。本文介绍如何构建符合Kaldi脚本规范的数据资源文件,包括数据文件夹data和语言文件夹data/lang,并以Librispeech为例,介绍如何划分训练数据,以及各种资源文件的内容和用途。1. 数据分集通常将数据分为训练数据、开发数据和测试数据三个子集。训练数据:用于训练模型的参数开发数据:用于指导训练配置参数和调节解码配置参数,优化模型训练过程和配置解码原创 2021-03-29 23:40:03 · 981 阅读 · 1 评论 -
【语音识别】Kalid安装过程详解
Kaldi安装过程详解1. Kaldi介绍2. 环境准备3. 安装Kaldi1. Kaldi介绍Kaldi 是由 C++ 编写的语音识别工具,其目的在于为语音识别研究者提供一个研究和使用的平台。语音识别,大体可分为“传统”识别方式与“端到端”识别方式,其主要差异就体现在声学模型上。“传统”方式的声学模型一般采用隐马尔可夫模型(HMM),而“端到端”方式一般采用深度神经网络(DNN)Kaldi架构如上图所示,最上面是外部的工具,包括用于线性代数库BLAS/LAPACK和OpenFst。中间是Kaldi原创 2021-02-23 01:27:55 · 2139 阅读 · 1 评论 -
【语音识别】语音识别技术入门
语音识别入门什么是语音什么是语音语音是语言的声学表现形式,是人类自然的交流工具,例如语音通信、人机语音交互。相关概念有:声学Acoustics音频Audio语音Speech音频采样率、量化位数、通道数16KHZ,16bit,Mono8KHZ,8bit,Mono16KHZ,16bit,N-Channels语音编码、格式参数编码、波形编码、混合编码PCM(WAV)、MP3、SLIK…时域波形的振幅、频率频域:傅里叶分析:每个复杂的波形都可以由不同原创 2021-01-24 18:25:32 · 9227 阅读 · 6 评论