自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 Moshi全双工语音交互系统-对标GPT-4o

Moshi是一个全双工语音实时交互系统,语音-文本基础模型,可实现实时口语对话。Moshi 的开发流程首先预训练了一个专注于文本处理的大型语言模型 Helium,接着构建了离散化语音模型 Mimi,然后通过 RQ-Transformer 将两者结合并在语音模态上继续训练,最后引入“内心独白”机制以提升合成音频的质量和流式生成的自然度,从而实现高质量的多模态对话体验。

2025-01-08 14:17:36 885

原创 GLM-4-Voice支持中英对话的语音交互模型

GLM-4-Voice的模型架构设计旨在构建一个具有高智能的端到端语音聊天机器人,能够像人类一样进行自然和富有表现力的语音交互。

2025-01-08 13:51:23 1366

原创 简单说说语音特征提取与预处理的一些方法

简单说说语音信号的一些预处理和提取

2024-09-02 20:59:06 1471

原创 Fastspeech系列&MegaTTS1/2

Fastspeech系列是之前工业界和学术界最热门的语音合成架构之一,它完成了从FastSpeech到FastSpeech2和FastSpeech2s的迭代。而MegaTTS算是Fastspeech的大语音版本,在大量音频数据的加持下取得了一个比较好的效果

2024-08-15 16:42:04 1229 1

原创 大模型API调用(一)简单用法

大模型API调用是指通过编程接口(API)访问大型人工智能模型,以实现自然语言处理、代码生成、内容创作等多种功能。大模型的API扮演了一个接口(Interface)的角色,它允许用户以编程方式与大模型进行交互,而无需深入了解模型内部的复杂结构和算法。这种模式类似于模型即服务(Model as a Service, MaaS),其中大模型被封装成一个可访问的服务,用户只需通过发送HTTP请求并遵循API规范,即可获得模型针对特定输入(即用户的问题或prompt)的输出。以智谱AI为例,演示如何调用大模型。

2024-07-22 15:41:20 2974

原创 stable diffusion学习指南

AIGC之stable diffusion 的学习指南的整理

2024-05-22 21:54:12 2459 1

原创 算法实习-八股整理(腾讯面试真题)

最近在找算法实习遇到的一些真题,目前会录取整理出来~供大家参考学习~

2024-05-21 21:26:26 860 1

原创 Midjourney保姆级全方位教程

AI绘画Midjourney保姆级全方位教程;学习笔记

2023-11-02 20:12:27 512

原创 语音基石模型

语音基石模型课程学后感,以及自己的理解。

2023-10-30 21:02:30 500

原创 Github工程文件含义

以VALL-E-X项目为例解读GitHub工程中各个文件的含义

2023-10-26 22:01:49 2164

原创 TTS之WaveNet、Tacotron和Tacotron2的介绍

TTS之WaveNet、Tacotron和Tacotron2的介绍

2023-10-13 20:11:55 953

原创 TTS的发展:传统的TTS与基于深度学习的TTS

语音合成(Text-to-Speech,TTS)的历史可以追溯到很久以前。自18世纪以来,人们就想通过各种方法模拟人类发声的原理。随着深度学习技术的发展,端到端(End-to-End)的TTS系统逐渐崛起,这种系统简化了整个架构,并使得训练和生成过程更加一致。

2023-10-12 10:43:54 1994

翻译 换脸综述翻译-Face swap综述(摘自SCI)

这篇文章综述简要介绍了换脸深度伪造技术的概念、背景及实现方法。希望这些信息能够帮助你更好地了解这一计算机视觉领域的研究方向。

2023-09-21 11:55:02 1233 1

原创 bark与tortoise

由于深度学习和生成建模的最新改进,文本转语音 (TTS) 技术取得了快速发展。领先的两个模型是和。两者都利用变压器和扩散模型等尖端技术从文本中合成听起来令人惊叹的自然语音。对于构建语音产品的工程师和创始人来说,考虑到这些新系统的功能,选择正确的 TTS 模型现在是一项复杂的工作。虽然 Bark 和 Tortoise 有相似的最终目标,但它们的基本方法却截然不同。探索音频的新生成前沿,理解这些模型都是成功的关键。

2023-09-20 21:22:02 665

原创 《流畅的Python》学习笔记-第二章 元组与切片(四)

元组与切片的介绍

2023-09-20 21:09:17 194

原创 《流畅的Python》学习笔记-第二章 列表推导式和生成器(三)

生成器(Generator)是 Python 中一种特殊的迭代器(Iterator),它能够在迭代过程中动态产生值,这可以有效地节省内存。列表推导式(List Comprehension)是一种简洁的生成列表的方法,它使用一条简洁的表达式来生成一个新的列表。笛卡尔积(Cartesian Product)是集合论中的一个概念,表示两个或多个集合中的元素的所有可能组合。函数,也称为匿名函数或拉姆达表达式,是 Python 中一种简洁的创建小型、临时函数的方法。函数用于对可迭代对象的每个元素应用指定的函数。

2023-09-19 11:19:13 168

原创 (Tortoise)Better speech synthesis through scaling

近年来,自回归变压器和ddpms的应用彻底改变了图像生成领域。这些方法将图像生成的过程建模为逐步的概率过程,并利用大量的计算和数据来学习图像分布。这种提高性能的方法不必局限于图像。本文描述了一种将图像生成领域的进步应用于语音合成的方法。结果是 TorToise - 一种富有表现力的多语音文本到语音系统。

2023-09-12 16:51:24 709

原创 《流畅的Python》学习笔记-第一章python的数据类型(二)

python中一些特殊方法是使用

2023-09-12 10:21:55 168

原创 《流畅的Python》学习笔记-第一章python的数据类型(一)

流畅的Python》(Fluent Python)是一本由Luciano Ramalho编写的Python编程书籍。这本书不仅介绍了Python的基本语法和特性,还探讨了Python中的高级概念、最佳实践和一些常用的设计模式。我将从2023年9月1日起更新学习这本书的一些笔记,本人基础较差所以学习起来会比较慢,内容也会比较详细~

2023-09-10 21:19:37 119

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除