元气树莓-优快云博客

原创 Moshi全双工语音交互系统-对标GPT-4o

Moshi是一个全双工语音实时交互系统，语音-文本基础模型，可实现实时口语对话。Moshi 的开发流程首先预训练了一个专注于文本处理的大型语言模型 Helium，接着构建了离散化语音模型 Mimi，然后通过 RQ-Transformer 将两者结合并在语音模态上继续训练，最后引入“内心独白”机制以提升合成音频的质量和流式生成的自然度，从而实现高质量的多模态对话体验。

2025-01-08 14:17:36 1200

原创 GLM-4-Voice支持中英对话的语音交互模型

GLM-4-Voice的模型架构设计旨在构建一个具有高智能的端到端语音聊天机器人，能够像人类一样进行自然和富有表现力的语音交互。

2025-01-08 13:51:23 1838

原创简单说说语音特征提取与预处理的一些方法

简单说说语音信号的一些预处理和提取

2024-09-02 20:59:06 1935

原创 Fastspeech系列&MegaTTS1/2

Fastspeech系列是之前工业界和学术界最热门的语音合成架构之一，它完成了从FastSpeech到FastSpeech2和FastSpeech2s的迭代。而MegaTTS算是Fastspeech的大语音版本，在大量音频数据的加持下取得了一个比较好的效果

2024-08-15 16:42:04 1588 1

大模型API调用是指通过编程接口（API）访问大型人工智能模型，以实现自然语言处理、代码生成、内容创作等多种功能。大模型的API扮演了一个接口（Interface）的角色，它允许用户以编程方式与大模型进行交互，而无需深入了解模型内部的复杂结构和算法。这种模式类似于模型即服务（Model as a Service, MaaS），其中大模型被封装成一个可访问的服务，用户只需通过发送HTTP请求并遵循API规范，即可获得模型针对特定输入（即用户的问题或prompt）的输出。以智谱AI为例，演示如何调用大模型。

2024-07-22 15:41:20 4107

原创 stable diffusion学习指南

AIGC之stable diffusion 的学习指南的整理

2024-05-22 21:54:12 2627 1

原创算法实习-八股整理（腾讯面试真题）

最近在找算法实习遇到的一些真题，目前会录取整理出来~供大家参考学习~

2024-05-21 21:26:26 1121 1

原创 Midjourney保姆级全方位教程

AI绘画Midjourney保姆级全方位教程；学习笔记

2023-11-02 20:12:27 709

原创语音基石模型

语音基石模型课程学后感，以及自己的理解。

2023-10-30 21:02:30 643

原创 Github工程文件含义

以VALL-E-X项目为例解读GitHub工程中各个文件的含义

2023-10-26 22:01:49 2532

原创 TTS之WaveNet、Tacotron和Tacotron2的介绍

TTS之WaveNet、Tacotron和Tacotron2的介绍

2023-10-13 20:11:55 1384

原创 TTS的发展：传统的TTS与基于深度学习的TTS

语音合成（Text-to-Speech，TTS）的历史可以追溯到很久以前。自18世纪以来，人们就想通过各种方法模拟人类发声的原理。随着深度学习技术的发展，端到端（End-to-End）的TTS系统逐渐崛起，这种系统简化了整个架构，并使得训练和生成过程更加一致。

2023-10-12 10:43:54 2678

原创《流畅的Python》学习笔记-第二章元组与切片（四）

元组与切片的介绍

2023-09-20 21:09:17 343

原创《流畅的Python》学习笔记-第二章列表推导式和生成器（三）

生成器（Generator）是 Python 中一种特殊的迭代器（Iterator），它能够在迭代过程中动态产生值，这可以有效地节省内存。列表推导式（List Comprehension）是一种简洁的生成列表的方法，它使用一条简洁的表达式来生成一个新的列表。笛卡尔积（Cartesian Product）是集合论中的一个概念，表示两个或多个集合中的元素的所有可能组合。函数，也称为匿名函数或拉姆达表达式，是 Python 中一种简洁的创建小型、临时函数的方法。函数用于对可迭代对象的每个元素应用指定的函数。

2023-09-19 11:19:13 251

Eleanor87的博客