自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(378)
  • 资源 (1)
  • 收藏
  • 关注

原创 一些废话

1.迭代这种思路要会啊2.迭代的速度比递归快啊3.比如说树啊,dfs啊等~~~

2018-10-17 23:21:27 268

原创 427. Construct Quad Tree(python+cpp)

题目:We want to use quad trees to store an N x Nboolean grid. Each cell in the grid can only be true or false. The root node represents the whole grid. For each node, it will be subdivided into four c...

2018-10-16 11:42:18 279

原创 [不断更新]位运算的一些奇技淫巧

1.如果数字n是二进制表示01相间的数字,那么a=n+(n>>1)是一个全1的数字,b=a&(a+1)是二进制表示全0的数字。2.判断一个数字n是否是2的次幂的最快的方式:如果数字n是2的次幂,那么它的二进制表示只有一位是1,其余位都是0,那么n&(n-1)=0。3.求一个数的二进制表达中1的个数,有个技巧。(当然,python的话可以直接count('1'))假...

2018-10-12 10:17:23 664

原创 ImageCaption算法总结

综述: 最近在看ImageCaption的相关内容,ImageCaption简单来说就是看图说话,输入时一张图片,输出是一句话,主要看了知乎上杜克的两篇文章,看了Google的两篇关于NIC模型的论文,配置了neutraltalk,neutraltalk2,tensorflow/im2txt(NIC)的环境,跑了neutraltalk和neutraltalk2的inference,和im2txt的

2017-08-15 13:08:08 8288 2

原创 语音合成VC技术调研

两个极端,要么是一堆 loss 相加,要么只考虑 TTS 的 loss (如仅有一个 L1 Loss)可以考虑 content 信息 (需要用到 asr 模型), pitch 信息 (需要用到 F0 模型) -> StarGANv2-VC 等也可以完全当成是一个 TTS 模型求 loss, 不考虑生成的音频的 content 是否与 source audio 一致 -> 基于 PPG/SSL 的 VC、FragmentVC 系列等FreeVC。

2025-03-11 17:37:19 347

原创 audio 大模型 & bark 调研

可能因为训练数据比较干净,所以音质还可以,因为我测过 encodec 这个 codec 的鲁棒性其实会比较差,特别对于高质量的语音,高频还原比较差,因为这个我去年做过,不过没加语音的 refer [捂脸],参加过 icasp 的同学应该听过,去年 11 月有个俞老师 talk 分享过我们的用法[破涕为笑] Encodec 对这种数据编解码效果比较好,你可以去测测,如果用 tts 的高质量数据,它的 12 和 24kbps 出来的高频很差。MEL 标记输入的最大长度为 293,相当于 13 秒的音频。

2025-03-11 17:34:58 412

原创 PaperReading — 多模态基座模型

当我们提到多模态模型时,通常是指那些能够理解和处理两种或两种以上不同类型数据(如文本、图像、声音等)并进行交互的模型。多模态模型在处理和理解信息时会利用来自不同模态的数据,并可能在多种模态之间进行转换或融合。CLIP 则可以成为一个多模态模型。

2025-03-11 17:29:31 415

原创 SQL 学习笔记

语法SELECT 查询列表 # 7️⃣FROM 表1 别名 # 1️⃣连接类型 JOIN 表2 # 2️⃣ON 连接条件 # 3️⃣WHERE 筛选 # 4️⃣GROUP BY 分组列表 # 5️⃣HAVING 筛选 # 6️⃣ORDER BY 排序列表 # 8️⃣LIMIT 起始条目索引, 条目数;# 9️⃣。

2024-11-19 14:55:46 646 2

原创 【飞桨PaddleSpeech语音技术课程】— 多语言合成与小样本合成技术应用实践

【飞桨PaddleSpeech语音技术课程】— 多语言合成与小样本合成技术应用实践

2022-10-31 19:50:00 1773

原创 【飞桨PaddleSpeech语音技术课程】— 一句话语音合成全流程实践

【飞桨PaddleSpeech语音技术课程】— 一句话语音合成全流程实践

2022-10-31 18:31:02 5299

原创 【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践

【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践

2022-10-31 17:25:29 4846

原创 【飞桨PaddleSpeech语音技术课程】— 语音合成

【飞桨PaddleSpeech语音技术课程】— 语音合成

2022-10-28 21:43:39 3715 2

原创 【飞桨PaddleSpeech语音技术课程】— 语音翻译

【飞桨PaddleSpeech语音技术课程】— 语音翻译

2022-10-28 20:24:58 1883

原创 【飞桨PaddleSpeech语音技术课程】— 语音识别-定制化识别

【飞桨PaddleSpeech语音技术课程】— 语音识别-定制化识别

2022-10-28 19:56:17 1881

原创 【飞桨PaddleSpeech语音技术课程】— 语音识别-流式服务

【飞桨PaddleSpeech语音技术课程】— 语音识别-流式服务

2022-10-28 16:44:05 5016 2

原创 【飞桨PaddleSpeech语音技术课程】— 语音识别-流式服务-模型部分

【飞桨PaddleSpeech语音技术课程】— 语音识别-流式服务-模型部分

2022-10-28 16:22:58 2711

原创 【飞桨PaddleSpeech语音技术课程】— 语音识别-Transformer

【飞桨PaddleSpeech语音技术课程】— 语音识别-Transformer

2022-10-28 16:06:13 2624

原创 【飞桨PaddleSpeech语音技术课程】— 语音识别-Deepspeech2

【飞桨PaddleSpeech语音技术课程】— 语音识别-Deepspeech2

2022-10-28 15:35:14 3633

原创 【飞桨PaddleSpeech语音技术课程】— 声纹检索系统与实践

【飞桨PaddleSpeech语音技术课程】— 声纹检索系统与实践

2022-10-27 15:49:13 1855

原创 【飞桨PaddleSpeech语音技术课程】— 语音唤醒

【飞桨PaddleSpeech语音技术课程】— 语音唤醒

2022-10-27 15:16:30 2776

原创 【飞桨PaddleSpeech语音技术课程】— 声音分类

【飞桨PaddleSpeech语音技术课程】— 声音分类

2022-10-27 14:05:21 3077 1

原创 PaddleSpeech 处理 SSML 输入

尝试 PaddleSpeech 处理 SSML 输入

2022-10-26 15:36:22 715

原创 PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS

🎉 PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS #2492

2022-10-26 14:28:45 2115

原创 使用 PaddleSpeech 训练一个自己的 TTS 模型

使用 PaddleSpeech 训练一个自己的 TTS 模型

2022-10-26 13:40:28 3972 3

原创 【SpeechX—统一高性能语音部署工具】SpeechX Architecture

【SpeechX—统一高性能语音部署工具】SpeechX Architecture

2022-10-26 11:06:57 1146

原创 PaddleSpeech 全链路声纹识别系统 PP-VPR

全链路声纹识别系统

2022-10-26 10:07:30 774

原创 PaddleSpeech 流式语音识别系统 PP-ASR

流式语音识别系统

2022-10-26 10:07:16 2646

原创 PaddleSpeech 流式语音合成系统 PP-TTS

流式语音合成系统

2022-10-25 17:09:59 3852

原创 【SpeechX—统一高性能语音部署工具】SpeechX Custom ASR

PaddleSpeech SpeechX 的介绍

2022-10-25 16:52:37 425

原创 基于规则的语音合成中文文本前端设计【2】

基于规则的语音合成中文文本前端设计,参考一般的流程,把文本前端分为4个阶段

2022-10-25 16:26:52 736

原创 基于规则的语音合成中文文本前端设计

语音合成经典模型结构介绍

2022-10-25 15:52:07 561

原创 语音合成经典模型结构介绍

语音合成经典模型结构介绍

2022-10-25 15:36:49 1214

原创 PaddleSpeech TTS 设计要素 — 实验输出目录

每次进行一个实验的时候,需要指定一个输出目录,目录结构如下:最好遵循这个规范。

2022-10-25 12:45:07 210

原创 PaddleSpeech TTS 设计要素 — 训练组件

主要讲述 PaddleSpeech TTS 的和训练相关的组件,以及我们为何如此设计它。如果你熟悉 chainer, 可以看出我们受到 chianer 的设计风格的影响。虽然这也不是 chainer 独此一家,我们也参考了 torch lightning 等专门帮忙解决训练问题的库,以及领域专用的库如 detectron2 等为了方便自己的模型开发而作出的设计。总体的设计原则是简单直观,可扩展性强,学习难度不高(这里需要斟酌,有些设计上手是有一点难度,但是理解了其设计,用起来将会很好用。)

2022-10-25 12:18:47 762

原创 PaddleSpeech TTS 设计要素 — 数据组件

PaddleSpeech TTS 内使用的数据格式,数据处理惯例的说明。

2022-10-25 12:04:36 783

原创 PaddleSpeech TTS 设计要素 — 配置组件

主要讲述和配置文件及其解析,命令行参数解析,配置在程序内的呈现方式的选择和作出这些选择的考虑。

2022-10-25 11:59:00 763

原创 语音识别 CTC Loss

语音识别 CTC Loss

2022-10-25 10:40:31 746

原创 语音合成 GAN Vocoders 总览

语音合成 GAN Vocoders 总览

2022-10-24 20:59:36 929

原创 语音合成 g2p 字典设计

PaddleSpeech g2p 发音字典设计原理

2022-10-24 20:17:28 1531

原创 211. Add and Search Word - Data structure design(python+cpp)(前缀树的升级版)

题目:Design a data structure that supports the following two operations: void addWord(word) bool search(word)search(word) can search a literal word or a regular expression string containing only le...

2018-11-22 23:28:50 320

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除