- 博客(378)
- 资源 (1)
- 收藏
- 关注

原创 427. Construct Quad Tree(python+cpp)
题目:We want to use quad trees to store an N x Nboolean grid. Each cell in the grid can only be true or false. The root node represents the whole grid. For each node, it will be subdivided into four c...
2018-10-16 11:42:18
279

原创 [不断更新]位运算的一些奇技淫巧
1.如果数字n是二进制表示01相间的数字,那么a=n+(n>>1)是一个全1的数字,b=a&(a+1)是二进制表示全0的数字。2.判断一个数字n是否是2的次幂的最快的方式:如果数字n是2的次幂,那么它的二进制表示只有一位是1,其余位都是0,那么n&(n-1)=0。3.求一个数的二进制表达中1的个数,有个技巧。(当然,python的话可以直接count('1'))假...
2018-10-12 10:17:23
664

原创 ImageCaption算法总结
综述: 最近在看ImageCaption的相关内容,ImageCaption简单来说就是看图说话,输入时一张图片,输出是一句话,主要看了知乎上杜克的两篇文章,看了Google的两篇关于NIC模型的论文,配置了neutraltalk,neutraltalk2,tensorflow/im2txt(NIC)的环境,跑了neutraltalk和neutraltalk2的inference,和im2txt的
2017-08-15 13:08:08
8288
2
原创 语音合成VC技术调研
两个极端,要么是一堆 loss 相加,要么只考虑 TTS 的 loss (如仅有一个 L1 Loss)可以考虑 content 信息 (需要用到 asr 模型), pitch 信息 (需要用到 F0 模型) -> StarGANv2-VC 等也可以完全当成是一个 TTS 模型求 loss, 不考虑生成的音频的 content 是否与 source audio 一致 -> 基于 PPG/SSL 的 VC、FragmentVC 系列等FreeVC。
2025-03-11 17:37:19
347
原创 audio 大模型 & bark 调研
可能因为训练数据比较干净,所以音质还可以,因为我测过 encodec 这个 codec 的鲁棒性其实会比较差,特别对于高质量的语音,高频还原比较差,因为这个我去年做过,不过没加语音的 refer [捂脸],参加过 icasp 的同学应该听过,去年 11 月有个俞老师 talk 分享过我们的用法[破涕为笑] Encodec 对这种数据编解码效果比较好,你可以去测测,如果用 tts 的高质量数据,它的 12 和 24kbps 出来的高频很差。MEL 标记输入的最大长度为 293,相当于 13 秒的音频。
2025-03-11 17:34:58
412
原创 PaperReading — 多模态基座模型
当我们提到多模态模型时,通常是指那些能够理解和处理两种或两种以上不同类型数据(如文本、图像、声音等)并进行交互的模型。多模态模型在处理和理解信息时会利用来自不同模态的数据,并可能在多种模态之间进行转换或融合。CLIP 则可以成为一个多模态模型。
2025-03-11 17:29:31
415
原创 SQL 学习笔记
语法SELECT 查询列表 # 7️⃣FROM 表1 别名 # 1️⃣连接类型 JOIN 表2 # 2️⃣ON 连接条件 # 3️⃣WHERE 筛选 # 4️⃣GROUP BY 分组列表 # 5️⃣HAVING 筛选 # 6️⃣ORDER BY 排序列表 # 8️⃣LIMIT 起始条目索引, 条目数;# 9️⃣。
2024-11-19 14:55:46
646
2
原创 【飞桨PaddleSpeech语音技术课程】— 多语言合成与小样本合成技术应用实践
【飞桨PaddleSpeech语音技术课程】— 多语言合成与小样本合成技术应用实践
2022-10-31 19:50:00
1773
原创 【飞桨PaddleSpeech语音技术课程】— 一句话语音合成全流程实践
【飞桨PaddleSpeech语音技术课程】— 一句话语音合成全流程实践
2022-10-31 18:31:02
5299
原创 【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践
【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践
2022-10-31 17:25:29
4846
原创 【飞桨PaddleSpeech语音技术课程】— 语音识别-流式服务-模型部分
【飞桨PaddleSpeech语音技术课程】— 语音识别-流式服务-模型部分
2022-10-28 16:22:58
2711
原创 【飞桨PaddleSpeech语音技术课程】— 语音识别-Transformer
【飞桨PaddleSpeech语音技术课程】— 语音识别-Transformer
2022-10-28 16:06:13
2624
原创 【飞桨PaddleSpeech语音技术课程】— 语音识别-Deepspeech2
【飞桨PaddleSpeech语音技术课程】— 语音识别-Deepspeech2
2022-10-28 15:35:14
3633
原创 PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS
🎉 PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS #2492
2022-10-26 14:28:45
2115
原创 【SpeechX—统一高性能语音部署工具】SpeechX Architecture
【SpeechX—统一高性能语音部署工具】SpeechX Architecture
2022-10-26 11:06:57
1146
原创 PaddleSpeech TTS 设计要素 — 训练组件
主要讲述 PaddleSpeech TTS 的和训练相关的组件,以及我们为何如此设计它。如果你熟悉 chainer, 可以看出我们受到 chianer 的设计风格的影响。虽然这也不是 chainer 独此一家,我们也参考了 torch lightning 等专门帮忙解决训练问题的库,以及领域专用的库如 detectron2 等为了方便自己的模型开发而作出的设计。总体的设计原则是简单直观,可扩展性强,学习难度不高(这里需要斟酌,有些设计上手是有一点难度,但是理解了其设计,用起来将会很好用。)
2022-10-25 12:18:47
762
原创 PaddleSpeech TTS 设计要素 — 配置组件
主要讲述和配置文件及其解析,命令行参数解析,配置在程序内的呈现方式的选择和作出这些选择的考虑。
2022-10-25 11:59:00
763
原创 211. Add and Search Word - Data structure design(python+cpp)(前缀树的升级版)
题目:Design a data structure that supports the following two operations: void addWord(word) bool search(word)search(word) can search a literal word or a regular expression string containing only le...
2018-11-22 23:28:50
320
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人