- 博客(359)
- 收藏
- 关注

原创 语音合成相关论文及代码整理
对重要的语音合成论文及代码进行更新和记录(持续更新)一、论文1、tts 前端2、expressive tts3、voice clone/conversion4、vocoder二、代码1、https://github.com/PaddlePaddle/PaddleSpeech完整的 语音识别(流式)、语音合成(流式)、声纹识别、声音分类 的工程库2、..................
2022-05-23 22:34:19
1370

原创 深度学习论文专栏
深度学习论文专栏以下,建立论文阅读专栏,一是为提高论文阅读能力,二是为保证知识更新,三是为了记录和传播好的论文思想以下仅做粗浅分类,方便查阅一、NLP1、Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 【https://arxiv.org/pdf/2006.16236.pdf】2020新作待读二、语音1、三、其他1、...
2020-06-30 11:56:03
931

原创 国内外最好的语料库汇总
语料在语言学科研究和深度学习中都至关重要,下面对常用的语料库资源进行总结:部分信息来源于其他博客,但是本文会保持持续更新Open Speech and Language Resourceshttp://www.openslr.org/resources.php更新(2020年6月10):若干开源语音数据库: https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/更新2020/10/23AISHELL-3 高保
2019-07-18 15:25:57
35199
5
原创 简洁理解 self-attention 和 cross-attention
Attention机制是一种动态加权融合信息的机制,广泛应用于深度学习模型中。Self-Attention和Cross-Attention是两种常见的注意力机制。Self-Attention的输入是同一个序列,通过计算序列内部元素之间的相关性来加权融合信息。Cross-Attention则处理两个不同的序列,通常用于序列间的信息交互,如文本到图像的生成任务。两者的核心步骤相似,包括线性变换、计算注意力分数、应用Softmax、加权融合等。Cross-Attention在Stable Diffusion等模型
2025-05-22 15:55:56
907
原创 DiT中的 Adaptive Layer Normalization (adaLN) 讲解
论文《Scalable Diffusion Models with Transformers (DiT)》提出了一种基于Transformer的扩散模型,核心创新在于使用Adaptive Layer Normalization (adaLN)来融合时间步长(timestep)和标签(label)信息。传统的Transformer结构通过层归一化和多头注意力机制处理输入,而DiT在此基础上引入了adaLN,以更好地适应扩散模型的需求。
2025-05-16 20:46:18
416
原创 librosa.load 容易遇到的采样率问题
参数指定时,不是指定重采样,而是告诉函数以 sample_rate 读取,比如如果原音频是 24k,sr=16000 时,那么读出来的音频是按照16k读取的,实际时长会变长。,此函数的sr不传时,默认是 22050.,然后再重采样一下成自己想要的采样率,比如。所以一般更好的方式是,先传。
2025-05-08 17:47:10
247
原创 aws训练快速入门教程
Amazon Elastic Compute Cloud (Amazon EC2) 是一种提供可调节计算容量的 Web 服务 – 简单来说,就是 Amazon’s 数据中心内的服务器 – 您可以使用它来构建和托管您的软件系统。Amazon Elastic Compute Cloud(Amazon EC2)在 Amazon Web Services(AWS)云中按需提供可扩展的计算容量。使用 Amazon EC2 可以降低硬件成本,因此您可以更快地开发和部署应用程序。
2025-03-19 15:30:14
1233
原创 dockerfile 编写入门
Dockerfile是一个文本文件,其中包含了一系列的指令和参数,用于定义如何构建Docker镜像。一个良好编写的Dockerfile不仅可以确保镜像的构建过程高效、可靠,还可以使得镜像更加安全和易于维护。
2025-03-14 20:42:13
715
原创 FlashAttention CUDA不匹配问题(CUDA的正确安装)与编译卡住问题解决方法
在安装flash_attn的过程中,解决CUDA 版本不匹配
2025-03-04 19:26:29
1323
原创 when initializing HubertModel: [‘encoder.pos_conv_embed.conv.weight_g‘ 问题解决
encoder.pos_conv_embed.conv.weight_g 问题
2025-02-25 19:13:18
308
原创 linux查询文件名 或 文件内容中包含特定字符串的所有文件
使用 Linux 经常会遇到这种情况:只知道文件名 或 文件内容 中包含某些特定的字符串,但是不知道具体的文件名。需要根据“特定的字符串”反向查找文件。
2024-12-18 14:34:46
2467
原创 python调用GPT-4o实时音频 Azure OpenAI GPT-4o Audio and /realtime
【代码】python调用GPT-4o实时音频 Azure OpenAI GPT-4o Audio and /realtime。
2024-12-03 11:26:29
694
原创 python一些进阶用法:hook 钩子函数以及Registry机制
本质来讲,这些高级用法都是编程经验中沉淀下来的常用范式,并不违背和创造了函数、类和传参的原理,只是巧妙运用了这些。一句话讲,register机制 和 hook 都是函数/类 调用和传参机制的一种灵活运用,将函数作为传参对象,进行回调和封装,通常扩展了或修改了原始函数的行为。
2024-06-28 11:20:58
376
原创 python 数据、曲线平滑处理——Savitzky-Golay 滤波器
高斯滤波是一种线性平滑滤波,适用于消除高斯噪声,广泛应用于图像处理的减噪过程。通俗的讲,高斯滤波就是对整幅图像进行加权平均的过程,每一个像素点的值,都由其本身和邻域内的其他像素值经过加权平均后得到。高斯滤波的具体操作是:用一个模板(或称卷积、掩模)扫描图像中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值。
2024-06-26 19:00:53
1066
原创 TensorRT半精度(FP16)相关博客
几篇关于TensorRT fp16和debug的博客,记录一下:半精度(FP16)调试血泪总结ONNX-TensorRT 精度对齐tensorRT相关问题想提速但TensorRT的FP16不得劲?怎么办?在线支招
2024-05-21 15:57:46
461
原创 转:深度学习模型参数量以及FLOPs计算工具
记录一下:深度学习模型参数量以及FLOPs计算工具大模型训练需要花费多长时间:FLOPs的简单计算方法及calflop开源实现
2024-05-21 15:31:44
279
原创 图像中的attention及QKV机制解释
里面的观点,写的很好:Transformer,它最开始提出是针对nlp领域的,在此之前除了seq2seq这种encoder-decoder架构,大家主要还是用的rnn、lstm这种时序网络,像rnn系列网络它是有问题的,首先就是它记忆的长度是有限的,其次是无法并行化计算,也就是必须要先计算xt时刻的数据才能计算时刻xt+1,这就导致效率低下。针对这些问题,Google就提出了。
2024-05-16 01:29:59
1071
原创 几种常用的用于视频读取、写入和处理的库和函数
在Python中,有几种常用的用于视频读取、写入和处理的库和函数。其中最流行的包括OpenCVMoviePy和imageio。
2024-03-21 19:35:10
580
原创 使用Linux命令行上传及下载百度云盘文件(远程服务器大文件传输必备)
使用Linux命令行上传及下载百度云盘文件(远程服务器大文件传输必备)
2024-03-07 19:36:52
5926
2
原创 如何将图片保存成视频(imageio、opencv和ffmpeg)
测试下来发现,imageio 速度比 cv2 的要慢,所以普通保存推荐 cv2,要gpu加速需要额外配置或者修改
2024-02-29 12:01:55
3047
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人