Dr. 卷心菜-优快云博客

原创声纹、语音识别入门书籍推荐

最近在读王泉老师刚刚出版的新书《声纹技术》，收获很多，想分享一下我从小白到入门觉得有用的书籍。《声纹技术》王泉 ????????????????????这本书首先对声纹识别的前生今世做了一个概述，对于刚接触声纹的同学来说可以了解本领域技术的发展，要是我当初开始学习时有这本书的话就会少走很多弯路。...

2020-10-24 23:59:16 3211 1

原创语音信号去混响（dereverberation）最新研究总结——附论文与代码

语音信号去混响是语音降噪的一种方法，本文现将至2020年7月经典的算法总结如下。算法目录1. SPENDRED (SPeech ENhancement and DeREverberation by Doire)2. Two-stage algorithm by DeLiang Wang's Group3. About This Dereverberation Business: A Method for Extracting Reverberation from Audio Signals4. Exem

2020-07-08 18:03:54 10289 3

原创 Pytorch训练CRNN输出为NaN

记录一个非常隐蔽pytorch训练audio相关的Bug。

2022-11-25 13:43:55 1304

原创 Pytorch模型输出梯度为None|如何输出GRL模型的梯度

如何查看模型输出梯度

2022-10-26 11:31:00 2232

原创备份与重装anaconda环境

进入需要备份的环境：conda activate gpu-py37生成环境文件conda env export > environment-gpu-py37.yaml环境文件的名字可以随便起安装文件中的环境conda env create -f environment-gpu-py37.yaml注意：安装的环境名称并不是环境文件名，而是写在environment-gpu-py37.yaml第一行的name:跨操作系统安装会报错，，因为环境中有一些操作系统固有的包，.

2021-11-15 17:42:01 4031

原创【2021最新】Windows10安装GPU版pytorch

之前的很多教程要自己下载安装cudatoolkit, cudnn等，非常麻烦。现在pytorch已经支持在cmd一条命令下载安装了。首先需要安装anaconda，已经有的同学可以忽略这一步没有anaconda的请先下载安装：https://www.anaconda.com/products/individual查看自己的Cuda版本nvcc-V这里我的版本是11.1在pytorch官网上找到匹配的版本安装https://pytorch.org/这里没有的话看之前的版本就

2021-11-11 11:43:21 1546

原创解决Latex编译报错 Font shape `TU/ptm/b/n‘ undefined (Font) using ‘TU/ptm/bx/n‘ instead

文章目录环境报错信息解决方案环境编译IEEE TRANSACTION 模板: bare_jrnl.texVSCode + Texlive 2021Win10报错信息Warning:Font shape ‘TU/ptm/m/n’ undefined(Font) using ‘TU/lmr/m/n’ instead.未定义’TU/ptm/m/n’ 这个字体，我们可以看到pdf显示出来的字体不是times new roman,如下图解决方案一些博客中加了一系列包，很麻烦。其实改一下编译器

2021-07-07 11:24:42 19820 8

原创输入FILCO蓝牙键盘的PIN

平时都是在蓝牙键盘上输入配对码就行，这次要求输入PIN吗，在设备上找半天找不见。其实很简单：在要求输入PIN码的框内用有线键盘输入任意六位数字，如000000，点连接火速在蓝牙键盘上输入同样的六位（000000），回车，即成功链接参考：https://blog.youkuaiyun.com/weixin_37993251/article/details/100598176https://www.zhihu.com/question/60592245...

2021-06-11 10:59:00 8078 1

原创 EndNote无法修改参考文献格式

问题描述点击format document之后弹出报错窗口，layout无法修改。解决方法在Word中，进入文件菜单，选择 “选项”。从左边的列表中选择 “加载项”。在加载项页面的底部，有一个 "管理："下拉列表选择 “Word加载项”（而不是 “COM加载项”），然后点击 “转到”。在模板和加载项页面，选择 "添加 "按钮。浏览到C:\Program Files\Common Files\ResearchSoft\Cwyw\19\并选择C:\Program Fil

2021-06-08 11:38:38 8959 2

原创从Windows双系统中彻底删除Ubuntu

【备忘】删除Ubuntu分区建议用diskpart瞬间清理。参考： https://zhuanlan.zhihu.com/p/343034539将除了EFI分区之外的其他分区直接删除（我没有删恢复分区）删除EFI启动项以及查看启动项是否已经删除参考：https://blog.youkuaiyun.com/mtllyb/article/details/78635757打开记事本注意，右键以管理员身份运行清除之后的磁盘空间，在win+x磁盘管理中加载到其他盘：在其他盘符上右键加载卷新建卷：在

2021-06-04 16:14:07 171

原创【EndNote20】最快方法批量导入enw文件

EndNote的import file只能一个一个导入，非常麻烦，网上有很多批量导入代码也不靠谱。自带的import folder只能导入pdf,无法导入文献索引。经过摸索发现了批量导入的隐藏功能，下图是我的EndNote20界面截图。在文件夹里按住Ctrl键，多选需要导入的.enw文件，然后拖动到下图红框范围内就可以导入啦。...

2021-05-19 19:22:51 18840 28

原创 Pytorch报错TypeError : init() takes 1 positional argument but 2 were given 原因及解决方法

在使用sigmoid函数时报这个错误，看到了有个博客说是因为类的调用出现错误，但是不知道怎么改。错误写法x = nn.Sigmoid(x)正确写法outlayer = nn.Sigmoid() # 需要先对类实例化，才能调用x = outlayer(x)官网例子：m = nn.Sigmoid()loss = nn.BCELoss()input = torch.randn(3, requires_grad=True)target = torch.empty(3).random_(2)

2021-03-24 14:44:22 17161 5

原创 python 音频变调不变速方法

变调的方法也可以分为三类：时域法、频域法、参量法。时域法中，Crochiere等人于1983年提出了重采样的方法[42]，该方法是实现变速变调最简单、最常用的方法之一。假设重采样因子为P/Q，其中，P为上采样因子，Q为下采样因子。上采样过程就是往原始信号相邻两点间内插P-1个采样点，这样使得基音周期变为原来的P倍，频谱压缩为原来的1/P倍，时长变为原来的P倍，即基频变为原来的1/P倍，音调降为原来的1/P倍，语速变为原来的1/P倍。同样地，下采样过程就是每隔Q-1个点进行抽取，这样会使得基音周期长度为

2021-02-01 17:11:47 5226

转载 Windows10任务栏图标变白色解决方法

按Win+R键打开运行，输入%APPDATA%\Microsoft\Internet Explorer\Quick Launch\User Pinned\TaskBar，点击回车打开TaskBar文件夹;打开该程序所在的安装目录，并右击主程序图标，发送到桌面快捷方式把该桌面快捷方式粘贴到刚刚的TaskBar文件夹中;然后win+r键打开运行，输入ie4uinit.exe -show点回车，图标出现。...

2021-01-23 00:21:24 1526

原创 Pytorch报错 CUDA error: device-side assert triggered

错误信息：RuntimeError: CUDA error: device-side assert triggered/pytorch/aten/src/THCUNN/ClassNLLCriterion.cu:108: cunn_ClassNLLCriterion_updateOutput_kernel: block: [0,0,0], thread: [1,0,0] Assertion `t >= 0 && t < n_classes` failed./pytorch/a

2020-12-29 15:22:39 5685

原创解决方案总结RuntimeError: CUDA error: out of memory

在训练过程中有时会出现显卡爆了的情况，导致无法进行训练，本文总结一下出现这种情况该如何处理。1. 方法一：减小batch size减小batch size是最直接方法，有人做过对比：batch size是48的时候，GPU使用量为14.4G，batch size=1的时候就变成1.3G了。2. 方法二：修改网络结构修改隐层节点数，尽量让linear层的结点数变小加dropout,pooling检查有迭代的地方的迭代深度，迭代深度大也会增加GPU使用3. 方法三：清掉GPU中不用的进程

2020-12-25 17:04:54 2831

原创 Scipy读取wav格式音频报错：Unsupported bit depth: the wav file has 24-bit data

代码from scipy.io import wavfilesr, y = wavfile.read('audio/XXX.wav')错误信息~/anaconda3/lib/python3.7/site-packages/scipy/io/wavfile.py in read(filename, mmap) 255 if bit_depth not in (8, 16, 32, 64, 96, 128): 256

2020-12-17 10:50:13 1308

原创 anaconda常用指令（附cheat sheet）

查看版本 conda --vanaconda升级 conda update conda查看环境列表 conda info --envs创建新环境 conda create --name SNAKES python=3.7进入指定环境 conda activate SNAKES下载包 conda install "PKGNAME"Cheat sheet下载地址： https://conda.io/projects/conda/en/latest/user-guide/cheatsheet.h

2020-12-08 17:14:31 556

原创 Pytorch多GPU训练提升效率

文章目录查看GPU个数Dataloader 并行Trainer 并行在使用pytorch lightning框架训练的时候，遇到了如下的warning：UserWarning: Dataloader(num_workers>0) and ddp_spawn do not mix well! Your performance might suffer dramatically. Please consider setting distributed_backend=ddp to use num_

2020-12-04 15:42:36 3590

原创【论文笔记】对比学习(Contrastive Learning)音频表示框架（COLA）

文章目录对比学习 Contrastive LearningContrastive Learning在CV领域风生水起，涌现了一批非常优秀的成果，例如：针对ImageNet有Google的SIMCLR, Facebook的MoCo, 和强化学习的CURL。在音频领域却少有研究。最近Google发了一篇文章，讲述了通过对比学习到音频的通用表达。Contrastive Learning of General-Purpose Audio Representations对比学习 Contrastive Lea

2020-11-24 22:07:33 2404

原创 librosa.util.exceptions.ParameterError: data must be floating-point 终极解决方法

librosa提取melspectrogram代码audio, _ = librosa.load(file_path, sr=16000, mono=True)mel_spec = librosa.feature.melspectrogram(y=audio, sr=sample_rate, n_mels=n_mels)报错内容这样会显示第二句报错：librosa.util.exceptions.ParameterError: data must be floating-point解决方法

2020-11-05 16:30:33 3925

原创 audioread.exceptions.NoBackendError in librosa

文章目录Problem: NoBackendErrorSolutionThis is the real solution to NoBackendError despite a backend (specifically FFmpeg) being installedReferencesProblem: NoBackendErrorI’m trying to load “mp3” files in librosa by the following line.data, _ = librosa.core

2020-11-05 14:39:47 8018

原创 Linux常用指令（pdf打印版一页A4）

碎碎念：在CERN的时候，小导师Leonid说，打印一个Linux常用指令贴在显示器旁边，常见用法要牢记于心。文末附上pdf文章目录File CommandsProcess ManagementFile PermissionsSSHSearchingSystem InfoCompressionNetworkInstallationShortcutspdf打印版：File Commandsls – directory listingls -al – formatted listing with hi

2020-11-04 20:36:08 2070 1

原创 Python文件路径该怎么写

文章目录1. 首先要理解“绝对路径”和 “相对路径”的概念2. 举个栗子（相对路径）3. 总结一下每个刚开始学编程的小白都会遇到文件路径写错的问题，看了很多文章写的很长，没有言简意赅的解决初学者的问题。1. 首先要理解“绝对路径”和 “相对路径”的概念绝对路径指的是从根目录"/"开始写的路径相对路径是从当前位置开始写的路径例如我们当前在/home文件夹中, alice文件夹的绝对路径是/home/alice相对路径是./alice也可以直接写成alice2. 举个栗子（相对路径

2020-11-04 17:39:58 5964 1

原创 VSCode中使用Linux远程服务器

相信很多研究deep learning的小伙伴们都不是在自己本地的机器上跑代码吧，很好奇大家平时都是用什么工具来码代码的？因为实验室的服务器没有图形界面，我之前喜欢用Xshell连接到服务器之后用jupyter lab敲代码+运行，这样的模式运行一些规模较小的程序非常棒，运行结果也可以保留在.ipynb中。但是规模一大的话，比如想要后台运行就很不方便，除非是喜欢用vim的大佬(膜拜.jpg)，像我这样的小白还是喜欢用一个能够一览整个project的编辑器。目前大家用的多的轻量级编辑器有VS Code,

2020-11-03 19:15:50 632

原创 VSCode中报错 E501：Line too long (83＞79 characters)

1. 错误描述在VS Code中编辑Python代码时flake8报错：Line too long (83>79 characters)(E501)flake8是python的错误提示工具，类似的还有pep8等，有时候这种工具提示的太严格了也会让人很心累，下面提供两种方法修改。2. 打开setting.json：方法一：将限制条件放宽如上错误是因为flake8要求一行不超过79个字符，我们可以人为设定到120个："python.linting.flake8Args": ["--max-

2020-11-03 18:15:06 11929 9

原创 Fatal Python error: Py_Initialize: can‘t initialize sys standard streams

问题描述：Windows 10Python 3.6在终端输入任何指令都报如下错误：Fatal Python error: Py_Initialize: can't initialize sys standard streamsLookupError: unknown encoding: 65001解决方法：在终端输入set PYTHONIOENCODING=utf-8问题原因：Windows cmd命令行编码问题导致python无法使用。参考：https://stackoverf

2020-10-21 13:43:09 5583 4

原创 jupyter报错AttributeError: type object IOLoop has no attribute initialized

问题描述：打开jupyter notebook时，报错Traceback (most recent call last): File "E:\software\Anaconda\Scripts\jupyter-notebook-script.py", line 3, in <module> import notebook.notebookapp File "E:\software\Anaconda\lib\site-packages\notebook\notebookapp.

2020-10-21 13:25:20 7151 6

原创【DSP】时域补零与频率分辨率的关系

文章目录1. 频率分辨率2. 时域补零的好处3. 时域补零实验图一：补零后长度为2048采样点图二：补零后长度为65536采样点（与原始音频长度接近）图三：补零长度到96000采样点4. 小结1. 频率分辨率频率分辨率是指对两个最近的频谱峰值能够分辨的能力。一般来说，窗口长度NNN越大，则物理上的频率分辨率越高，其中NNN指的是真实的信号采样点个数，而不是补零之后的长度。频率分辨率可以表示为：Δf=1NTs=fsN\Delta f = \frac{1}{NT_s} = \frac{f_s}{N} Δ

2020-09-28 22:42:59 5501

原创【DSP】频谱泄露与栅栏效应简介

文章目录1. 频谱泄露1.1 什么是频谱泄露1.2 频谱泄露的影响1.3 如何减少频谱泄露2. 栅栏效应2.1 什么是栅栏效应2.2 怎样减小栅栏效应1. 频谱泄露1.1 什么是频谱泄露实际情况下，时频谱都被限制为有限长序列。在处理过程中往往需要加窗操作，但是加窗会导致信号截断。时域乘上窗函数，频域相当于与窗函数的频谱周期卷积。时域的截断，就会导致频域变宽，造成泄露。1.2 频谱泄露的影响得到的频谱有失真，这种失真主要是频谱的“扩散”（拖尾、变宽）泄露也有可能造成混叠，因为泄露会导致频谱扩展

2020-09-28 16:12:15 9828

原创【DSP】计算DFT频谱的参数选择

文章目录时域离散化（满足采样定理）频域离散化参数选择例：音乐频谱分析参数选择利用DFT在计算连续时间信号时，由于时域的采样往往会出现一些问题，下面就DFT的一些参数做一些探讨。时域离散化（满足采样定理）若信号的最高频率为fhf_hfh，根据奈奎斯特采样定理，抽样频率(采样率)应满足：fs>2fhf_s > 2f_hfs>2fh也就是抽样间隔TTT应满足：T=1fs<12fhT = \frac{1}{f_s}<\frac{1}{2f_h}T=fs1<

2020-09-28 14:43:13 2998

原创 scipy.signal.lfilter报错 ValueError: could not convert b, a, and x to a common type

问题描述：在用scipy.signal.lfilter实现滤波器时报错：ValueError: could not convert b, a, and x to a common type问题出在这一行：x = scipy.signal.lfilter(1, a, y)原因分析：Scipy要求分子和分母都要是数组类型，而1是整型Parameters：b array_likeThe numerator coefficient vector in a 1-D sequence.a arr

2020-09-17 21:31:50 1017

原创【音频技术实践】声源分离理论与算法

【音频技术实践】系列语音信号去混响（dereverberation）最新研究总结语音去混响算法之WPE( Weighted Prediction Error for speech dereverberation)文章目录：声源分离理论与算法【音频技术实践】系列前言一、语音信号的线性产生模型1. 激励模型2. 声道模型3. 辐射模型二、模型求解方法三、代码与实验结果四、参考文献前言随着神经网络的不断发展，数据规模的不断增大，算力的不断提高，语音领域已经逐步走向成熟。如今的研究人们大多把精力放在

2020-08-27 22:10:14 5320

原创【音频技术实践】逆滤波(inverse filtering)

文章目录前言逆滤波（Inverse Filtering）经验之谈（Empirical Notes on Inverse Filtering）代码 Matlab Code for Inverse Filtering前言在图像领域有很多写逆滤波的博客，而在音频信号处理领域关于逆滤波的详细阐述很少，这篇文章首先叙述逆滤波的概念，其次总结一些逆滤波方法在应用时需要注意的点，最后搬运了斯坦福大学JULIUS O. SMITH III的PHYSICAL AUDIO SIGNAL PROCESSING书中的matla

2020-08-25 11:24:16 5814 1

原创 Pytorch踩坑: RuntimeError: invalid argument 0: Sizes of tensors must match except in dimension 0.

报错信息：RuntimeError: invalid argument 0: Sizes of tensors must match except in dimension 0. Got 186 and 200 in dimension 3 at /pytorch/aten/src/TH/generic/THTensorMoreMath.cpp:1307错误原因：网络要求输入的featuremap大小一样，实际输入Tensor的大小不一样，我的错误中是第3位tensor有的大小是186，有的大小是20

2020-07-31 14:48:23 9505 4

原创 Python读取sqlite数据并导入DataFrame的两种方法

在使用开源的sqlite数据的时候，会发现有不同的格式，如.sqlite .db ，其实都可以用python内置的sqlite3包中的函数打开。代码如下：方法一：import sqlite3import pandas as pdwith sqlite3.connect('../database/good-sounds/database.sqlite') as con: c = con.cursor() # 提取整个表packs，存到dataframe中 packs = p

2020-07-30 10:17:24 7765 1

原创 Jupyter: The port is already in use, trying another port. 打开的端口与设置的端口不一样

问题描述：在~/.jupyter/jupyter_notebook_config.py 中设置了：c.NotebookApp.port =8891但是在terminal中打开notebook时出现：The port 8891 is already in use, trying another port.这样就无法使用我们指定的端口。解决方法：检查在8891端口的进程：lsof -i:8891 杀掉在这个端口的进程：kill $(lsof -t -i:8891)如果无效，强制杀死

2020-07-23 16:41:41 3161

原创语音去混响算法之WPE( Weighted Prediction Error for speech dereverberation)

目录简介信号模型WPE 算法（Weighted prediction error）参考文献简介背景噪声和空间内声反射产生的混响是声学信号处理和远场语音识别的两大障碍。WPE(Weighted Prediction Error)算法主要用于去除信号中的混响成分，此算法基于线性预测估计，是目前针对去混响（dereverberation）问题的主流算法之一。信号模型假设观测信号由D个麦克风采集，则该信号由STFT变换之后可表示为一个D维向量yt,fy_{t,f}yt,f，其中时间index为t，频率in

2020-07-17 23:02:49 15298 23

原创音乐人工智能与音乐信息科技SCI期刊列表及影响因子

SCI 期刊 Acta Acustica united with Acustica IEEE Signal Processing Magazine（很难） IEEE Signal Processing Letters Music Perception Journal of the Acoustical Society of America Trends in Cognitive Sciences IEEE Transactions on Pattern Analysi

2020-05-28 14:13:52 2420

原创 Pytorch踩坑：CrossEntropyLoss不支持one-hot label 报错：RuntimeError: multi-target not supported

报错：RuntimeError: multi-target not supported at /pytorch/aten/src/THCUNN/generic/ClassNLLCriterion.cu:15原因：使用nn.CrossEntropyLoss时，label必须是[0, #classes] 区间的一个数字，而不可以是one-hot encoded 目标向量当你的l...

2020-05-03 15:54:43 4053 2

离线去混响WPE算法代码

Kaldi的全部资料v07

空空如也