weiquan fan-优快云博客

原创【语音算法】Montreal Forced Aligner教程（MFA，中文语音文本对齐）

Montreal Forced Aligner（MFA）是一种强制对齐工具，可以将音频文件和其对应的文本，转换为音频文件在word、phone等级别的时间对齐的标注。这个工具在语音识别、音频标注和语音合成等领域得到了广泛的应用。本文将为大家介绍如何使用MFA完成音频文件的强制对齐。Montreal Forced Aligner是一种非常有用的工具，可以帮助我们完成音频文件和文本之间的强制对齐，为语音识别、音频标注和语音合成等应用提供了基础的支持。

2023-05-11 18:31:24 7355 2

原创【深度学习模型】扩散模型(Diffusion Model)基本原理及代码讲解

生成式建模的扩散思想实际上已经在2015年（Sohl-Dickstein等人）提出，然而，直到2019年斯坦福大学（Song等人）、2020年Google Brain（Ho等人）才改进了这个方法，从此引发了生成式模型的新潮流。目前，包括OpenAI的GLIDE和DALL-E 2，海德堡大学的Latent Diffusion和Google Brain的ImageGen，都基于diffusion模型，并可以得到高质量的生成效果。本文以下讲解主要基于DDPM，并适当地增加一些目前有效的改进内容。

2023-03-23 14:58:49 90253 30

原创【深度学习模型】ChatGPT原理简述

OpenAI推出人工智能聊天模型ChatGPT，很快引起百万用户注册使用，公众号和热搜不断，迅速火出圈，甚至引起各大公司在聊天对话机器人上的军备竞赛。

2023-02-11 12:45:35 11529

原创【C++】cMakeLists介绍（以简单的OpenCV展示图片为例）

编写CMakeLists.txt可以调用其他的.h头文件和.so/.a库文件，通过跨平台编译工具CMake，将.cpp/.c/.cc文件编译成可执行文件或者新的库文件。

2022-11-09 23:39:16 2707

原创【服务器】NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.

NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.

2022-10-25 11:49:09 536

原创【服务器】root用户修改其它用户的用户名及用户目录

root用户修改其它用户的用户名及用户目录

2022-07-29 10:48:11 870

转载【深度学习算法】Contrastive Learning

对比学习是近几年逐渐火起来的方向之一，尤其是自监督学习的崛起以来，受到了广泛的关注。

2022-07-04 15:58:41 345

原创【语音算法】wav2vec系列原理和使用

wav2vec系列工作由facebook AI Research团队提出，包括wav2vec、vq-wav2vec、wav2vec2.0，效仿nlp上的word2vec，是语音的一种通用特征提取器。本文重点讲解wav2vec2.0模型及其使用方法。

2022-06-25 16:42:34 34886 26

原创【音频特征】语音特征小结

本文汇总了一些常见或不常见的语音特征。包含语音中音高、语调、能量、节奏变化等重要信息，表现为人昕觉系统感知到的“抑扬顿挫”，在语音信号处理的许多领域都有应用。

2022-06-25 16:42:06 6832 1

原创【语音算法】语音的预处理--端点检测

语音的实际应用场景中，经常是给定一段包含多句句子的长语音，这就产生了语音端点检测的需求，从而实现对句子的分割。

2022-06-25 16:41:26 1853

原创【语音算法】语音的预处理--去噪

在人工智能中，算法固然很重要，但语音的预处理却直接地决定了算法的性能上限，因此有必要对语音进行去噪处理。通过截取音频中的已知噪音部分，根据该噪音样本对整个音频进行降噪。截取噪音使用ffmpeg，降噪使用sox。...

2022-06-25 16:41:01 5060

原创【服务器】nvidia驱动重装

在重启服务器的时候，发现nvidia驱动自动升级，使用 nvidia-smi 命令会报错如下，故重装nvidia驱动

2022-06-24 10:33:16 1989

原创【软件使用】VSCode的服务器和github同步

近期发现VSCode是一个非常强大的IDE，可以替换掉诸如xshell、winscp等多款软件，实现很好的本地、服务器、甚至github的同步。

2022-06-24 10:32:53 3623

原创【深度学习框架】深度学习主流框架的代码实例

深度学习框架从一开始的 Theano、TensorFlow，到后来封装程度更高的Pytorch、Keras等，层出不穷。此文通过一个简单的分类任务，综合进这些框架的代码。

2022-06-24 10:32:22 1161

原创【语音识别】详解kaldi的数据和模型文件——librispeech

第一次编译kaldi很可能会缺各种东西，最好有管理员权限来安装。

2022-06-24 10:29:46 3692

原创【语音识别】kaldi的安装和使用案例(librispeech)

按照官网教程，kaldi的安装首先通过git获取项目，再进行编译。如果报错，则可能是相关的依赖项没有安装，可按照提示一步步安装(需要root权限)。

2022-06-24 10:29:24 2116

原创【语音识别】基于keras的简易语音识别

最近忽然看到不是基于kaldi的ASR代码，尝试了一下发现效果还不错，搬上来记录一下。

2022-06-24 10:28:44 1481 1

原创【语音算法】使用端点检测和百度语音识别技术实现视频的字幕生成

字幕文件中包含很多段信息，每一段表示了一句话的起始结束时间和内容，因此便涉及到了端点检测技术和语音识别技术。3. 字幕生成的其他方式3.1 通过双门限法进行端点检测双门限法的原理是浊音的能量高于清音，清音的过零率高于无声部分。因此，其核心在于：先利用能量，将浊音部分区分出来，再利用过零率，将清音也提取出来，就完成了端点检测。SpeechRcognition 可以说是一款语音识别集合器，共包含了谷歌、必应、IBM等七个识别器：基本使用方法如下：但好像需要翻墙才能用…autosub是一个直接可以生成字

2022-06-24 10:28:24 988

原创【深度学习模型】了解一下Faster RCNN

Faster RCNN 由论文提出，是继R-CNN和Fast RCNN之后的目标检测上的又一力作。R-CNN提出selective search(SS)来搜索region proposal(RP)；Fast RCNN指出不必对每个RP各自提CNN特征，可以对原图提好CNN特征，再将SS找到的RP映射到CNN特征层上；Faster RCNN则提出了RPN层，将特征提取，proposal提取，bounding box整合在了一个网络中，极大地提高了检测速度。...

2022-06-24 10:28:03 1760

原创【界面】使用QT designer、python搭建界面程序

PyQt 是Python语言的GUI编程解决方案之一，是类似于 Tkinter 的一个高级库。为了更好的辅助PyQt界面的搭建，可以通过Qt Designer完成GUI界面设计。使用Qt Designer可以通过拖拽、点击完成GUI界面设计，并且设计完成后生成的.ui程序可以通过 pyuic5 命令直接转换成.py文件以供python程序调用。搭建完界面并写好逻辑后，还可通过 pyinstaller 将.py文件封装成.exe文件，以供没有python解释器的用户使用。 ...

2022-06-24 10:27:23 6427

原创【强化学习知识】强化学习简介

强化学习是机器学习中的一大类，它可以让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试, 累积经验, 学习经验.

2022-06-24 10:26:46 26140 11

原创【爬虫】使用BeautifulSoup、requests和you_get爬虫下载B站视频

整体流程上是，先用 Requests 请求获得网站源代码，再用 BeautifulSoup 解析网站并筛选出自己要的信息（如视频的url），最后用 you_get 下载。

2022-06-23 19:19:09 565

原创【深度学习模型】CNN的进击之路——讲讲ResNet, Inception, ResNeXt和Densenet等常见网络

本文是一篇大杂烩，按照发布时间总结了CNN的一些常见网络。

2022-06-23 19:15:14 1308

原创【深度学习模型】cv中Attention的奇妙旅途——讲讲Self-Attention, SENet和CBAM

由于注意力机制的高速发展，我尝试着对attention形成一种比较系统化的理解，选了比较有代表性的Self-Attention, SENet和CBAM，整理成本文。

2022-06-23 17:53:02 1416

原创【深度学习模型】讲讲横扫nlp任务的BERT模型

本文讲解Google在2019年发表的论文BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding。

2022-06-23 17:41:45 425

原创【深度学习模型】Transfomer以及Self-Attention讲解

这一篇主要讲解谷歌发表的Attention Is All You Need。

2022-06-23 17:30:50 1044

原创【深度学习知识】常见的梯度下降算法原理

梯度下降算法（Gradient Descent Optimization）是神经网络模型训练最常用的优化算法。

2022-06-23 17:07:50 2788

原创【音频特征】opensmile 工具的使用和批处理

openSMILE是一款以命令行形式运行的工具，通过配置config文件来提取音频特征。主要应用于语音识别、情感计算、音乐信息获取。2.0版本之后的openSMILE包括了openCV库，可以用于视频处理和视频特征提取。.........

2022-06-23 16:44:51 5754

原创【音频特征】语谱图的matlab提取和python提取

语谱图（spectrogram或specgram），也叫声谱图，可以简单看做一个二维矩阵，其纵轴表示频率，横轴表示时间，矩阵的值表示能量强弱。由于它拥有着频率和时间两个维度的信息，所以是比较综合地表示原语音信息的一种特征。另外，我将其看做语音和图像的一种连接，因为图像领域的模型发展得较快，所以通过这种方式把语音转换成一种特殊的图像再进一步处理.........

2022-06-23 16:29:07 7204 1

原创【深度学习知识】卷积当中的补零操作

考虑卷积核和输入尺寸时奇数和偶数的情况

2022-06-23 16:09:19 3611

原创【深度学习框架】pytorch之分布式数据并行化DDP

DistributedDataParallel（DDP）是一个支持多机多卡、分布式训练的深度学习工程方法。它将数据并行划分到多个进程，各进程初始化模型并由各自的数据训练，再通过Ring-Reduce进行梯度交换与合并，实现进程数倍数的效率。..................

2022-06-23 15:52:44 2363 1

tobefans的博客