自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 【语音算法】Montreal Forced Aligner教程(MFA,中文语音文本对齐)

Montreal Forced Aligner(MFA)是一种强制对齐工具,可以将音频文件和其对应的文本,转换为音频文件在word、phone等级别的时间对齐的标注。这个工具在语音识别、音频标注和语音合成等领域得到了广泛的应用。本文将为大家介绍如何使用MFA完成音频文件的强制对齐。Montreal Forced Aligner是一种非常有用的工具,可以帮助我们完成音频文件和文本之间的强制对齐,为语音识别、音频标注和语音合成等应用提供了基础的支持。

2023-05-11 18:31:24 5373 2

原创 【深度学习模型】扩散模型(Diffusion Model)基本原理及代码讲解

生成式建模的扩散思想实际上已经在2015年(Sohl-Dickstein等人)提出,然而,直到2019年斯坦福大学(Song等人)、2020年Google Brain(Ho等人)才改进了这个方法,从此引发了生成式模型的新潮流。目前,包括OpenAI的GLIDE和DALL-E 2,海德堡大学的Latent Diffusion和Google Brain的ImageGen,都基于diffusion模型,并可以得到高质量的生成效果。本文以下讲解主要基于DDPM,并适当地增加一些目前有效的改进内容。

2023-03-23 14:58:49 75607 27

原创 【深度学习模型】ChatGPT原理简述

OpenAI推出人工智能聊天模型ChatGPT,很快引起百万用户注册使用,公众号和热搜不断,迅速火出圈,甚至引起各大公司在聊天对话机器人上的军备竞赛。

2023-02-11 12:45:35 11040

原创 【C++】cMakeLists介绍(以简单的OpenCV展示图片为例)

编写CMakeLists.txt可以调用其他的.h头文件和.so/.a库文件,通过跨平台编译工具CMake,将.cpp/.c/.cc文件编译成可执行文件或者新的库文件。

2022-11-09 23:39:16 2640

原创 【服务器】NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.

NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.

2022-10-25 11:49:09 499

原创 【服务器】root用户修改其它用户的用户名及用户目录

root用户修改其它用户的用户名及用户目录

2022-07-29 10:48:11 759

转载 【深度学习算法】Contrastive Learning

对比学习是近几年逐渐火起来的方向之一,尤其是自监督学习的崛起以来,受到了广泛的关注。

2022-07-04 15:58:41 311

原创 【语音算法】wav2vec系列原理和使用

wav2vec系列工作由facebook AI Research团队提出,包括wav2vec、vq-wav2vec、wav2vec2.0,效仿nlp上的word2vec,是语音的一种通用特征提取器。本文重点讲解wav2vec2.0模型及其使用方法。

2022-06-25 16:42:34 30134 26

原创 【音频特征】语音特征小结

本文汇总了一些常见或不常见的语音特征。包含语音中音高、语调、能量、节奏变化等重要信息,表现为人昕觉系统感知到的“抑扬顿挫”,在语音信号处理的许多领域都有应用。

2022-06-25 16:42:06 6215 1

原创 【语音算法】语音的预处理--端点检测

语音的实际应用场景中,经常是给定一段包含多句句子的长语音,这就产生了语音端点检测的需求,从而实现对句子的分割。

2022-06-25 16:41:26 1715

原创 【语音算法】语音的预处理--去噪

在人工智能中,算法固然很重要,但语音的预处理却直接地决定了算法的性能上限,因此有必要对语音进行去噪处理。通过截取音频中的已知噪音部分,根据该噪音样本对整个音频进行降噪。截取噪音使用ffmpeg,降噪使用sox。...

2022-06-25 16:41:01 4384

原创 【服务器】nvidia驱动重装

在重启服务器的时候,发现nvidia驱动自动升级,使用 nvidia-smi 命令会报错如下,故重装nvidia驱动

2022-06-24 10:33:16 1817

原创 【软件使用】VSCode的服务器和github同步

近期发现VSCode是一个非常强大的IDE,可以替换掉诸如xshell、winscp等多款软件,实现很好的本地、服务器、甚至github的同步。

2022-06-24 10:32:53 3333

原创 【深度学习框架】深度学习主流框架的代码实例

深度学习框架从一开始的 Theano、TensorFlow,到后来封装程度更高的Pytorch、Keras等,层出不穷。此文通过一个简单的分类任务,综合进这些框架的代码。

2022-06-24 10:32:22 1050

原创 【语音识别】详解kaldi的数据和模型文件——librispeech

第一次编译kaldi很可能会缺各种东西,最好有管理员权限来安装。

2022-06-24 10:29:46 3409

原创 【语音识别】kaldi的安装和使用案例(librispeech)

按照官网教程,kaldi的安装首先通过git获取项目,再进行编译。如果报错,则可能是相关的依赖项没有安装,可按照提示一步步安装(需要root权限)。

2022-06-24 10:29:24 1910

原创 【语音识别】基于keras的简易语音识别

最近忽然看到不是基于kaldi的ASR代码,尝试了一下发现效果还不错,搬上来记录一下。

2022-06-24 10:28:44 1382

原创 【语音算法】使用端点检测和百度语音识别技术实现视频的字幕生成

字幕文件中包含很多段信息,每一段表示了一句话的起始结束时间和内容,因此便涉及到了端点检测技术和语音识别技术。3. 字幕生成的其他方式3.1 通过双门限法进行端点检测双门限法的原理是浊音的能量高于清音,清音的过零率高于无声部分。因此,其核心在于:先利用能量,将浊音部分区分出来,再利用过零率,将清音也提取出来,就完成了端点检测。SpeechRcognition 可以说是一款语音识别集合器,共包含了谷歌、必应、IBM等七个识别器:基本使用方法如下:但好像需要翻墙才能用…autosub是一个直接可以生成字

2022-06-24 10:28:24 900

原创 【深度学习模型】了解一下Faster RCNN

Faster RCNN 由 论文提出,是继R-CNN和Fast RCNN之后的目标检测上的又一力作。R-CNN提出selective search(SS)来搜索region proposal(RP);Fast RCNN指出不必对每个RP各自提CNN特征,可以对原图提好CNN特征,再将SS找到的RP映射到CNN特征层上;Faster RCNN则提出了RPN层,将特征提取,proposal提取,bounding box整合在了一个网络中,极大地提高了检测速度。...

2022-06-24 10:28:03 1579

原创 【界面】使用QT designer、python搭建界面程序

PyQt 是Python语言的GUI编程解决方案之一,是类似于 Tkinter 的一个高级库。 为了更好的辅助PyQt界面的搭建,可以通过Qt Designer完成GUI界面设计。 使用Qt Designer可以通过拖拽、点击完成GUI界面设计,并且设计完成后生成的.ui程序可以通过 pyuic5 命令直接转换成.py文件以供python程序调用。 搭建完界面并写好逻辑后,还可通过 pyinstaller 将.py文件封装成.exe文件,以供没有python解释器的用户使用。 ...

2022-06-24 10:27:23 6109

原创 【强化学习知识】强化学习简介

强化学习是机器学习中的一大类,它可以让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试, 累积经验, 学习经验.

2022-06-24 10:26:46 25925 11

原创 【爬虫】使用BeautifulSoup、requests和you_get爬虫下载B站视频

整体流程上是,先用 Requests 请求获得网站源代码,再用 BeautifulSoup 解析网站并筛选出自己要的信息(如视频的url),最后用 you_get 下载。

2022-06-23 19:19:09 512

原创 【深度学习模型】CNN的进击之路——讲讲ResNet, Inception, ResNeXt和Densenet等常见网络

本文是一篇大杂烩,按照发布时间总结了CNN的一些常见网络。

2022-06-23 19:15:14 1221

原创 【深度学习模型】cv中Attention的奇妙旅途——讲讲Self-Attention, SENet和CBAM

由于注意力机制的高速发展,我尝试着对attention形成一种比较系统化的理解,选了比较有代表性的Self-Attention, SENet和CBAM,整理成本文。

2022-06-23 17:53:02 1292

原创 【深度学习模型】讲讲横扫nlp任务的BERT模型

本文讲解Google在2019年发表的论文BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding。

2022-06-23 17:41:45 377

原创 【深度学习模型】Transfomer以及Self-Attention讲解

这一篇主要讲解谷歌发表的Attention Is All You Need。

2022-06-23 17:30:50 952

原创 【深度学习知识】常见的梯度下降算法原理

梯度下降算法(Gradient Descent Optimization)是神经网络模型训练最常用的优化算法。

2022-06-23 17:07:50 2655

原创 【音频特征】opensmile 工具的使用和批处理

openSMILE是一款以命令行形式运行的工具,通过配置config文件来提取音频特征。主要应用于语音识别、情感计算、音乐信息获取。2.0版本之后的openSMILE包括了openCV库,可以用于视频处理和视频特征提取。.........

2022-06-23 16:44:51 5178

原创 【音频特征】语谱图的matlab提取和python提取

语谱图(spectrogram或specgram),也叫声谱图,可以简单看做一个二维矩阵,其纵轴表示频率,横轴表示时间,矩阵的值表示能量强弱。由于它拥有着频率和时间两个维度的信息,所以是比较综合地表示原语音信息的一种特征。另外,我将其看做语音和图像的一种连接,因为图像领域的模型发展得较快,所以通过这种方式把语音转换成一种特殊的图像再进一步处理.........

2022-06-23 16:29:07 6856 1

原创 【深度学习知识】卷积当中的补零操作

考虑卷积核和输入尺寸时奇数和偶数的情况

2022-06-23 16:09:19 3386

原创 【深度学习框架】pytorch之分布式数据并行化DDP

DistributedDataParallel(DDP)是一个支持多机多卡、分布式训练的深度学习工程方法。它将数据并行划分到多个进程,各进程初始化模型并由各自的数据训练,再通过Ring-Reduce进行梯度交换与合并,实现进程数倍数的效率。..................

2022-06-23 15:52:44 2159 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除