- 博客(31)
- 收藏
- 关注
原创 【语音算法】Montreal Forced Aligner教程(MFA,中文语音文本对齐)
Montreal Forced Aligner(MFA)是一种强制对齐工具,可以将音频文件和其对应的文本,转换为音频文件在word、phone等级别的时间对齐的标注。这个工具在语音识别、音频标注和语音合成等领域得到了广泛的应用。本文将为大家介绍如何使用MFA完成音频文件的强制对齐。Montreal Forced Aligner是一种非常有用的工具,可以帮助我们完成音频文件和文本之间的强制对齐,为语音识别、音频标注和语音合成等应用提供了基础的支持。
2023-05-11 18:31:24
5373
2
原创 【深度学习模型】扩散模型(Diffusion Model)基本原理及代码讲解
生成式建模的扩散思想实际上已经在2015年(Sohl-Dickstein等人)提出,然而,直到2019年斯坦福大学(Song等人)、2020年Google Brain(Ho等人)才改进了这个方法,从此引发了生成式模型的新潮流。目前,包括OpenAI的GLIDE和DALL-E 2,海德堡大学的Latent Diffusion和Google Brain的ImageGen,都基于diffusion模型,并可以得到高质量的生成效果。本文以下讲解主要基于DDPM,并适当地增加一些目前有效的改进内容。
2023-03-23 14:58:49
75607
27
原创 【深度学习模型】ChatGPT原理简述
OpenAI推出人工智能聊天模型ChatGPT,很快引起百万用户注册使用,公众号和热搜不断,迅速火出圈,甚至引起各大公司在聊天对话机器人上的军备竞赛。
2023-02-11 12:45:35
11040
原创 【C++】cMakeLists介绍(以简单的OpenCV展示图片为例)
编写CMakeLists.txt可以调用其他的.h头文件和.so/.a库文件,通过跨平台编译工具CMake,将.cpp/.c/.cc文件编译成可执行文件或者新的库文件。
2022-11-09 23:39:16
2640
原创 【服务器】NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.
NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.
2022-10-25 11:49:09
499
原创 【语音算法】wav2vec系列原理和使用
wav2vec系列工作由facebook AI Research团队提出,包括wav2vec、vq-wav2vec、wav2vec2.0,效仿nlp上的word2vec,是语音的一种通用特征提取器。本文重点讲解wav2vec2.0模型及其使用方法。
2022-06-25 16:42:34
30134
26
原创 【音频特征】语音特征小结
本文汇总了一些常见或不常见的语音特征。包含语音中音高、语调、能量、节奏变化等重要信息,表现为人昕觉系统感知到的“抑扬顿挫”,在语音信号处理的许多领域都有应用。
2022-06-25 16:42:06
6215
1
原创 【语音算法】语音的预处理--端点检测
语音的实际应用场景中,经常是给定一段包含多句句子的长语音,这就产生了语音端点检测的需求,从而实现对句子的分割。
2022-06-25 16:41:26
1715
原创 【语音算法】语音的预处理--去噪
在人工智能中,算法固然很重要,但语音的预处理却直接地决定了算法的性能上限,因此有必要对语音进行去噪处理。通过截取音频中的已知噪音部分,根据该噪音样本对整个音频进行降噪。截取噪音使用ffmpeg,降噪使用sox。...
2022-06-25 16:41:01
4384
原创 【服务器】nvidia驱动重装
在重启服务器的时候,发现nvidia驱动自动升级,使用 nvidia-smi 命令会报错如下,故重装nvidia驱动
2022-06-24 10:33:16
1817
原创 【软件使用】VSCode的服务器和github同步
近期发现VSCode是一个非常强大的IDE,可以替换掉诸如xshell、winscp等多款软件,实现很好的本地、服务器、甚至github的同步。
2022-06-24 10:32:53
3333
原创 【深度学习框架】深度学习主流框架的代码实例
深度学习框架从一开始的 Theano、TensorFlow,到后来封装程度更高的Pytorch、Keras等,层出不穷。此文通过一个简单的分类任务,综合进这些框架的代码。
2022-06-24 10:32:22
1050
原创 【语音识别】kaldi的安装和使用案例(librispeech)
按照官网教程,kaldi的安装首先通过git获取项目,再进行编译。如果报错,则可能是相关的依赖项没有安装,可按照提示一步步安装(需要root权限)。
2022-06-24 10:29:24
1910
原创 【语音算法】使用端点检测和百度语音识别技术实现视频的字幕生成
字幕文件中包含很多段信息,每一段表示了一句话的起始结束时间和内容,因此便涉及到了端点检测技术和语音识别技术。3. 字幕生成的其他方式3.1 通过双门限法进行端点检测双门限法的原理是浊音的能量高于清音,清音的过零率高于无声部分。因此,其核心在于:先利用能量,将浊音部分区分出来,再利用过零率,将清音也提取出来,就完成了端点检测。SpeechRcognition 可以说是一款语音识别集合器,共包含了谷歌、必应、IBM等七个识别器:基本使用方法如下:但好像需要翻墙才能用…autosub是一个直接可以生成字
2022-06-24 10:28:24
900
原创 【深度学习模型】了解一下Faster RCNN
Faster RCNN 由 论文提出,是继R-CNN和Fast RCNN之后的目标检测上的又一力作。R-CNN提出selective search(SS)来搜索region proposal(RP);Fast RCNN指出不必对每个RP各自提CNN特征,可以对原图提好CNN特征,再将SS找到的RP映射到CNN特征层上;Faster RCNN则提出了RPN层,将特征提取,proposal提取,bounding box整合在了一个网络中,极大地提高了检测速度。...
2022-06-24 10:28:03
1579
原创 【界面】使用QT designer、python搭建界面程序
PyQt 是Python语言的GUI编程解决方案之一,是类似于 Tkinter 的一个高级库。 为了更好的辅助PyQt界面的搭建,可以通过Qt Designer完成GUI界面设计。 使用Qt Designer可以通过拖拽、点击完成GUI界面设计,并且设计完成后生成的.ui程序可以通过 pyuic5 命令直接转换成.py文件以供python程序调用。 搭建完界面并写好逻辑后,还可通过 pyinstaller 将.py文件封装成.exe文件,以供没有python解释器的用户使用。 ...
2022-06-24 10:27:23
6109
原创 【强化学习知识】强化学习简介
强化学习是机器学习中的一大类,它可以让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试, 累积经验, 学习经验.
2022-06-24 10:26:46
25925
11
原创 【爬虫】使用BeautifulSoup、requests和you_get爬虫下载B站视频
整体流程上是,先用 Requests 请求获得网站源代码,再用 BeautifulSoup 解析网站并筛选出自己要的信息(如视频的url),最后用 you_get 下载。
2022-06-23 19:19:09
512
原创 【深度学习模型】CNN的进击之路——讲讲ResNet, Inception, ResNeXt和Densenet等常见网络
本文是一篇大杂烩,按照发布时间总结了CNN的一些常见网络。
2022-06-23 19:15:14
1221
原创 【深度学习模型】cv中Attention的奇妙旅途——讲讲Self-Attention, SENet和CBAM
由于注意力机制的高速发展,我尝试着对attention形成一种比较系统化的理解,选了比较有代表性的Self-Attention, SENet和CBAM,整理成本文。
2022-06-23 17:53:02
1292
原创 【深度学习模型】讲讲横扫nlp任务的BERT模型
本文讲解Google在2019年发表的论文BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding。
2022-06-23 17:41:45
377
原创 【深度学习模型】Transfomer以及Self-Attention讲解
这一篇主要讲解谷歌发表的Attention Is All You Need。
2022-06-23 17:30:50
952
原创 【深度学习知识】常见的梯度下降算法原理
梯度下降算法(Gradient Descent Optimization)是神经网络模型训练最常用的优化算法。
2022-06-23 17:07:50
2655
原创 【音频特征】opensmile 工具的使用和批处理
openSMILE是一款以命令行形式运行的工具,通过配置config文件来提取音频特征。主要应用于语音识别、情感计算、音乐信息获取。2.0版本之后的openSMILE包括了openCV库,可以用于视频处理和视频特征提取。.........
2022-06-23 16:44:51
5178
原创 【音频特征】语谱图的matlab提取和python提取
语谱图(spectrogram或specgram),也叫声谱图,可以简单看做一个二维矩阵,其纵轴表示频率,横轴表示时间,矩阵的值表示能量强弱。由于它拥有着频率和时间两个维度的信息,所以是比较综合地表示原语音信息的一种特征。另外,我将其看做语音和图像的一种连接,因为图像领域的模型发展得较快,所以通过这种方式把语音转换成一种特殊的图像再进一步处理.........
2022-06-23 16:29:07
6856
1
原创 【深度学习框架】pytorch之分布式数据并行化DDP
DistributedDataParallel(DDP)是一个支持多机多卡、分布式训练的深度学习工程方法。它将数据并行划分到多个进程,各进程初始化模型并由各自的数据训练,再通过Ring-Reduce进行梯度交换与合并,实现进程数倍数的效率。..................
2022-06-23 15:52:44
2159
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人