
深度学习笔记
文章平均质量分 87
深度学习的一些笔记,主要使用pytorch实现
尚歌
一步一脚印,在代码的世界创出自己的路
展开
-
语音识别基础
语音识别架构组成基础概念自动语音识别(Automatic Speech Recognition,ASR)技术是一种将人的语音转换为文本的技术。这项技术被当做是可以使人与人、人与机器更顺畅交流的桥梁,已经在研究领域活跃了50多年。系统分类研究领域分类识别任务分类应用帮助人与人的交流 HHC:应用场景如,如翻译系统,微信沟通中的语音转文字,语音输入等功能。语音到语音(speech-to-speech,S2S)翻译系统,可以整合到像Skype这样的交流工具中,实现自由的转载 2021-04-09 17:28:33 · 1609 阅读 · 0 评论 -
CTC相关知识
简介在语音识别中,我们的数据集是音频文件和其对应的文本,不幸的是,音频文件和文本很难再单词的单位上对齐。除了语言识别,在OCR,机器翻译中,都存在类似的Sequence to Sequence结构,同样也需要在预处理操作时进行对齐,但是这种对齐有时候是非常困难的。如果不使用对齐而直接训练模型时,由于人的语速的不同,或者字符间距离的不同,导致模型很难收敛。CTC(Connectionist Temporal Classification)是一种避开输入与输出手动对齐的一种方式,是非常适合语音识别或者O原创 2021-04-07 18:17:14 · 854 阅读 · 0 评论 -
使用Docker 搭建 GitLab中文版--1
目录系统环境步骤安装docker系统环境Ubuntu docker (Docker version 19.03.12, build 48a66213fe) docker-compose步骤1.安装docker1.在一个新的宿主机安装docker之前先设置docker的仓库$ sudo apt-get update $ sudo apt-get install \ apt-transport-https \ ca-certificates \ curl \ g原创 2021-04-03 16:16:35 · 1072 阅读 · 0 评论 -
EESEN:使用深RNN模型和基于WFST的解码进行端到端语音识别
论文: EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING摘要文本提出了Eesen框架,该框架极大地简化了构建最优ASR系统的流程。声学建模包括使用RNN学习预测上下文无关目标(音素或字符),为了消除预先生成的帧标签的需求,本文采用了CTC目标函数来推断语音和标签序列之前的对齐方式。Eesen一个显著特征是基于加权有限状态转换机(WFST)解码方式,该方法可将词典和...原创 2021-03-14 21:21:21 · 1264 阅读 · 0 评论 -
MFCC/HMM/GMM/EM/LM基本知识
语音识别的基本流程语音的识别对于人类来说是很自然的一个过程,但要让机器“听懂”却十分困难。一段音频文件,机器怎么才能知道它代表的是什么意思呢?语音识别要做的事,就是组CP:根据音频文件来判断对应的文本。当然,要让机器真正的“听懂”和“理解”,还涉及到很多其他的知识,语音识别只是其中一个环节。那么机器接收到左边这段语音之后,是怎么把它一口口吞下去,最后吐出来一个“two”呢?下图中,我们以最经典的基于GMM-HMM的语音识别框架为例,可以看到,经过数据准备、特征提取、训练、再到解码,就可以获取最终转载 2021-01-23 21:55:04 · 2083 阅读 · 0 评论 -
论文阅读(通用CNN和RNN建模的经验评估)
论文 An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling摘要最近的一些研究表明卷积神经网络在像语音合成以及机器翻译的任务上超过了循环神经网络。给定一个新的序列建模任务或者数据集,应该选用哪种架构,简单的卷积体系结构在各种任务和数据集上的表现优于常规递归网络(如LSTM),同时表现出更长的有效内存。我们得出结论,应该重新考虑序列建模与递归网络之间...原创 2021-01-15 20:06:14 · 718 阅读 · 0 评论 -
NLP论文阅读(通过义元信息增强的Transformer)
论文 Enhancing Transformer with Sememe Knowledge摘要向Transformer模型中引进了义元知识,并提出三种基于义元信息增强的Transformer模型,根据语言定义,义位是语言的最小语义单位,可以很好地表示单词背后的隐含语义在Transformer中引入义元知识可以持续改善语言模型和下游任务,对抗测试显示义元信息可以提高模型健壮性引言自我监督的预训练显着提高了Transformer(V aswani等人,...原创 2021-01-21 15:50:10 · 537 阅读 · 0 评论 -
机器人语音---走进优必选
听会笔记介绍了机器人语音技术部的关键技术包括前端的信号处理,语音识别ASR,自然语言处理,以及最后的语音合成TTS 机器人的多模态交互 语音转换案例,可以通过20句话使语音合成变成目标人声音 ...原创 2020-11-26 21:43:48 · 435 阅读 · 1 评论 -
pytorch模型微调笔记
1.调整某一层参数有时候在运行过程中稍微改下模型的输入词大小,就会导致和原来模型不符的bug出现RuntimeError: Error(s) in loading state_dict for TransformerLanguageModel: size mismatch for output_project.weight: copying a param with shape torch.Size([4233, 320]) from checkpoint, the shape i原创 2020-11-26 13:46:23 · 2205 阅读 · 0 评论 -
工作站(集群)使用说明及相关工具
mysql -u root -pEnter password:ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/var/run/mysqld/mysqld.sock' (2)原创 2020-09-19 11:47:29 · 7249 阅读 · 0 评论 -
pytorch实现函数拟合
导入必要模块随机生成数据import randomimport numpy as npimport matplotlib.pyplot as pltimport torchimport torch.nn as nnimport torch.nn.functional as Fx_train_list = []y_train_list = []for i in range(1, 50): x = i*random.choice([0.7,0.8,0.9]) y = i*原创 2020-07-13 19:23:32 · 2409 阅读 · 0 评论 -
pytorch实现手写字体识别(Mnist数据集)
1.加载数据集一个快速体验学习的小tip在google的云jupyter上做实验,速度快的飞起。import torchfrom torch.nn import Linear, ReLUimport torch.nn as nnimport numpy as npfrom torch.autograd import Variablefrom torchvision import datasets,transformsfrom torch.autograd import Variable原创 2020-06-25 09:38:27 · 7489 阅读 · 2 评论 -
resnet实现cifar10分类(pytorch实现)
目录数据加载(创建dataset对象)创建一个 DataLoader对象部分数据可视化创建模型(two methods)没有使用GPU采用torchvision.models中的自带模型(resnet)自写模型循环DataLoader对象,将数据加载到模型中训练10epoch训练效果如下数据加载(创建dataset对象)使用torchvision模块中的datasets在线下载数据cirfar_train = datasets.CIFAR10(...原创 2020-06-03 10:09:17 · 4689 阅读 · 0 评论 -
深度学习实战---猫狗大战(pytorch实现)
数据准备猫狗大战数据集下载链接微软的数据集已经分好类,直接使用就行,数据划分我们将猫和狗的图片分别移动到训练集和验证集中,其中90%的数据作为训练集,10%的图片作为验证集,使用shutil.move()来移动图片。新建文件夹train,test,将数据集放入train中,利用代码将10%的数据移动到test中文件移动代码import osimport shutilsource_path = r"E:\猫狗大战数据集\PetImages"train_dir = os.原创 2020-06-01 17:25:45 · 11535 阅读 · 3 评论