论文End To End speech里一种seq2seq

最新推荐文章于 2025-06-01 15:43:46 发布

原创

最新推荐文章于 2025-06-01 15:43:46 发布 · 817 阅读

1 ·

CC 4.0 BY-SA版权

本文介绍了如何在End to End speech中应用改进的seq2seq模型，重点在于引入CBHG模型和pre-net。通过非线性变换和dropout提升泛化能力，结合Attention机制进行解码输出。CBHG模型由卷积、Highway网络和GRU组成，为语音识别带来新思路。

在End To End speech里介绍了一种更好的seq2seq的模型，效果我没有实际比较过，但是思路值得学习，接下来分享下，我的理解。

虽然这篇论文讲的是Text To speech，但是主要模型架构使用的是seq2seq。主要的改进也就是引入了CBHG模型，Conv-Bank-Highway-Gru_rnn。

在encode端之后，加入了pre-net，也就是使用非线性变换，作用在每一个序列嵌入到连续向量之后，并且使用dropout作为bottleneck提高泛化能力。

pre-net之后，讲编码序列传入Attention，再进行decode输出。

无论是encode还是decode，都是使用之前所说的CBHG模型。在模型构造中，第一层是conv1d-bank卷积；第二层是highway，这是一种将输入复制为两份，一份进行网络处理，另一份不进行，直接跳到网络，最后两份按不同比例合成。第三层是gru-rnn，gru单元和lstm很相似（阅读）。

接下来，用代码表达。

建立embedding映射。

def embed(inputs, vocab_size, num_nuits, zero_pad=True, scope="embedding", reuse=None):
    with tf.variable_scope(scope, reuse=reuse):
        lookup_table = tf.get_variable('lookup_table',

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

medium_hao

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【翻译】End-to-End Reinforcement Learning of Dialogue Agents for Information Access

Love-Coding

09-19

2215

本文是微软研究软邓力老师的文章，构建了一种从知识图谱中形成response的聊天机器人KB-InfoBot，并且提出了一种端到端的增强学习训练方案。（本文对于构建一个端到端的KB + task-oriented chatbot非常有启发和指导意义）introduction一个典型的goal-oriented（就是比如query一个人演的某年电影）一般由四个部分组成：一，language unders

seq2seq与end2end的理解

CSer

07-21

1872

之前对seq2seq和end2end有自己的模糊的感觉，一直没严格求证，现在抽时间看了一下大家对这两个的通俗的解释，摘录如下： end2end 以语音识别领域为例：传统的语音识别系统，是由许多个模块组成的，包括声学模型、发音词典、语言模型。其中声学模型和语言模型是需要训练的。这些模块的训练一般都是独立进行的，各有各的目标函数，比如声学模型的训练目标是最大化训练语音的概率，语言模型的训练目标是最小化 perplexity。由于各个模块在训练时不能互相取长补短，训练的目标函数又与系统整体的性能指标（一般是词错

参与评论您还未登录，请先登录后发表或查看评论

Seq2seq - End2end

Hekena的博客

09-11

401

端到端的神经网络模型：将原始数据作为输入，即词嵌入向量作为神经网络的输入，经过神经网络模型得到输出，输出与实际结果对比，得到误差，通过反向传播，调整模型参数，直至模型收敛，在输入与输出之间，整个神经网络是一体的（当做黑盒子来看待），即为端到端的模型。整个过程不再需要词性标注、句法分析、语义分析等多个子任务，每个子任务的结果会影响到模型的输出结果，就是非端到端的。序列到序列的模型：词嵌入得到词向量，在通过encoder(编码器）得到上下位张量，将context输入到解码器，产生输出。（就是两个RNN模型

seq2seq-layout-analysis:基于send2seq的end2end布局分析

03-19

票据类版面分析算法当前OCR之后的版本面分析工作大家都是规则编写的，本人也遭受规则之苦，看到ocr输出的一大堆文字和坐标就头皮发麻。一个基于seq2seq的端到端版面分析算法，希望能够帮到各位ocrer。思路：通过有监督方式训练句向量，然后通过seq2seq的方式学习box类别链接： : 使用方法准备数据首先利用自己的OCR算法，将票据图片文字识别出来将结果存入labelme临时json 使用labelme在groupid里标注所需要提取的box类别将标注数据放入数据对应的train和test文件夹下数据样例参考data / train / 1.json 修改config.py其中5个参数，其余可根据情况调试 self.class_char # 标签列表（对应groupid） self.max_text_len = 20 #

Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin论文笔记

Learning from the mistakes

09-04

5051

感想这篇文章的署名作者尤其的多，做了很多工作，从模型设计到产品不熟，还实现了一个GPU版本的CTC，CTC可以说是这篇文章的核心部分，没有它，就没有端到端的训练，作者还用到了双向神经网络，对GPU并行都做了相应的定制化优化，涉及的很全，算法比较实验也很全，大多都是很人类水平比较。介绍数十年的手工工程领域知识已经融入到了最新的自动语音识别（automatic speech rec

seq2seq与end2end的区别

久蔡合子

12-07

525

seq2seq与end2end的区别

【论文学习】《Tacotron: Towards End-to-End Speech Synthesis》

求求你们别卷了

01-23

4677

《Tacotron: Towards End-to-End Speech Synthesis》论文学习文章目录《Tacotron: Towards End-to-End Speech Synthesis》论文学习摘要 1 介绍 2 相关工作 3 模型架构 3.1 CBHG模块 3.2 编码器 3.3 解码器 3.4 后处理网和波形合成 4 模

【论文学习笔记】《Tacotron: Towards End-To-End Speech Synthesis》

求求你们别卷了

01-30

1083

Tacotron 论文学习文章目录Tacotron 论文学习 1 简介 2 相关工作 3 模型架构 3.1 CBHG模块 3.2 编码器 3.3 解码器 3.4 后置处理网络与波形合成 4 模型细节 5 实验 5.1 烧蚀分析 5.2 平均意见得分测验 6 讨论 1

视频理解任务论文阅读-vid2seq

最新发布

m0_62653520的博客

06-01

1094

1.什么是密集视频描述？就是一段长视频里面包括各种动作阶段生成对应阶段干了什么事情就是检测出多个事情并生成语言描述2.看这个图 vid2seq的作用就是将一个长视频分成几个部分每个部分有对应的描述而且设置了时间边界开始和结束的时间3.vid2seq的作用就是：事件定位自动检测视频中发生的多个事件的时间边界（即每个事件的开始和结束时间）事件描述：为定位到的每个事件生成自然语言描述。

TACONTRON: A Fully End-to-End Text-To-Speech Synthesis Model

zxrttcsdn的博客

04-15

1049

Generate speech at the frame level 统计参数TTS: 文本前端：提取语言特征声学特征预测模型基于信号处理的声音合成器优点：减轻了复杂的工作可以应对复杂的条件和多种情况（语者，语种，情感）相较多阶段模型，鲁棒性更高 TTS：解压（文字->声音），输出是连续的，输出序列会比输入序列要长的多 Ta...

从Machine Translation 到Sequence to Sequence(Seq2seq)、Attention、Pointer Network(prt network)

王琨的博客

03-05

2373

　　本文基于cs224n课程的Machine Translation部分和Michael Collins NLP的Machine Translation部分。从Tranditional MT介绍到SMT(statistical Machine Translation)，再到Sequence to Sequence 、Attention，并结合其中的几篇经典论文阐释，同时考虑到15年Google B...

TensorFlow|基于Transformer的自然语言推理（SNLI）

shillyshally的博客

04-28

4634

在经历了看论文，看源码，看Bert源码之后，整理思路，实现了一下Transformer，并搭建了一个小型的Transformer做了一下SNLI任务。同时吸取以前的教训，这次好好的写了注释 1.Transofrmer 原理不再重述，其他博客中讲的很好，比如：https://jalammar.github.io/illustrated-transformer/ 和他的翻译版：https...

什么是end-to-end神经网络？

深藏功与名

11-03

3万+

来源：知乎著作权归作者所有。讨论: 张旭---------------------------------> 端到端指的是输入是原始数据，输出是最后的结果，原来输入端不是直接的原始数据，而是在原始数据中提取的特征，这一点在图像问题上尤为突出，因为图像像素数太多，数据维度高，会产生维度灾难，所以原来一个思路是手工提取图像的一些关键特征，这实际就是就一个降维的过程。那么问题来了

Neural Attention Model for Abstractive Sentence Summarization

weixin_34067102的博客

08-01

387

端到端的TTS深度学习模型tacotron(中文语音合成)

热门推荐

yunnangf的博客

03-19

3万+

TACONTRON: A Fully End-to-End Text-To-Speech Synthesis Model通常的TTS模型包含许多模块，例如文本分析，声学模型，音频合成等。而构建这些模块需要大量专业相关的知识以及特征工程，这将花费大量的时间和精力，而且各个模块之间组合在一起也会产生很多新的问题。TACOTRON是一个端到端的深度学习TTS模型，它可以说是将这些模块都放在了一个黑箱子

python中print函数的seq和end参数简介

weixin_45561375的博客

11-16

7496

print函数的作用是打印输出内容，它的sep和end参数可以让我们的打印更具有个性化。 seq：用来间隔多个对象，默认值是一个空格。也可以输入特定的值（符号、数字、中文都可）来间隔内容。 end：用来设定以什么结尾，默认值是换行符"\n"。也可以输入其他值来结尾。代码利用pycharm执行的，spyder也是可以的。例句： print("Hello","python","I love you")#seq和end为默认值，空格和换行 print('---------------') print("\n"

TACOTRON:端到端的语音合成

左左左左想

07-09

1万+

由于最近在学习语音识别和语音合成方面的内容，整理了一些东西，本文为论文tacotron的笔记。tacotron主要是将文本转化为语音，采用的结构为基于encoder-decoder的Seq2Seq的结构。其中还引入了注意机制（attention mechanism）。在对模型的结构进行介绍之前，先对encoder-decoder架构和attention mechanism进行简单的介绍。其中纯属个人

bert代码解读2之模型transformer的解读

qqywm的博客

12-27

2221

论文attention is all your need github：https://github.com/google-research/bert 解读翻译：https://www.jiqizhixin.com/articles/2018-11-01-9 https://baijiahao.baidu.com/s?id=1616001262563114372&wfr=s...

【理解】end-to-end And sequence-to-sequence

巫_月的博客

10-11

592

1.end-to-end 2. sequence-to-sequence Sequence to Sequence学习简述 - 知乎【NLP论文笔记】Sequence to Sequence Learning with Neural Networks - 简书 Sequence to Sequence模型笔记 - 简书重点： LSTM的优势在于处理序列，它可以将上文包含的信息保存在隐藏状态中，这样就提高了算法对于上下文的理解能力。 Encoder的...

Espresso：高效端到端神经语音识别工具包详解

由于语音识别和机器翻译在本质上都是序列到序列（seq2seq）的问题，因此NMT中的一些技术可以直接应用于语音识别。这包括编码器-解码器结构、注意力机制、序列对齐等。Espresso工具包中可能集成了NMT的某些最新技术和...