An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling

本文探讨TCN(Temporal Convolutional Network)在序列建模中的应用,介绍因果卷积、扩张卷积及残差连接等关键技术。通过分析TCN如何避免未来信息泄露,扩大感受野,并保持网络稳定,为序列任务提供有效解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

TCN:An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling

该论文有以下几个重点方面:

-1.Sequence Modeling:序列建模
-2.Causal Convolutions:因果卷积
-3.Dilated Convolutions:扩张卷积
-4.Residual Connections:残差连接

Part 1 Sequence Modeling

对于输入序列“ x0,x1,x2,x3…xt’’;有输出序列’‘y1,y2,y3…yt’’.其满足因果卷积,即yt与 x0,x1,x2,x3…xt 相关。而与未来的输入,y(t+1)无关。

Part 2 Causal Convolutions

tcn基于两个原则:1.网络输出的长度与网络输入的长度相同。2.从future到past不会有信息的泄漏。为了达到第一点,tcn用了一个1d的卷积网络(FCN)框架,每个隐藏层都与输入层长度相同。为了实现第二点,tcn使用了因果卷积(因果卷积可着重看一下),在t时刻的输出与t时刻以及之前的层有关。
简单来说,有在这里插入图片描述
这种设计有个缺点是需要极深的网络和极长的过去时间,因此,在接下来的阶段,我们将分析如何用现有的技术满足这亮点。

Part 3 Dilated Convolutions

简单的因果卷积只能回顾线性大小深度的网络,这使得在序列任务重应用因果卷积很有挑战性,我们的解决方法是应用因果卷积使得扩大感受野。正式得是,对于1-D输入x序列,空洞卷积操作F有:
在这里插入图片描述
在这里,d是空洞卷积参数,k是filter大小,扩张卷积的示意图如下所示。有两种方法都可以扩大tcn的感受野,一个是增大扩大卷积参数d,一个是扩大filter的大小k。下图中分别展示了当d=1,2,4时的不同的空洞卷积。

在这里插入图片描述

Part 4 Residual Connection

残差连接,一个残差模块包括两部分:输入与一系列操作之后的输出,如下所示:
在这里插入图片描述
由于tcn的感受野取决于网络的深度,filter的大小,以及扩张因子d,因此更深更大的tcn网络的稳定性很重要。因此,在我们的tcn模型的设计中,用残差模块代替一般的卷积层。
在这里插入图片描述
本实验中tcn的残差卷积模块,如图所示。在标准的resnet中,输入直接添加到经过一系列操作中的网络中,但在tcn中,输入输出可能有不同的宽度,因此我们使用1*1大小的卷积以保证元素相加⊕,大小相同。

<think>好的,用户想找TCN(时间卷积网络)的原始论文。首先,我需要确认TCN的原始论文是哪一篇。根据用户提供的引用内容,引用[2]提到TCN是由作者在某个时间提出的,用于序列建模,并比较了CNN与RNN、LSTM等的效果。但引用中没有直接给出论文标题或作者。 接下来,我需要回想一下TCN的相关信息。TCN通常与《An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling》这篇论文相关联,作者是Shaojie Bai、J. Zico Kolter和Vladlen Koltun,发表于2018年。这可能就是用户要找的原始论文。此外,用户提到的引用[3]提到论文获得了ACL 2018的最佳短文奖,但ACL通常处理自然语言处理,而TCN的论文可能发表于其他会议,比如ICML或arXiv预印本,需要确认。 可能用户混淆了不同的会议,或者引用[3]指的是另一篇相关论文。因此,需要指出可能的原始论文,并建议用户核对作者和会议信息。同时,提供arXiv链接方便用户访问,因为很多论文会先发布在那里。此外,生成相关问题帮助用户进一步了解TCN的结构和应用,如比较TCN与RNN、TCN的核心组件等。</think>TCN(Temporal Convolutional Network)的原始论文通常被认为是2018年由Shaojie Bai等人发表的《An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling》。这篇论文系统地提出了TCN的网络架构,并通过实验验证了其在序列建模任务中优于传统RNN、LSTM等模型的性能[^2]。 论文核心内容包括: 1. **因果卷积**(Causal Convolution)保证时序依赖关系不泄漏 2. **膨胀卷积**(Dilated Convolution)扩大感受野 $$ y_t = \sum_{k=0}^{K-1} w_k \cdot x_{t-d \cdot k} $$ 其中$d$为膨胀系数,$K$为卷积核大小 3. **残差连接**(Residual Connection)解决深层网络梯度消失问题[^2] 该论文最初发布于arXiv预印本平台: https://arxiv.org/abs/1803.01271
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值