AI_challenger_sentiment_analysis_2rd_基于N-BiSRU的分类方法

这篇文章整理自新闻纪实 | AI Challenger2018情感分析赛道亚军PPT分享,仅作个人笔记使用。
Dropwords和阈值调整。
在这里插入图片描述

1.问题建模

采用多任务学习主要是考虑了时间和空间上的效率;除此之外通过特征共享可以降低过拟合风险。分别训练20个分类模型可能能得到更好的模型,并且模型建立的过程会相对简洁一些。
在这里插入图片描述

2.模型基本架构

总体结构

共享层包含了词表示层和N-BiSRU;而独占层包含了特征抽取层和分类层。如果不使用多任务学习,则仅仅在词表示层共享了参数。
在这里插入图片描述

2.1词表示层

模型一共使用了4中词表示方法,包括词向量、字符级词表示、基于bert的词表示、伪朴素贝叶斯特征(词和类别的联合概率分布)。
在这里插入图片描述
下图主要说明了词向量和字符级词表示的关键参数。
训练词向量时仅仅使用了训练集并且词频阈值为5,维度为100维,训练过程中更新参数。除此之外,换成了腾讯开源词向量使得结果有小幅提升,但此时词向量为200维,很难说明是使用预训练词向量好还是自己训练好。
字符级词表示先使用训练集训练字向量,然后再使用BiSRU组成对应的词(每个词最长由3个字表示)。
在这里插入图片描述
BERT在此处的表现并不是很好,可能是由于BERT抽取的是高层特征,而我们却是从底层输入。除此之外,这个未选择BERT建立分类模型的原因写的很好。
在这里插入图片描述
值得一提的是,作者仅仅使用了训练集来训练词向量,这是考虑了真实的应用场景。而在比赛中,如果使用全部的语料来训练,是否会达到更好的效果?
在这里插入图片描述

2.2 上下文相关词表示

实验中采用的是多层(3-6层)双向SRU,并行性好,inference速度更快。
在这里插入图片描述
SRU(simple recurrent units)将运算量大的部分改为并行运算,仅仅将运算量小的部分进行串行运算。所谓计算量大的部分,其实就是门控单元计算过程中的矩阵相乘,而计算量小的部分则为门控单元计算过程中的矩阵点乘。我们知道在LSTM中,有
g t = σ ( W f x t + R f h t − 1 + b f ) g_t=\sigma (W_fx_t+R_fh_{t-1}+b_f) gt=σ(Wfxt+Rfht1+bf)
其中计算量最大的部分就是 R f h t − 1 R_fh_{t-1} Rfht1。而SRU的设计就是当前时间步的门控单元的计算仅仅取决于 x t x_t xt,而不依赖于 h t − 1 , c t − 1 h_{t-1}, c_{t-1} ht1,ct1
SRU的完整计算过程如下:
x ^ = W x t \hat x = Wx_t x^=Wxt
f t = σ ( W f x t + b f ) f_t=\sigma (W_fx_t+b_f) f

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值