64、马拉地语文本分类与图基混合推荐模型研究

马拉地语文本分类与图基混合推荐模型研究

一、马拉地语文本分类

1.1 注意力机制与模型基础

在文本处理中,如果能知晓在给定时间步 $k$ 应关注哪些单词,就可以对相应的单词表示进行加权平均,并将其输入解码器。为实现这一目标,定义了如下函数:
- $e_{jk} = f_{ATT}(s_{k - 1}, c_j)$ ,此函数用于捕捉第 $j$ 个单词在时间步 $k$ 对解码单词的重要性。
- 通过 Softmax 函数对权重进行归一化,公式为 $\alpha_{jk} = \frac{\exp(e_{jk})}{\sum_{j = 1}^{M} \exp(e_{jk})}$ ,其中 $\alpha_{jk}$ 表示关注第 $j$ 个单词以生成第 $k$ 个输出单词的概率。
- 进一步,$e_{jk} = V_{ATT}^T \tanh(U_{att}s_{k - 1} + W_{att}c_j)$ ,这里的 $V_{ATT}^T$、$U_{att}$、$W_{att}$ 是模型的额外参数,会在训练过程中与其他参数一同学习。

可以考虑使用两级分层 RNN 编码器。在每个话语中,第一级 RNN 作用于单词序列,得到话语表示序列;然后另一个 RNN 对该序列进行编码,得到话语序列的单一表示,解码器再基于此话语生成输出。

1.2 文献综述

众多学者在文档分类领域进行了研究:
| 研究者 | 提出模型 | 数据集及效果 |
| ---- | ---- | ---- |
| Yang 等 | 分层网络平均、分层网络最大池化、分层注意力模型 | Yelp 评论准确率 71.0%,IMDB 评论 49.4%

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值