文本分类模型:MA - TGNN与MDGAT的探索
1. 引言
文本分类作为自然语言处理中的基础任务,在过去几十年里得到了广泛研究。它的应用领域极为广泛,涵盖了情感分析、新闻分类、医疗诊断等多个方面。目前,文本分类方法主要分为基于浅层学习和基于深度学习的方法,其中深度学习方法又可细分为基于序列和基于图的方法。
2. 相关模型基础介绍
在基于图的模型中,有多种不同的实现方式。例如GCN采用图的频域卷积方法,GraphSAGE采用图的空间卷积方法,通过融合当前节点的邻居节点来获取该节点的特征表示。GAT则通过引入自注意力机制自适应地匹配邻居节点的权重,GGNN使用门控循环单元(GRU)来获取邻居节点的权重。
在邻居聚合方面,传统上使用单一的聚合方法,如均值或最大值。但有些聚合器在处理单GNN层和连续输入特征空间时,无法区分附近的消息。因此,有观点认为使用多个聚合器可以解决这个问题,因为它们具有互补关系。
3. MA - TGNN模型结构
MA - TGNN是一个新的文本分类图网络,由节点构建、节点更新和节点聚合三部分组成。
- 节点构建
- 该步骤将整个文本转换为基于单词内在关系的文本级图,这与GCN构建语料级图的方式不同。具体步骤如下:
- 定义图 $G = (E, N)$,其中 $G$ 是由一组顶点 $N$ 和边 $E$ 组成的图。
- 使用固定大小的滑动窗口内的共现关系来描述单词之间的关系,淡化文本中长距离单词关系的重要性,但不丢弃这些关系。
- 对文本进行预处理,包括分词和去除停用词。顶点的嵌入用单词特征初始化,记为 $h
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



