GCN思考 - 之word2vec的方式直接计算文本分类

原创于 2019-01-12 23:47:24 发布 · 2.6k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

DeepLearning 专栏收录该内容

4 篇文章

订阅专栏

本文探讨了Word2Vec与Text-GCN的优化方案，包括在CBOW模型中引入文章类别预测，以及通过仅建立word-word图谱来改进传统半监督Text-GCN模型，使其适用于在线预估场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

优化一：

借鉴GCN的思想，在训练的过程中词和词之间是有一条边（比如同一句子中间隔不超过5的两个词），那么在word2vec中，是由词来预测词，比如CBOW中4个词预测一个中间词，那么在训练中也可以用同样的模型在CBOW预测的时候同时预测一个文章。

这时的huffman code是由词、文章类别所组成的。

优化二：

传统的text-gcn是半监督学习的方式，每个doc和word都是一个node，相邻的5个word中都存在edge， doc和其包含的所有word之间也存在一条edge，实际上就是做的聚类工作，也就是未知种类的doc也要作为一个node放入图中，这里无法用来去预估新来的样本，比如在线预估场景中，是无法使用的。

那么可否将doc不放入图中，而只是将word-word建立一个图，这时候相当于GCN+Fasttext 或 GCN + CNN来预测了。

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。