虚假新闻检测论文阅读（一）：Fake News Detection using Semi-Supervised Graph Convolutional Network

原创已于 2022-07-26 12:59:23 修改

· 1.1k 阅读

版权

文章标签：

于 2022-07-17 18:37:55 首次发布

8 篇文章

订阅专栏

#基于新闻文本、#GCN、#半监督、#WMD算法(with KNN)

首先建模新闻的文本信息作为新闻节点的初始化信息，之后利用新闻之间的相似性构图，将相似性较高的前n个新闻互相连边，之后根据图神经网络方法进行信息传递，获得新闻的嵌入表示，最后将嵌入表示输入到分类器中，得到新闻的分类结果。【另，论文笔记前三篇所用方法基本相同】

WMD算法是2015年提出，基于word2vec基础上通过计算文本间词的距离来衡量文本相似度的算法。
WMD度量值适用于根据语义上接近但在语法上不同的单词之间的对齐方式计算两个文本文档之间的距离。基本上测量两个文本文档之间的差异，作为一个文档的词向量到达另一个文档的词向量所需的最小距离。
算法思路：把文本以BOW的方式录入，使用word2vec的词向量矩阵，获得录入文本的每个词的词向量。在衡量两个文本的相似度的时候，计算两个文本的词向量的距离。

对于每个文本中的词出现的次数进行归一化处理，对于文章中第i 个词出现的次数有： $d_i=\frac{c_i}{\sum_{j=1}^{n}c_j}$ ，使用 $c(i,j)=||x_i-x_j ||_2$ 表示两个词间的欧氏距离。
WMD对于两个词之间的距离计算公式如下所示：
$\sum_{j=1}^{n} T_{ij}=d_i$
$\sum_{i=1}^{n} T_{ij}=d_j^’$
每对词 $i$ 和 $j$ 间的距离设定权重参数 $T_(i,j)$ ，使得文章D的第i个词对应到 $D ’$ 文章中所有的词的权重值和等于 $d_i$ 。同理，文档 $D ’$ 的第 $j$ 个词的权重值的和等于 $d_j^’$ 。为了达到 $\sum_{i,j=1}^nT_{i,j}$ 最优，使用时间动态规划算法（DP）。