虚假新闻检测论文阅读(五):A Semi-supervised Learning Method for Fake News Detection in Social Media

论文标题:A Semi-supervised Learning Method for Fake News Detection in Social Media
日期:IEEE2020

#基于新闻文本(+图像多模)#半监督#伪标签#LDA

一、基本内容

利用LDA方法为未标注数据打伪标签,从而更好的训练无标注的CNN模型,取得了不错的效果。

二、主要工作

SLD-CNN
基于半监督学习框架,使用CNN针对标记和未标记数据。
(1)首先使用CNN提取文本和图像数据的各种特征;
(2)使用线性判别分析(LDA)预测未分类数据的类别;
(3)提出一种方法计算适应度函数,以提升每个步骤中预测类别的效果。

三、模型框架

在这里插入图片描述

  • CNN需要标记数据来优化网络,并且未标记数据不能在CNN中使用。故使用基于LDA的方法预测未标记数据。
  • LDA线性判别分析:
    一个接近方差分析和回归分析的概念。在每种统计方法中,因变量被建模为其他变量的组合。但在方差分析和回归分析中,因变量是距离类型,而在LDA中,因变量是名义或有序的。
    论文中假设每个特征都可以建模为一个随机变量
    协方差矩阵是数值变量在不同方向上方差的一般形式,且由于方差表示随机变量在均值附近的值的分布。因此, n n n个变量的协方差矩阵 表示 在均值向量周围的 n n n维空间中的概率分布。
    如果有 n n n个随机变量 { h 1 , … , h n } {\{h_1,…,h_n}\} {h1,,hn}使得每个变量包含 m m m个实例(并存储在维数为 m × n m×n m×n的矩阵 D D D中,其中第 i i i列第 j j j行的元素表示 x i x_i xi y i y_i yi之间的协方差)。
    ∑ [ i , j ] = C o v ( x i , y i ) ∑[i,j] =Cov(x_i,y_i) [i,j]=Cov(xi,yi)
    C o v ( x i , y i ) = 1 m ∑ l = 1 m [ ( D ( l , i ) − μ i ) ( D ( i , j ) − μ j ) ] {Cov(x_i,y_i )} = {1\over m} {∑_{l=1}^m[(D(l,i)-μ_i)(D(i,j)-μ_j)]} Cov(xi,yi)=m1l=1m[(D(l,i)μi)(D(i,j)μj)]
    μ i μ_i μi μ j μ_j μj是矩阵的第 i i i行、第 j j j列的变量均值,根据Fisher线性判别理论,当均值之差最大,协方差值之差最小时,判别效果最好:
    W = ( ∑ 0 + ∑ 1 ) − 1 ( μ ‾ 1 ) − ( μ ‾ 0 ) W=(∑_0+∑_1 )^{-1} (\overline{μ}_1 ) -(\overline{μ}_0 ) W=(0+1)1(μ1)(μ0)
    由于问题有2个类别(真实文章和假文章),因此索引为0和1。
    因为对于每个类来说,均值是每个特征的每个均值的向量。这意味着两个类分离级别处于最大值,我们可以降低维度(即特征数量)并保留其中重要的特征。这个过程适用于没有标签的数据。
  • 半监督LDA(SLDA)
    SLDA是一种迭代算法,获取特征和类数量并迭代最大化判别类(两个类:fake—0、real—1),所以SLDA的输出是一个介于0和1之间的数字。
    在这里插入图片描述
  • 结合CNN
    估计标签的值可能存在误差,为了控制其对CNN分类过程的影响,引入了影响因子α:
    θ ∗ = a r g m i n [ L l a b e l e d ( y ^ , y ) + α L u n l a b e l e d ( y ^ , y ) ] θ^*=argmin[L_{labeled} (\hat{y},y)+αL_{unlabeled} (\hat{y},y)] θ=argmin[Llabeled(y^,y)+αLunlabeled(y^,y)]

【第一和第二卷积层的激活函数是ReLU,输出层的激活函数是Softmax,使用Adam优化器】
使用的参数信息:
在这里插入图片描述

四、数据集

多模式(文本、图像)数据集来自各知名网站:20015篇新闻文章,其中11941篇是假的,8074篇是正确的。

### STiL 方法概述 Semi-supervised Tabular-Image Learning (STiL) 是一种用于处理多模态数据的半监督学习方法[^1]。该方法旨在通过结合表格数据和图像数据来提升模型性能,特别是在标注数据有限的情况下。STiL 的核心目标是从不同模态的数据中提取任务相关信息并加以融合。 #### 多模态分类中的任务相关信息探索 在多模态分类场景下,任务相关信息通常分布在不同的数据源之间。STiL 方法通过设计特定机制,在训练过程中逐步识别哪些特征对于当前任务最为重要[^2]。具体而言: - **跨模态关联建模**:STiL 利用注意力机制捕获表格数据与图像数据之间的潜在关系。这种机制能够动态调整各模态的重要性权重,从而聚焦于最相关的部分[^3]。 - **自监督信号增强**:为了充分利用未标记样本的信息,STiL 引入了自监督学习策略。这些策略可以通过预测旋转角度、对比学习等方式生成额外的学习信号,进一步优化模型参数[^4]。 - **联合表示空间构建**:通过对齐两种模态的嵌入向量,STiL 创建了一个统一的任务相关表示空间。这使得即使某些模态缺失或质量较差时,模型仍能保持较高的鲁棒性和准确性[^5]。 以下是实现上述功能的一个简化代码框架: ```python import torch.nn as nn class STILModel(nn.Module): def __init__(self, tabular_dim, image_channels): super(STILModel, self).__init__() # 图像编码器初始化 self.image_encoder = ImageEncoder(image_channels) # 表格数据编码器初始化 self.tabular_encoder = TabularEncoder(tabular_dim) # 跨模态注意层 self.cross_modal_attention = CrossModalAttention() # 输出层定义 self.classifier = Classifier() def forward(self, table_data, image_data): img_features = self.image_encoder(image_data) tab_features = self.tabular_encoder(table_data) combined_features = self.cross_modal_attention(img_features, tab_features) output = self.classifier(combined_features) return output ``` 此代码展示了如何分别对图像和表格数据进行编码,并利用 `CrossModalAttention` 层完成两者间的交互操作[^6]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值