15、评论垃圾邮件数据集探索与模型训练

评论垃圾邮件检测与图神经网络模型训练

评论垃圾邮件数据集探索与模型训练

1. 评论垃圾邮件数据集探索

在对评论垃圾邮件数据集进行分析时,我们发现组件 3 的平均节点度高于整体图,这表明其具有更丰富的互连性,有效捕捉这些密集连接至关重要。而且,组件 3 与整个图的密度和聚类系数相同,说明该组件高度代表了数据集的整体结构特性。此时我们有两个选择:
1. 假设其他组件对模型影响较小,直接进行训练且不做调整。
2. 仅对组件 3 进行建模,将较小组件的数据完全排除在训练和测试数据之外。

对图数据的结构特性进行分析,能让我们了解图的特征,为图神经网络(GNN)模型的设计和训练提供有价值的见解,以识别潜在的欺诈模式。接下来,我们深入研究节点特征。

从数据文件中提取节点特征的代码如下:

features = data_file['features'].todense().A

我们为每个特征创建图表分布前,还添加了一些标签和描述。这些图表分布分别对应描述评论文本、评论者和商家的特征,用于检查节点特征在区分欺诈方面的有效性。

通过检查 32 个节点特征的直方图,我们有以下发现:
- 特征偏态 :许多特征存在明显的偏态。例如,Rank、RD 和 EXT 等特征呈右偏分布,即大部分数据点集中在直方图左侧,少数高值点将直方图向右拉伸;而 MNR_user、PR_user 和 NR_user 等特征呈左偏分布,大部分数据点集中在直方图右侧,少数低值点将直方图向左拉伸。
- 双峰分布 :部分特

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值