65、源代码作者归属识别方法

源代码作者归属识别方法

1. 图神经网络简介

图神经网络最初被提出,后经进一步阐述。它通常以底层图结构作为输入,通过在整个图上传递、转换和聚合节点特征信息,能够更新并生成每个节点的嵌入向量,还可通过图池化生成整个图的嵌入向量。图神经网络已在多个领域成功应用,本文主要利用其在图相似性学习中的应用来解决代码去匿名化问题。

2. AGCAAM设计与实现
2.1 总体框架

AGCAAM的总体框架如下:
对于Python代码文件,具体操作步骤如下:
1. 使用Python内置的AST模块将其解析为抽象语法树(AST)。
2. 通过添加不同类型的边构建特征图。
3. 将一对向量化的图数据输入到训练好的图神经网络中,图神经网络会更新并计算所有节点和边的向量。
4. 为检测一对Python文件是否属于同一作者,使用读出函数对模型输出进行图池化,以获得每个Python文件的图级特征向量表示。
5. 利用这两个向量的余弦相似度来判断它们是否由同一作者编写。如果相似度得分大于阈值,则认为是同一作者。

graph LR
    A[Python代码文件] --> B[解析为AST]
    B --> C[构建特征图]
    C --> D[输入图神经网络]
    D --> E[图池化]
    E --> F[计算余弦相似度]
    F --> G{判断是否同一作者}
2.2 基于AST构建特征图

AST是源代码抽象语法结构的树

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值