源代码作者归属识别方法
1. 图神经网络简介
图神经网络最初被提出,后经进一步阐述。它通常以底层图结构作为输入,通过在整个图上传递、转换和聚合节点特征信息,能够更新并生成每个节点的嵌入向量,还可通过图池化生成整个图的嵌入向量。图神经网络已在多个领域成功应用,本文主要利用其在图相似性学习中的应用来解决代码去匿名化问题。
2. AGCAAM设计与实现
2.1 总体框架
AGCAAM的总体框架如下:
对于Python代码文件,具体操作步骤如下:
1. 使用Python内置的AST模块将其解析为抽象语法树(AST)。
2. 通过添加不同类型的边构建特征图。
3. 将一对向量化的图数据输入到训练好的图神经网络中,图神经网络会更新并计算所有节点和边的向量。
4. 为检测一对Python文件是否属于同一作者,使用读出函数对模型输出进行图池化,以获得每个Python文件的图级特征向量表示。
5. 利用这两个向量的余弦相似度来判断它们是否由同一作者编写。如果相似度得分大于阈值,则认为是同一作者。
graph LR
A[Python代码文件] --> B[解析为AST]
B --> C[构建特征图]
C --> D[输入图神经网络]
D --> E[图池化]
E --> F[计算余弦相似度]
F --> G{判断是否同一作者}
2.2 基于AST构建特征图
AST是源代码抽象语法结构的树
超级会员免费看
订阅专栏 解锁全文
1027

被折叠的 条评论
为什么被折叠?



