65、源代码作者归属识别方法

最新推荐文章于 2025-10-22 10:09:39 发布

algae

最新推荐文章于 2025-10-22 10:09:39 发布

阅读量26

点赞数

CC 4.0 BY-SA版权

分类专栏：智能自动化前沿探秘文章标签：图神经网络代码去匿名化 AST

本文链接：https://blog.youkuaiyun.com/algae/article/details/152029406

智能自动化前沿探秘专栏收录该内容

71 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

源代码作者归属识别方法

1. 图神经网络简介

图神经网络最初被提出，后经进一步阐述。它通常以底层图结构作为输入，通过在整个图上传递、转换和聚合节点特征信息，能够更新并生成每个节点的嵌入向量，还可通过图池化生成整个图的嵌入向量。图神经网络已在多个领域成功应用，本文主要利用其在图相似性学习中的应用来解决代码去匿名化问题。

2. AGCAAM设计与实现

2.1 总体框架

AGCAAM的总体框架如下：
对于Python代码文件，具体操作步骤如下：
1. 使用Python内置的AST模块将其解析为抽象语法树（AST）。
2. 通过添加不同类型的边构建特征图。
3. 将一对向量化的图数据输入到训练好的图神经网络中，图神经网络会更新并计算所有节点和边的向量。
4. 为检测一对Python文件是否属于同一作者，使用读出函数对模型输出进行图池化，以获得每个Python文件的图级特征向量表示。
5. 利用这两个向量的余弦相似度来判断它们是否由同一作者编写。如果相似度得分大于阈值，则认为是同一作者。

graph LR
    A[Python代码文件] --> B[解析为AST]
    B --> C[构建特征图]
    C --> D[输入图神经网络]
    D --> E[图池化]
    E --> F[计算余弦相似度]
    F --> G{判断是否同一作者}

2.2 基于AST构建特征图

AST是源代码抽象语法结构的树

会员秒杀 ¥9.9 重磅福利

超级会员免费看