源代码作者归属的贝叶斯集成分类器与基于排列的索引的多核实现
在软件开发和数据处理领域,源代码作者归属和高维空间中的近似搜索是两个重要的研究方向。本文将深入探讨源代码作者归属的贝叶斯集成分类器以及基于排列的索引的多核实现方法。
源代码作者归属的贝叶斯集成分类器
在源代码作者归属问题中,准确判断代码的作者是一个具有挑战性的任务。为了解决这个问题,研究人员提出了多种方法,并进行了对比实验。
方法对比
研究中对比了基线Burrows方法、改进的Burrows方法、基线SCAP方法、改进的SCAP方法以及两种集成方法。其中,两种集成方法都利用了改进版本的Burrows和SCAP方法。
实验设计
基本实验设计采用了15类实验,并使用留一法交叉验证,结果以准确率来衡量。具体步骤如下:
1. 15类实验 :从15个候选作者中确定代码的作者。
2. 留一法交叉验证 :依次选择数据集中的每个程序作为查询程序,其余程序作为训练数据。这种方法能最大化每次查询时训练数据的规模,同时增加查询的数量。
3. 准确率衡量 :准确率通过正确识别的程序的百分比来计算。
数据集
数据集包含7231个用C++和Java编写的程序,分为四个部分:开源C++程序(SegA)、开源Java程序(SegB)、教科书C++程序(SegC)和教科书Java程序(SegD)。每个部分包含来自15个唯一作者的程序,整个数据集共有30个唯一作者。数据集的统计信息如下表所示:
超级会员免费看
订阅专栏 解锁全文
766

被折叠的 条评论
为什么被折叠?



