源代码作者归属的贝叶斯集成分类器
1. 引言
“作者归属”指的是确定文档作者的任务。源代码作者归属则是判定源代码文档作者的工作,它是软件取证的重要组成部分。软件取证旨在分析软件,识别作者特征,常用于恶意代码分析,以找出攻击源头或攻击者特征。
除软件取证外,源代码作者归属还有诸多应用:
- 学术领域 :用于编程作业的抄袭检测。学生常从网络、朋友或“代码租赁”服务处获取代码,抄袭编程问题的解决方案。
- 工业领域 :
- 配置管理 :有助于作者跟踪和变更控制。
- 软件所有权 :对保护商业机密、专利声明、版权侵权或软件盗窃案件至关重要。
作者归属问题通常按以下步骤进行:遇到未知作者的文档后,将其与已知作者的文档语料库进行比较,把语料库中与未知文档最相似的作者归为该文档的作者,相似度衡量通常基于风格。
作者归属实验通常也类似:选取一些已知作者的样本文档用于实验,将这些文档从语料库中排除,使用实验技术为每个样本指定作者,以正确归属文档的百分比衡量成功率。实验有封闭和开放两种形式,开放形式更具挑战性,目前尚未有相关研究发表。
过去提出了多种源代码作者归属方法,其中Burrows方法和SCAP方法是最先进的两种。本文将介绍这两种方法的基线版本、改进方法,以及如何结合它们创建基于贝叶斯最优分类器的集成方法,并通过实证研究评估该集成方法的有效性。
2. 文献综述
- 基线SCAP方法
超级会员免费看
订阅专栏 解锁全文
18

被折叠的 条评论
为什么被折叠?



