法证领域作者归属与喷墨打印机齿轮齿数估计研究
在法证文件分析领域,作者归属和喷墨打印机识别是两个重要的研究方向。本文将为大家介绍这两方面的研究进展,包括基于压缩距离到原型的作者归属方法,以及利用有限长度的间距数据串估计喷墨打印机正齿轮齿数的方法。
作者归属研究
在作者归属研究中,传统的作者归属方法表现不如新提出的CDP特征集。根据不同的数据集,使用CDP特征集可使准确率提高约20 - 25%。这一性能提升让实际的法证应用更具可行性。例如,在有合适的训练数据时,能将50名可疑作者的范围缩小至5名,且确定性接近90%,大大减轻了工作量。
不过,当前研究处理的封闭集情况对于战术调查人员来说并非完全现实的场景。未来研究可将调查重点转向开放集问题,即分类模型不能确定所训练的文档是由可疑文档的作者撰写的情况。理想的模型应能区分未知作者的文本和训练数据集中的文本,从而识别出新文本是由未知作者撰写的。此外,还可拓展到作者验证模型,比较两篇文本,判断第二篇文本是否与第一篇文本为同一作者所写,这种模型从法证角度看更适合战术用途。
CDP方法被提出作为基于实例的压缩距离方法的替代方案。与基于轮廓的方法一样,CDP特征使压缩距离在计算上可行。对这三种基于压缩的方法进行性能实验比较也值得研究。
在实验数据方面,仅使用来自四个不同新闻组的消息可能对结果有积极影响。尽管有些作者会参与多个组的讨论,但某些作者倾向于固定在特定新闻组。这可能有利于分类方法,但不太可能特别偏向某一特征集。未来可在更多样化的消息和作者数据集上进行类似实验,也可研究该方法在其他语言(如英语)消息上的应用。
喷墨打印机正齿轮齿数估计研究
在喷墨打印机识别方
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



