协作文档的文体作者归属研究
在当今数字化的时代,文档的创作往往是多人协作的结果。如何准确地识别协作文档的作者,成为了一个具有挑战性的问题。本文将深入探讨协作文档的文体作者归属问题,介绍相关的研究背景、问题定义、方法和实验结果。
问题定义
在研究协作文档的作者归属时,我们考虑了以下几种情况:
1. 非协作训练文档
- 完整嫌疑人集合 :每个嫌疑人都有已知作者的非协作文档。给定一组 n 个作者 A = {A1, A2, …, An},以及每个 Ai 对应的一组文档 Di,我们知道这些文档仅由该作者撰写。我们的目标是识别一篇未知作者文档 d 的 k 个作者。
- 部分嫌疑人集合 :部分嫌疑人有已知作者的非协作文档。给定一组 n 个作者 A = {A1, A2, …, An},以及每个 Ai 对应的一组文档 Di,我们知道这些文档仅由该作者撰写,还有一篇由 k 个作者撰写的未知作者文档 d,其中 c 个作者在我们的嫌疑人集合中,我们要识别出这 c 个作者。
2. 协作训练文档
- 一致协作 :嫌疑人集合由被怀疑共同协作撰写文档的作者配对或组组成。给定一组 n 个作者组 G = {G1, G2, …, Gn},其中 Gi = {A1, A2, …, Am},并且每个 Gi 都有一组我们知道由 {A1, A2, …, Am} 协作撰写的文档 Di,我们要识别一篇未知作者文档 d 的真实作者组 Gt ∈ G。这为我们提供了一个最佳情况,即我们知道 d 的所有可能作者组合,并且有