35、用于作者归属的新型文档作者表示法

用于作者归属的新型文档作者表示法

1. 引言

作者归属(Authorship Attribution,AA)旨在学习一个或多个作者的写作风格,以便在未来的文本中自动识别他们。在当今互联网信息爆炸的时代,大量的纯文本信息涌现,如电子邮件、在线论坛、博客和源代码等。这也催生了许多与作者归属相关的问题和应用,包括网络欺凌检测、抄袭检测、垃圾邮件过滤、计算机取证和欺诈检测等。

作者归属任务可被视为单标签多类分类问题,其中作者代表要区分的类别。但它与主题分类有所不同,在作者归属中,最重要的文本特征是非主题性的,因为主要目标是建模每个作者的写作风格,以便在相同语境下也能区分不同作者。

根据相关研究,保留写作风格最有用的属性包括特定词汇(如功能词)和字符级别的n - 元组。例如,考虑文本中停用词的频率和分布有助于识别作者;字符级别的n - 元组则有助于发现作者对文本结构的特定偏好。

目前,基于单词和字符n - 元组的不同技术被用于文档表示,其中最常见的是词袋模型(Bag of Terms,BOT)。然而,BOT存在一些缺点:
- 它不保留术语或类别之间的任何关系,忽略了有价值的信息。
- 会产生高维度和高信息分散性,影响表示质量和机器学习算法的性能,特别是在词汇量大但训练数据少且不平衡的情况下。

为克服这些缺点,提出了一种新的文档作者表示法(Document Author Representation,DAR)。其主要思想是在作者空间中构建文档向量,维度由作者数量限制,同时考虑文档的词汇丰富度。

2. 相关工作
  • 词袋模型(BOT) :将作者
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值