从手写分析预测多种软生物特征
1. 引言
软生物特征能为个体提供补充信息,但无法完全对个体进行身份验证。它涵盖了多种特征,如性别、肤色、眼睛颜色和种族等。这些特征最近被用于加强生物识别系统,在法医应用中,软生物特征有助于将调查范围缩小到特定类别的人员或嫌疑人。
以往,软生物特征的提取主要通过分析个体面部图像实现,不过在法医和手写识别应用中,软生物特征同样能发挥重要作用。例如,分析匿名威胁信时,作者的性别、惯用手、年龄范围和教育水平等软生物特征信息对调查有很大帮助。
自2001年起,手写识别领域的研究人员开始尝试从手写文本中预测软生物特征。不过,目前的研究大多集中在预测单一的软生物特征,这主要是因为缺乏包含多种软生物特征的数据集,且预测单一特征本身就具有挑战性,在多个基准数据集上的预测结果准确率在55% - 85%之间。
因此,本文提出了一个问题:能否从同一次分析中预测多个特征?若可以,预测得分会是多少?为解答这些问题,本文提出了两种多类预测方案。
2. 多类软生物特征预测
2.1 数据集描述
目前,由于缺乏公开数据集,对作者软生物特征的预测研究并不广泛。对于拉丁文字,IAM是唯一提供作者性别、惯用手和年龄范围的公开数据集。该数据集由瑞士伯尔尼大学的计算机视觉和人工智能研究小组开发,包含200多名作者的手写句子,作者被分为“25 - 34岁”和“35 - 56岁”两个年龄类别。
考虑到这三个可用特征,可定义8个分类类别,具体数据分布如下表所示:
| 类别 | 训练样本数量 | 测试样本数量 |
| — | — | — |
| 类别1:女性/左撇子
超级会员免费看
订阅专栏 解锁全文
1238

被折叠的 条评论
为什么被折叠?



