手写文档作者检索与酒店客人满意度分类研究
1. 手写文档作者检索研究
1.1 研究背景与目的
随着数字化的发展,图书馆中存在大量数字化文档,人工处理这些数据十分困难。因此,开发自动导航工具,如作者检索系统变得尤为重要。作者检索系统旨在识别同一人的手写文档,同时区分不同人的手写内容,这需要找到合适的特征来减少同一作者内部的差异,增加不同作者之间的差异。
1.2 特征与衡量方法
研究中提出了多种特征用于作者检索,包括纹理特征(LBP)、梯度特征(HOG和GLBP)和拓扑特征(RLF和像素密度)。同时,测试了一组相异性和相似性度量,如曼哈顿距离、欧几里得距离、堪培拉距离、卡方距离、杰卡德距离和余弦相似度,以找到适合每个特征的度量方法。
1.3 实验结果对比
以下是在原始ICDAR - 2011数据集和裁剪后的ICDAR - 2011数据集上的实验结果对比:
| 数据集 | 参考文献 | 特征 | 匹配方法 | TOP - 2 | TOP - 7 |
| — | — | — | — | — | — |
| 原始ICDAR - 2011 | [6] | SIFT和GMM | 余弦相似度 | 99.3% | 91.2% |
| 原始ICDAR - 2011 | [8] | HOG | 余弦相似度 | 86.5% | 53.3% |
| 原始ICDAR - 2011 | [8] | GLBP | 余弦相似度 | 88.5% | 65.9% |
| 原始ICDAR - 2011 | 提出方法 | LBP16×2 | 卡方距离 | 96.4% | 80.2% |
超级会员免费看
订阅专栏 解锁全文
76

被折叠的 条评论
为什么被折叠?



