挖掘有意义元数据的模型与指标
1. 引言
科学和工程组织积累的大量文件蕴含着巨大价值,但组织不善和文档不足使文件难以导航。为解决这一问题,元数据提取系统应运而生,其通常按以下步骤工作:
1. 遍历存储库中的所有文件;
2. 识别每个文件的类型;
3. 对每个文件调用一个或多个提取器以获取元数据;
4. 对生成的元数据执行操作。
然而,现有的元数据提取系统在处理科学数据时存在诸多挑战。科学数据具有独特性,如存储格式多样、不遵循常见模式和文件扩展名、数据维度复杂等。盲目应用所有提取器不仅效率低下,还可能产生错误或无关的元数据。
为解决这些问题,我们构建了一个智能提取器调度器,借助文件类型识别(FTI)方法,通过训练统计学习模型来优先应用提取器,以最大化元数据信息获取。同时,我们还引入了元数据质量指标来评估提取的元数据。
2. 相关工作
2.1 元数据提取系统
常见的开源元数据提取系统存在一些研究空白,如多数系统无法适应现代科学数据的规模和分散性,不考虑返回元数据的质量,具有严格的模式约束或手动映射文件MIME类型,且没有基于元数据预期价值来优先选择提取器。以下是一些常见系统的对比:
| 系统 | 并行方式 | 集中式 | 映射方式 | 质量指标 | 支持领域 |
| ---- | ---- | ---- | ---- | ---- | ---- |
| Tika | 线程 | 否 | 扩展名、MIME类型、字节匹配 | 无 | 通用 |
| Clowder | 云 | 是 | MIME类型 | 无 | 通用 |
| BDQC |
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



