考古语境索引的语义标注:原型开发与评估
1. 引言
人类语言的复杂性为计算技术在语言相关处理中提供解决方案带来了挑战。不过,过去几十年语言工程和计算机技术的进步,让现代计算机系统能够执行以往难以构建和运行的自然语言工程任务。
信息提取(IE)是一种自然语言处理(NLP)技术,它分析文本输入并生成可进一步处理的结构化文本输出。这些数据处理可用于自动数据库填充、机器翻译、术语索引分析和文本摘要生成等。IE与信息检索(IR)的作用不同,二者的结合有望在文本处理中创造强大的新工具。特别是IR可以从构建与文本“实际含义”更相关的敏感索引中受益。
2. IE原型开发的目标
这是一项试点研究,旨在开发和评估一个信息提取系统,以提供语义标注元数据。主要目标是探索和评估CIDOC CRM和CRM - EH本体在将考古灰色文献中的自由文本信息建模和解析为语义标注方面的能力。为实现这一目标,研究考察了GATE框架在处理与上述本体相关的考古灰色文献信息提取任务的能力。早期原型开发结果证实了GATE和JAPE语法支持针对考古灰色文献报告的初始IE任务的可行性。
原型开发探索了GATE在适应语义标注任务方面的灵活性,包括JAPE语法规则针对CIDOC CRM和CRM - EH概念的能力,以及GATE地名词典容纳术语表和词汇表等资源的能力。此外,研究还应用了试点评估方法来评估原型信息提取系统的整体性能,评估方法参考了相关文献并遵循既定的语义标注系统评估标准。所提供的语义标注为STAR项目做出了贡献,该项目旨在实现不同考古资源之间的语义互操作性。
3. IE原型管道的平台
原型管道是在GATE(通用文本工程架构)环境中开发的
考古语义标注原型开发与评估
超级会员免费看
订阅专栏 解锁全文
17万+

被折叠的 条评论
为什么被折叠?



