考古领域语义标注与实践本体的探索
语义标注评估
信息提取系统的有效性通常通过召回率(Recall)和精确率(Precision)来衡量。这些衡量单位源于信息检索(IR)领域,但在机器理解会议(MUC)期间被重新定义,以反映信息提取过程中的匹配与不匹配情况。
评估任务旨在衡量原型信息提取机制在时间称谓、物理对象和考古背景等概念方面的性能。该任务具有形成性特征,旨在不仅评估原型系统的性能,还为全面的信息提取工作提出必要的改进建议。
为了进行评估,创建了预期信息提取结果的手动标注版本,并提供给GATE语料库基准实用程序。由包括开发者和考古专家在内的四名项目成员生成了四个单独的手动标注集版本。由于试点评估的主要目标是为后续的大规模信息提取提供参考,因此评估并未得出单一的“黄金标准”版本,而是使用了所有四个手动标注版本,以从多个角度了解系统性能。
评估任务中使用的摘要部分是在预处理阶段提取的,这些摘录来自五份考古评估报告和五份考古发掘报告,由考古专家确定为与原型评估目标相关且信息丰富的部分。
评估结果
对系统整体性能的详细检查显示,在精确率、召回率及其加权平均F - 测度方面取得了令人鼓舞的结果。当将AV的手动标注版本纳入整体评分时,系统性能得分进一步提高。这是因为AV参与了系统开发,更了解提取机制在地名资源覆盖和模式匹配规则方面的能力。另一方面,系统在与KM的对比中也取得了一些积极结果,KM是参与CRM - EH本体定义的考古专家,其判断被认为更明确,更接近本体定义。
检查系统相对于手动标注者的性能发现,标注者之间对系统性能存在一些基本共识。排除AV后,系统的平均F - 测度得分为56%,表明系统在针对特
超级会员免费看
订阅专栏 解锁全文
67

被折叠的 条评论
为什么被折叠?



