生物医学文献溯源元数据提取与RDF数据集类标注技术
1. 生物医学文献溯源元数据提取
1.1 背景与需求
在生物医学研究中,溯源元数据对于支持研究的透明度和可重复性至关重要。随着研究的不断深入,手动从大量生物医学文献中提取溯源信息变得极为困难,因此需要开发自动化技术来解决这一问题。
1.2 ProvCaRe - NLP管道的开发
为了准确识别和提取生物医学文献中的溯源元数据,开发了ProvCaRe - NLP管道。该管道结合了现有自然语言处理(NLP)工具(如MetaMap和NCBO Annotator)对生物医学领域的广泛覆盖,以及专注的溯源命名实体识别(NER)任务,能够准确识别与ProvCaRe框架的三个组件相对应的溯源术语。
1.3 评估结果
使用20篇经过同行评审的文章作为文本语料库,对MetaMap、NCBO Annotator和ProvCaRe - NLP管道提取溯源术语的召回率进行了比较评估,结果如下表所示:
| Paper (Author last name and year of publication) | MetaMap | | NCBO Annotator | | MetaMap + NCBO Annotator | | ProvCaRe - NLP + MetaMap + NCBO Annotator | |
| — | — | — | — | — | — | — | — | — |
| | Full Article | Abstract + Method + Result | Full Article | Abstract + Methods + R
超级会员免费看
订阅专栏 解锁全文
1734

被折叠的 条评论
为什么被折叠?



