欧洲临床案例语料库与术语概念系统提取技术
1. 欧洲临床案例语料库(E3C)
E3C项目旨在推动医学应用的先进信息提取技术发展,构建了一个包含五种语言注释临床案例的大型语料库,该语料库可在ELG平台上获取。
1.1 数据处理与标注
在相关文档提取过程中,存储了对应的元数据以实现准确记录。对于时间信息的标注,采用了经过调整的THYME注释指南。时间信息涵盖文本中的事件、时间参考和关系。为对其进行编码,定义了以下标签和关系类型:
- 事件(EVENT) :与患者临床时间线相关的事件或状态。
- 时间表达(TIMEX3) :指时间点和时间间隔。
- 时间关系(TLINK) :用于按时间顺序排列事件和时间表达。
- 体貌关系(ALINK) :在体貌事件与其从属的非体貌事件之间建立。
- 参与者(ACTOR) :文本中提及的人(或动物)。
- 身体部位(BODYPART) :大于细胞的身体部分。
- 结果、测量和实验室测试结果(RML) :实验室测试和分析结果、公式化测量值。
临床实体的标注主要基于SEMEVAL 2015任务14“临床文本分析”和ASSESS CT指南。第1层标注完全手动完成,第2层则使用远程监督方法,将临床实体与UMLS中的疾病概念进行匹配实现自动标注。
超级会员免费看
订阅专栏 解锁全文
1525

被折叠的 条评论
为什么被折叠?



