34、欧洲临床案例语料库与术语概念系统提取技术

欧洲临床案例语料库与术语概念系统提取技术

1. 欧洲临床案例语料库(E3C)

E3C项目旨在推动医学应用的先进信息提取技术发展,构建了一个包含五种语言注释临床案例的大型语料库,该语料库可在ELG平台上获取。

1.1 数据处理与标注

在相关文档提取过程中,存储了对应的元数据以实现准确记录。对于时间信息的标注,采用了经过调整的THYME注释指南。时间信息涵盖文本中的事件、时间参考和关系。为对其进行编码,定义了以下标签和关系类型:
- 事件(EVENT) :与患者临床时间线相关的事件或状态。
- 时间表达(TIMEX3) :指时间点和时间间隔。
- 时间关系(TLINK) :用于按时间顺序排列事件和时间表达。
- 体貌关系(ALINK) :在体貌事件与其从属的非体貌事件之间建立。
- 参与者(ACTOR) :文本中提及的人(或动物)。
- 身体部位(BODYPART) :大于细胞的身体部分。
- 结果、测量和实验室测试结果(RML) :实验室测试和分析结果、公式化测量值。

临床实体的标注主要基于SEMEVAL 2015任务14“临床文本分析”和ASSESS CT指南。第1层标注完全手动完成,第2层则使用远程监督方法,将临床实体与UMLS中的疾病概念进行匹配实现自动标注。

1.2 语料库分层结构
<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值