35、利用错误数据检测增强生物医学事件提取:提高分类性能的新方法

利用错误数据检测增强生物医学事件提取:提高分类性能的新方法

1. 引言

自动化生物医学信息提取对研究至关重要,但现有的命名实体识别和关系提取方法并不足够。挑战不仅在于识别实体和关系,还在于从文献中全面理解和提取复杂的生物医学事件,即分子相互作用过程。这一复杂性促使人们对更先进的生物医学文本自动化提取技术产生兴趣。

早期的研究主要集中在提取简单关系,如药物 - 药物、蛋白质 - 蛋白质和基因 - 疾病关联,但这些方法不足以捕捉生物医学事件的全貌。BioNLP共享任务系列旨在开发从文本中提取复杂生物过程关系的方法,其中GE任务专注于提取动态生物过程。

生物医学事件提取非常复杂,涉及多种类型和嵌套结构的事件,由触发器(动词或名词)引发,并涉及实体作为参数。系统需要准确识别这些组件并对事件进行分类。监督机器学习在该领域发挥了关键作用,但存在级联错误的风险。此外,训练用的标注语料库稀缺且不平衡,促使人们使用半监督方法和深度神经网络。

本文介绍了一种基于深度学习的生物医学事件提取方法,采用错误检测和对表示(EDPRbD),专注于迭代自训练。通过构建错误标注实例的数据集并使用支持向量机(SVM)和序列模式,旨在提高样本识别能力并过滤噪声,增强分类器性能。

2. 相关工作

不同的研究团队提出了多种生物医学事件提取方法:
| 研究团队 | 方法 | F - 分数 | 存在问题 |
| — | — | — | — |
| Bjorne等 | n - 元特征和句法依赖方法 | 51.95% | 触发检测有挑战 |
| Bjorne和Salakoski | TEES 2.1,统一图格式 | 50.74

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值