论文笔记:Comparing CNN and LSTM character-level embeddings in BiLSTM-CRF models for chemical and disease

该论文关注于生物医学、化学和疾病命名实体识别,通过在BiLSTM-CRF模型中结合CNN和LSTM字符向量进行实验。使用BioCreative VCDR数据集进行训练和测试,比较了不同模型的性能,包括BiLSTM、BiLSTM-CRF、BiLSTM-CRF+CNN-char和BiLSTM-CRF+LSTM-char。实验表明,这些方法在序列标注任务上效果显著,但未提供源代码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主要工作

主要目标是生物医学、化学和疾病命名实体识别,基于原来的CNN和LSTM模型加了字符向量。CNN训练速度更快,因为参数更少。

数据集

BioCreative VCDR corpus (Li et al., 2016).

  • 1000篇手工标注的摘要用于训练和验证,大概9193条句子
  • 500偏手工标注的摘要用于测试,大概4840条句子

也用到了一个预处理过的此数据集版本,提供了POS-,chunking和gazetteer-based标签

  • POS 和 chunking tags 使用GENIA tagger (Tsuruoka et al., 2005),提供了命令行版本解析工具,地址http://www.nactem.ac.uk/GENIA/tagger/
  • Gazetteer tags通过与外部化学词典匹配,在生物标记方案中对地名表标签进行编码,参考论文[4]

实验

主要参考论文[1]中的实验细节。
训练集、验证集9:1

模型

主要实现了以下方法:

  • BiLSTM模型 + softmax层
  • BiLSTM-CRF,参考论文[2]
  • BiLSTM-CRF + CNN-char,参考论文[3]
  • BiLSTM-CRF + LSTM-char ,参考论文[5]
    也考虑了外部特征,主要参考[1]

细节

BiLSTM-CRF-based 模型主要参考:
https://github.com/UKPLab/emnlp2017-bilstm-cnn-crf

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值