文章目录
前言
本文主要介绍了以Linear-CRF为基础模型进行医疗实体识别的案例,主要包含项目概况、核心技术、项目实施3部分内容,由浅入深、适合初学者。
一、项目概况
1.项目描述
实体识别,简称 NER,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。如*ACM 宣布,深度学习的三位创造者 Yoshua Bengio,Yann LeCun,以及 Geoffrey Hinton 获得了 2019 年的图灵奖。*这句话中的实体有:ACM是机构名,Yoshua Bengio、Yann LeCun、Geoffrey Hinton是人名,2019 年是时间。医疗实体识别是识别出文本中一些具有特定医疗意义的实体,如疾病名、身体部位、治疗方法等。本项目基于 CRF 模型来进行医疗实体识别。
本项目会涉及到实体识别建模的各个流程:
-
数据标注:使用实体识别中数据标注的技术,对数据按照特定的方式进行标注。
-
文本特征工程:通过文本特征工程技术,构造出对本问题可能有效的特征。
-
模型训练:使用CRF和BiLSTM-CRF模型进行模型训练。
-
模型评估:评估一个实体识别模型的好坏。
2.数据描述
项目实验数
本文详细介绍了医疗实体识别项目,包括项目概况、核心技术及实施步骤。通过数据标注、文本特征工程和CRF、BiLSTM-CRF模型训练,实现对医疗文本中疾病、部位等实体的识别。实验结果显示,模型能有效识别症状、体征和检查等类别,BiLSTM-CRF模型相比特征工程+CRF略有逊色。
订阅专栏 解锁全文
1345

被折叠的 条评论
为什么被折叠?



