医学领域的命名实体识别（Medical Named Entity Recognition）：代码和数据示例

医学NER实战：Python代码与MedNER数据集解析

最新推荐文章于 2025-09-28 19:44:17 发布

PlHtml

最新推荐文章于 2025-09-28 19:44:17 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

文章标签： easyui 前端 javascript 机器学习-深度学习

本文链接：https://blog.youkuaiyun.com/PlHtml/article/details/133225876

机器学习-深度学习专栏收录该内容

113 篇文章 ¥59.90 ¥99.00

订阅专栏

本文介绍了医学领域的命名实体识别（NER），使用MedNER数据集，并提供Python实现代码示例，展示如何识别疾病、药物等医学实体。

命名实体识别（Named Entity Recognition，简称NER）是自然语言处理领域中的一个重要任务，旨在从文本中识别出具有特定意义的实体，如人名、地名、组织机构名等。在医学领域，NER的应用具有重要的实际意义，可以帮助医疗领域的研究人员和从业人员更好地处理和分析大量的医学文本数据。本文将介绍医学领域的NER，并提供一个可以直接运行的代码和数据示例。

一、医学领域命名实体识别的数据集

医学领域的命名实体识别需要一个标注好的数据集作为训练和评估的基础。这里我们使用一个公开的医学命名实体识别数据集，称为"MedNER"。该数据集由医学文本构成，其中的实体已经进行了标注，包括疾病名称、药物名称、手术名称等。

二、医学领域命名实体识别的代码实现

下面是一个使用Python编写的医学领域命名实体识别的示例代码：

import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

PlHtml

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

《Python星球日记》第71天：命名实体识别（NER）与关系抽取

Code_流苏：在代码中寻诗意，在实践中觅真知

05-14

1027

《Python星球日记》第71天：命名实体识别（NER）与关系抽取，在自然语言处理（NLP）领域，理解文本中的实体及其关系是构建智能系统的基础。今天，我们将探索命名实体识别和关系抽取这两项核心技术，它们共同构成了信息抽取的重要环节，为知识图谱、智能问答和文本分析等应用提供关键支持。

自然语言处理之命名实体识别：Rule-Based Systems：命名实体识别的评估与度量

zhubeibei168的博客

04-23

1015

在自然语言处理中，**命名实体识别（Named Entity Recognition, NER）**是识别文本中具有特定意义的实体，如人名、地名、组织名等。评估NER模型的性能通常涉及几种关键指标，这些指标帮助我们理解模型在识别实体时的准确性和全面性。：提供了多种度量函数，如，可以计算准确率、召回率、F1分数等。NLTK：自然语言工具包，包含NER评估函数。spaCy：现代NLP库，内置NER模型和评估工具。：斯坦福大学开发的NER工具，提供了模型训练和评估功能。假设我们的实体类型为“人名”和“地名”。

参与评论您还未登录，请先登录后发表或查看评论

NLP在线医生-BiLSTM+CRF命名实体识别（二）

码python的Vinsmoke

11-14

9267

6.1 命名实体识别介绍学习目标: 了解什么是命名实体识别 了解命名实体识别的作用了解命名实体识别常用方法了解医学文本特征什么是命名实体识别: 命名实体识别(Named Entity Recognition，NER)就是从一段自然语言文本中找出相关实体，并标注出其位置以及类型。是信息提取, 问答系统, 句法分析, 机器翻译等应用领域的重要基础工具, 在自然语言处理技术走向实用化的过程中占有重要地位. 包含行业, 领域专有名词, 如人名, 地名, 公司名, 机构名, 日期, 时间,

命名实体识别_中文医学命名实体识别

weixin_39935319的博客

12-16

1415

Incorporating dictionaries into deep neural networks for the Chinese clinical named entity recognition总述作者提出了融入字典信息的深度学习模型，用于解决中文医学命名实体识别问题。融合了字典的深度模型主要的优点是，可以克服传统深度模型难以识别出现频率少，或者从未出现的实体。具体得，作者基于BiLST...

从0学医疗大模型：微调BERT做医学命名实体识别（附标注数据集+完整代码）

2501_91798322的博客

08-30

945

医疗NER不只用准确率，更看重精确率（Precision）、召回率（Recall）、F1-score# 加载seqeval评估器"""eval_pred：模型预测结果（predictions, labels）返回：计算后的指标（精确率、召回率、F1）"""# 1. 将预测概率转为标签id（取概率最大的id）# 2. 处理标签（-100是PyTorch的忽略标签，需要过滤）# 过滤-100的标签= -100]= -100]# 3. 计算seqeval指标（按实体类型分类）

糖尿病知识图谱实验代码

06-23

数据集来源于41项糖尿病指南和共识，这些指南和共识来自中国权威期刊，包括基础研究、临床研究、药物使用、临床病例、诊断和治疗方法等。该数据集涵盖了近年来最广泛的研究内容和热点领域。注释过程由2名经验丰富的内分泌学家和6名医学博士候选人完成，最后执行一个高质量的糖尿病数据库，该数据库共包含22050个实体和6890个关系 Entity precision recall F1 Entity precision recall F1 Frequency 1.0 0.9 0.947 ADE 0.791 0.815 0.803 Method 0.895 0.927 0.911 Duration 0.833 0.714 0.769 Class 0.852 0.949 0.898 Amount 0.73 0.75 0.74 Drug 0.881 0.902 0.892 Operation 0.75 0.714 0.732 Level 0.841 0.902 0.871 Treatment 0.679 0.783 0.727 Anatomy 0.834 0.869 0.851 Test 0.855 0.6

医学电子病历命名实体识别的实现总结

学习

06-20

1750

医学领域命名实体识别，通过BERT+BiLSTM+CRF

智能医疗---医疗实体识别

云杉的博客

01-20

5060

跳进NLP这个坑之后，我一直想用NLP 技术做些实用的创新。比如智能医疗中的医疗问答（或称为医疗决策系统）。你可以想像一下未来的场景，小病什么的，你不用再去医院，你问下你的“私人助手”就可以得到答案。学医的孩子也幸福了，不用在上很长时间的学去学习医学，以为有面向医生的医疗决策系统，你给你的病人看病的理论支撑可以被迅速锁定。理想很丰满，现实很骨干。智慧医疗其实还有很多路要走。今天说下医疗实体识别。医疗

自然语言处理之命名实体识别：Conditional Random Fields (CRF)：CRF在命名实体识别中的实践

zhubeibei168的博客

04-20

750

条件随机场（Conditional Random Fields，简称CRF）是一种用于标注或分析序列数据的统计建模方法，特别适用于命名实体识别、词性标注等任务。CRF模型能够考虑序列中所有位置的标签，从而避免了其他模型（如HMM）中的标签偏差问题。假设我们有一组观察序列Oo1o2onOo1o2...on和对应的标签序列Ll1l2lnLl1l2...ln，CRF模型定义了在给定观察序列OOO的条件下，标签序列LLLP。

中文文本分析难点突破：分词、命名实体识别全解析

最新发布

AI架构师小马

09-28

948

中文文本分析是信息抽取、情感分析、机器翻译等上层任务的基础。然而，中文无显式词边界、存在大量歧义结构（如“乒乓球拍卖完了”）、未登录词（如“元宇宙”“AI绘画”）等特性，使得分词与NER成为公认的技术瓶颈。分词的核心难点（歧义消解、未登录词）与主流算法；NER的实体类型扩展（如医疗、法律领域）与模型优化；从传统方法（HMM/CRF）到深度学习（BiLSTM+CRF、Transformer）的技术演进；实战案例（电商评论分析、智能客服）与工具推荐。

BIB | 深度学习生物医学命名实体识别综述

DrugOne

08-01

3151

今天给大家介绍我们湖南大学DrugAI课题组发表在Briefings in Bioinformatics上发表的一篇综述。这篇综述从“单一神经网络、多任务学习、迁移学习和混合模型”这4个方面，介绍了近年来深度学习如何从生物医学文献文中挖掘命名实体以及相关数据集。作者挑选了几个有代表性的方法，在6个常用的数据集上进行了实验比较。结果发现，深度学习的方法要普遍优于传统方法，并且不同的方法和数据集之间也有较大的差异。最后，作者总结了生物医学命名实体（BioNER）存在的一些挑战和未来的发展。 1 介...

命名实体识别数据集.rar

11-03

该数据集是用于命名实体识别训练模型的数据集，该数据集中包含6中标签，分别是人名、地名、时间、组织机构名、公司名、产品名。遵循BIO编码。里面有三个文件，分别是训练集，测试集，验证集。样例如下：以 O 及 O 以 O 康 B-COMPANY_NAME 宽 I-COMPANY_NAME 为 O 代 O 表 O 的 O 国 O 外 O 专 O 利 O 产 O 品 O 低 O 毒 O 杀 O 虫 O 剂 O 吡 B-PRODUCT_NAME 虫 I-PRODUCT_NAME 啉 I-PRODUCT_NAME 和 O 生 O 物 O 农 O 药 O 阿 B-PRODUCT_NAME 维 I-PRODU

医疗命名实体实识别的实现

01-02

Medical Named Entity Recognition implement using bi-directional lstm and crf model with char embedding.CCKS2017中文电子病例

TensorFlow实战医疗命名实体识别

06-19

TensorFlow实战医疗命名实体识别

基于CRF的医疗实体识别baseline

不管风雨有多少丶的博客

04-21

3022

基于CRF的医疗实体识别baseline，数据中共包含5种实体：治疗、身体部位、疾病和诊断、症状和体征、检查和检验。可用于多种NLP下游任务。

【免费下载】探索医疗知识的宝藏 —— CCKS2020医疗命名实体识别数据集

gitblog_09761的博客

10-19

1135

探索医疗知识的宝藏 —— CCKS2020医疗命名实体识别数据集 【下载地址】CCKS2020医疗命名实体识别数据集 本仓库提供了一个名为 `ccks2020数据集.rar` 的资源文件，该文件包含了CCKS2020医疗命名实体识别任务的数据集。此数据集旨在帮助研究人员和开发者进行医疗领域的命名实体识别研究 ...

医学领域命名实体识别 有代码数据可以直接运行

05-16

806

医学领域命名实体识别 有代码数据可以直接运行

【2022】CLINER：临床询问命名实体识别。

Kakaxiii的博客

09-13

1300

研究背景电子病历（EMR）在现代医疗保健信息系统中至关重要，但医生手动创建 EMR 耗时耗力，自动将医患对话转换为 EMR 成为新兴领域，核心问题是如何从医疗对话中准确提取医疗实体及其状态。现有研究专注于在轮级上下文提取医疗信息，忽略了实体信息的全局一致性和状态，而实体状态对自动生成 EMR 至关重要。在文档中，MIE（Medical Information Extraction）即医疗信息提取，NER（Named Entity Recognition）即命名实体识别。1.医疗信息提取（MIE）

【调试记录】MedicalNamedEntityRecognition医学命名实体识别——中科院刘焕勇老师命名实体识别项目

weixin_44516362的博客

08-05

1106

项目代码以及参考：https://gitee.com/gaodan1123/MedicalNamedEntityRecognition 这篇用于记录我下载项目后在自己的编译器上调试的过程，主要解决的是各种版本不兼容问题。 tensorflow版本问题一开始将项目放在tensorflow=2.2的环境中运行，报错表示tensorflow2.0以上版本使用了tensorflow1.0+的API，为了避免麻烦，我新建了一个虚拟环境，安装tensorflow=1.8，重新进行调试。而在tensorflow1.8

权威命名实体识别数据集：NER-dataset.7z

标题“命名实体识别命名实体识别ner-dataset.7z”指的是一个压缩文件，其中包含了专门用于命名实体识别（Named Entity Recognition，简称NER）任务的数据集。命名实体识别是自然语言处理（Natural Language ...