中文医疗信息处理评测基准CBLUE_cmeee数据集-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_44157403/article/details/130380441

小小目录

官方描述

中文医疗信息处理挑战榜CBLUE(Chinese Biomedical Language Understanding Evaluation)是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起，由阿里云天池平台承办，并由医渡云（北京）技术有限公司、腾讯天衍实验室、平安医疗科技、阿里夸克、北京大学、郑州大学、鹏城实验室、哈尔滨工业大学(深圳）、同济大学、中山大学、复旦大学、华东师范大学等开展智慧医疗研究的单位共同协办，旨在推动中文医学NLP技术和社区的发展。
官网地址： https://tianchi.aliyun.com/cblue
论文： https://arxiv.org/pdf/2106.08087.pdf
Github: https://github.com/CBLUEbenchmark/CBLUE

CBLUE 1.0包括

医学文本信息抽取（实体识别、关系抽取）
医学术语标准化
医学文本分类
医学句子语义关系判定
共4大类任务8个子任务

CBLUE2.0在1.0的基础上新增了医疗对话、医学专家编写的电子病历和医学影像报告，并引入了生成类任务。
CBLUE2.0包括

医学文本信息抽取（实体识别、关系抽取、事件抽取）
医学术语标准化
医学文本分类
医学句子语义关系判定
医学对话理解与生成
共5大类任务14个子任务组成。同CBLUE1.0，为了方便数据集研究人员处理数据，CBLUE工作组在保留原始数据集schema的前提下将原始数据集的格式统一转化成JSON格式。

任务介绍

中文医学命名实体识别（CMeEE）

本评测任务为面向中文医学文本的命名实体识别，即给定schema及句子sentence，对于给定的一组纯医学文本文档，任务的目标是识别并抽取出与医学临床相关的实体，并将他们归类到预先定义好的类别。将医学文本命名实体划分为九大类，包括：疾病(dis)，临床表现(sym)，药物(dru)，医疗设备(equ)，医疗程序(pro)，身体(bod)，医学检验项目(ite)，微生物类(mic)，科室(dep)。标注之前对文章进行自动分词处理，所有的医学实体均已正确切分。

中文医学文本实体关系抽取（CMeIE）

给定schema约束集合及句子sentence，其中schema定义了关系Predicate以及其对应的主体Subject和客体Object的类别，例如：
（“subject_type”:“疾病”，“predicate”: “药物治疗”，“object_type”:“药物”）
（“subject_type”:“疾病”，“predicate”: “实验室检查”，“object_type”:“检查”）。
任务要求参评系统自动地对句子进行分析，输出句子中所有满足schema约束的SPO三元组知识Triples=[(S1, P1, O1), (S2, P2, O2)…]。
下表中展示了数据集中包含的53个schema，包含10种同义词子关系（表1中合并为一种），43种其他子关系。详细的53种schema见下载文件中的53_schema.jsonl。