【3万患者11万图像14类病理】NIH公开大规模胸部X光数据集

美国国家卫生研究院(NIH)公开了一个包含30,805名患者112,120张胸部X光图像的大型数据集,用于14类疾病的识别。该数据集是之前最大胸部X光数据集Openi的27倍,经过多次审查以保护患者隐私。这个数据集旨在促进深度学习在胸部疾病诊断中的应用,提供了一个基准,有助于提高临床相关的计算机辅助检测和诊断的性能。" 68951220,5662965,配置Manjaro Linux上的Apache web服务器,"['Linux', 'web服务器', 'Apache', '操作系统', '命令行']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

image

胸部X光检查是最常见而且最具成本效益的医学影像检查之一。但是,胸部X光检查的临床诊断很具挑战性,有时被认为比胸部CT成像更难诊断。过去一些有前景的工作已经被报道过,特别是最近在结核病(TB)分类方面的深度学习工作。由于只有几千张图像被用于学习,在现实世界的医疗中,在胸部X光片的所有数据设置上,实现临床相关的计算机辅助检测和诊断(CAD)仍然是非常困难的,甚至是不可能的。

Openi 是迄今最大的公共胸部X射线数据集,由于只有4143张正面视图的胸部X光片,用于胸部疾病识别的深度神经网络的性能受到严重限制。

在这个数据库中,NIH提供了近期工作中使用数据集的一个增强版本(增加了6个疾病类别和更多的图像),规模大约是Openi的正面胸部X光片数量的27倍。所有数据集是从美国国家卫生临床中心的临床PACS数据库中提取出来的,其中包含了医院所有正面胸部X光片的约60%。

参与这项工作的NIH研究员吕乐博士告诉新智元,胸部X光图像去除病人敏感信息工作量非常大, 类比于在Google Street View里找到人脸和汽车牌照并把它模糊化。

据悉,发布这些数据前,NIH的研究人员通过人工和机器将其仔细审查了至少7遍,最后NIH内部还找了十几位博士生和医生,将11万张图像肉眼过了两遍。这都是为了让全世界的研究人员更好的工作,就像吕乐博士说的那样,“希望大家能够喜欢并enjoy!”

NIH研究人员预期这个数据集相比以前的胸部X光片数据集更能够代表真实的患者群体分布和现实中的临床诊断挑战。这个数据集的规模,从图像总数和胸腔疾病频率来看,也将会更好地促进深度神经网络的训练。

image

image

ChestX-ray数据集包含30,805名患者的112,120张正面视图的X射线图像,以及利用NLP从相关放射学报告挖掘的14类疾病的图像标签(每个图像可以有多个标签)。

数据集含有14类常见的胸部病理,包括肺不张、变实、浸润、气胸、水肿、肺气肿、纤维变性、积液、肺炎、胸膜增厚、心脏肥大、结节、肿块和疝气,这是王瀟崧博士和Yifan Peng、吕乐博士等人CVPR 2017论文中列出的8中常见疾病的扩充(详见下面ArXiv论文)。

CVPR-17 论文及地址:Wang X, Peng Y, Lu L, Lu Z, Bagheri M, Summers RM. ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases. IEEE CVPR 2017(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值