多标签分类(六):Fine-Grained Lesion Annotation in CT Images with Knowledge Mined From Radiology Reports

细粒病灶注释在CT图像与知识挖掘从放射学报告

  文章来自2019年CVPR

摘要

  在放射科医师的日常工作中,一个主要的任务是阅读医学图像,例如CT扫描,发现重要的病变,并在放射学报告中写下句子来描述它们,在本文中,我们研究了在计算机辅助诊断(CAD)中,病灶描述或标注问题的一个重要步骤。给定一幅病变图像,我们的目标是预测多个相关标签,如损伤的身体部位、类型和属性。为了解决这个问题,我们基于RadLex定义了一组145个标签来描述DeepLesion数据集中的大量病变。我们直接从放射学报告中病变的对应句子中挖掘训练标签,这需要最少的人工工作,并且很容易推广到大数据和标签集,在此基础上,提出了一种针对多尺度结构和噪声损耗的图像的多标签卷积神经网络。

1、介绍

  病变的检测和分类是计算机辅助诊断(CAD)的重要研究课题。现有的病灶分类研究一般侧重于身体某些部位(如皮肤和肝脏),对病灶类型进行分类(如肝脏囊肿、转移和血管瘤),在这篇文章中,我们处理一个更普遍的问题来模拟放射科医师,当一个有经验的放射科医生阅读医学图像,如计算机断层扫描(CT),他或她可以发现身体不同部位的各种病变,并告诉病变的详细身体部位、类型和属性,我们旨在开发一种算法来预测这些特征,前提是假设已检测到病变或在图像上手动标记了病变,简而言之,我们希望计算机能全面了解病变,并回答“是什么”的问题。我们称它为损伤标注,因为它类似于计算机视觉中的多标签图像标注问题。我们期望这将是迈向全自动CAD系统的重要一步。
  这项任务的主要挑战是缺乏培训标签。现有的病变分类研究一般需要专业人员手工对病变进行标记,这种方法准确但繁琐,且无法进行分级,一些研究者利用了放射学报告中包含的丰富信息,但是图像和文本之间没有损伤-级别的对应关系,因此提取的标签不能准确地映射到特定的病变。另一种研究直接根据整体图像生成报告,并通过注意机制在病变之间进行切换,我们没有探索这个方向,因为很难评估计算机生成的报告的可用性,因为它们的质量对于实际使用来说似乎很低。相反,如果我们可以准确地预测描述关键字的病变,则创建高质量(结构化)报告的过程将非常简单。
  为了找到病变级别的标签,我们利用了最近发布的DeepLesion数据集,DeepLesion在CT图像中包括身体各部位超过30K的病灶。超过20K的人在报告中有相应的句子以超链接的方式显示出来。病变图像和句子示例见图3:
  我们收集了一个基于RadLex lexicon[7]的细粒度标签列表,从包含超链接的句子中提取这些标签,作为病变图像的标签,这个过程完全是数据驱动的,几乎不需要人工,因此可以很容易地用于构建具有丰富词汇量的大型数据集。为了提高标签列表的覆盖范围,我们基于RadLex添加了每个标签的同义词。 还标注了标记之间的等级关系,并用于扩展每个病变的标记集(例如,扩张前:肺结节;扩张后:肺结节,肺,结节,胸部)。然后采用多标签卷积神经网络(CNN)来同时预测每个病变的所有标签。 由于不同的标签可能最好由不同级别的特征建模,因此我们修改了CNN的结构以促进多尺度特征融合,改进了损失函数,以平衡稀有标签和减轻标签噪声的影响。实验结果表明,我们的病灶注释器能够高精度地预测各种病灶的细粒度体部、类型和属性

2.从报告中挖掘标签

  我们使用DeepLesion数据集及其伴随的放射学报告来学习我们的模型。在医院,放射科医生有时会在图像上标记明显的病变,并在报告中插入超链接、尺寸测量或切片编号(称为书签),使用这些书签,我们可以将病变区域与描述它的句子链接起来,从而获得病变级别的标签注释,为了挖掘标签,我们首先对包含病变书签的句子进行标记,然后使用NLTK对句子中的单词进行分解以获得它们的基本形式。RadLex v3.15被用作我们的词典。 我们从RadLex中提取了所有标签及其同义词。 由于RadLex中的大多数标签都是名词,因此我们手动添加了一些形容词同义词,例如,“ hepatic”是“ liver”的同义词。 在对句子进行全词匹配并融合了同义词之后,我们在测试集中保留了超过5个出现次数的标签(1,872个样本),从而产生了145个标签的列表。
  标签可以分为三类:1.标签的种类。身体部位(共95个标签),包括粗鳞身体部位(如胸部、腹部)、器官(肺、淋巴结)、细粒器官亚部位(右下叶、腹膜后淋巴结)和其他身体部位(肝门、椎管旁);2.发现/类型(24种标记),包括粗粒(结节、肿块)和更具体的(肝肿块、毛玻璃样混浊)。3.属性(26个标签),描述病灶的强度、形状、大小等(低衰减、棘状、大)。这是一套全面的标签。标签之间存在层次关系,如肺结节属于肺,结节属于肺。因此,我们进一步从RadLex中提取标签的父-子关系,然后手工修正。这种关系的子图如图1所示。

  图1表示带有关系的示例标签。箭头从父标签指向子标签。蓝色、红色和绿色分别表示身体部位、类型和属性。每个标签下面的数字是训练样本和测试样本的数量。
  用关系图扩展病灶的标记集,如果一个子标签为真,那么它的所有父标签都应该为真,然后,我们可以为每个病变构建一个标记向量 y y y。当且仅当标签 i i i在扩展标签集中时, y i = 1 y_i = 1 yi=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值