自然语言处理在肺癌早期检测中的学习技术研究
1. 引言
肺癌是全球主要的死亡原因之一,肺部异常是人类面临的非常危险的问题。早期检测肺部异常对于降低风险和实现快速有效的治疗至关重要。在肺癌诊断中,常见的检测方法包括胸部X光、计算机断层扫描(CT)、磁共振成像(MRI)和正电子发射断层扫描(PET)等。
这些检测有助于检查可能癌变的可疑区域,肺癌的一个主要迹象是内向性肺结节。肺结节呈圆形,位于肺实质内,分为癌性和非癌性两种类型。
在肺结节检测方面,CT扫描相较于其他技术是最佳且最准确的方法。它通过排列多个二维切片来获取三维胸部图像。然而,放射科医生手动读取大量的CT切片是一项巨大的挑战,因为这既耗时又费力。
肺癌的医学分期对于确定诊断和制定治疗决策至关重要。在当今的医疗中,医生通常会确定肺部肿瘤的临床分期。尽管采用了各种具有出色敏感性和特异性的现代诊断技术,但临床分期与病理分期仍存在差异。不恰当的肺癌医学分期可能导致不理想的治疗决策,进而导致不良的治疗结果。
CT扫描是肺癌患者重要的检查技术,它能提供有关主要癌症部位和淋巴结的有价值信息。此外,报告还为放射科医生提供了CT图像的解读。自然语言处理(NLP)为在临床环境中传达这些重要信息提供了有益的工具和方法。然而,扫描数据的自由文本性质在用于研究和质量改进时会产生问题,手动获取这些数据也会浪费时间和金钱。
CT扫描由于具有比其他技术更好的特异性和敏感性,是检测肺结节的最佳方法。其主要目标是定义各种类型的结节边缘,因为边缘特征是评估癌症风险的最重要因素。本章提出的系统可以帮助放射科医生快速准确地对结节边缘类型进行分类,这有助于确定肿瘤、淋巴结和转移(TNM)分期以及患者的预期寿命。研究旨在使用NLP方法构建一个信息提取系统,自动从CT报告中提取有价值的信息,以改善临床分期。
2. 研究的理由和意义
- 肺癌是全球主要的死亡原因。
- 早期检测很重要,因为在这个阶段更容易治疗异常组织。
- 癌症的初始诊断侧重于识别有症状的患者,以便他们能接受有效的治疗。
- 如果癌症在后期被检测到,生存机会减少,治疗相关的问题会加剧,护理成本也会更高。
- 癌症在晚期很难有效治疗,因为很少有治疗方法能完全治愈癌症。
- 肺癌在早期极难检测。
- 利用机器学习(ML)方法进行早期肺癌诊断更容易检测到几乎难以察觉的变化。
- 对于放射科医生来说,手动读取多个CT切片是一项耗时费力的巨大挑战。
基于以上原因,需要开发准确的早期肺癌检测技术。
3. 动机
跟踪疾病发展过程中的变化,有助于在后续更容易发现这些变化,并减少出错的几率。技术和所提出的系统在这方面发挥了作用,它使用机器学习技术检测早期肺癌,这使得教会计算机检测几乎难以察觉的变化变得更容易。该方法完全基于对从早期到晚期各种肺癌病例的数据探索。
4. 学习技术
为了最早阶段检测肺癌,应用了多种机器学习过程,包括神经网络、朴素贝叶斯、k近邻(KNN)、支持向量机(SVM)、自适应提升(AdaBoost)和随机森林算法等。机器学习是一种使用人工智能(AI)创建分析模型的数据分析形式,基于机器可以从数据中学习、识别模式并在很少或无需人工参与的情况下做出决策的原理。
机器学习是AI的一个分支,定义为机器模仿人类智能行为的能力。AI方法用于支持人类执行复杂任务和解决复杂问题。在现实世界中,图像识别是机器学习的一个流行应用,它还用于搜索引擎、网站推荐定制、电子邮件垃圾邮件过滤、银行软件检测可疑交易等。
机器学习分为三种类型:
- 监督式机器学习:算法在标记数据上进行训练。
- 无监督式机器学习:使用未标记的数据,无需人工将数据集转换为机器可读形式,使程序能够处理更大的数据集。
- 强化学习:基于人们在日常生活中学习事实的方式。
深度学习是一种模仿人类学习方式的ML技术。采用了各种深度学习程序,如带卷积神经网络的掩码区域(R - CNN)、U - Net、更快的R - CNN、视觉几何组(VGG)和你只看一次(YOLO)来训练卷积神经网络以查找肺结节。
为了改进信息提取(IE)系统,首先对CT报告中的实体和关系进行注释,将其作为黄金标准方法。然后使用注释后的CT报告开发和评估IE系统的三个主要部分。具体步骤如下:
-
数据注释
:在医疗实践中,医生通常使用TNM分期系统对患者进行分期,该系统目前处于第八版。该分期系统包括肺癌三个特征的精确标准:肿瘤(T)、结节(N)和转移(M)。CT扫描无法提供肺癌分期所需的所有信息,临床医生还会使用PET和MRI扫描以及活检等其他诊断方法来对患者进行分期。临床医生根据CT结果确定了19个问题,此外,还有三个关于肿瘤形状、密度和大小的问题。所有22个问题如下表所示:
|问题|答案类型|分期|
|----|----|----|
|是否可以通过支气管镜看到肿瘤?|是/否|TX|
|肿瘤的最大尺寸是多少?|数值|T1 - 4|
|是否有证据表明肿瘤已扩散到支气管?|是/否|T1|
|是否有证据表明肿瘤已扩散到胸膜?|是/否|T2|
|是否有肺不张或阻塞性肺炎扩散到肺门区域,影响部分或整个肺部?|是/否|T2|
|同一肺叶中是否有与原发性肿瘤相连的第二个肿瘤结节?|是/否|T3|
|肿瘤是否侵犯主要血管?|是/否|T4|
|是否有证据表明肿瘤已扩散到椎体?|是/否|T4|
|与原始肿瘤不同的同侧肺叶中是否有继发性肿瘤结节?|是/否|T4|
|该区域是否有淋巴结转移?|是/否|N0|
|同侧肺门淋巴结是否有转移,包括直接蔓延累及?|是/否|N1|
|同侧纵隔淋巴结是否有转移?|是/否|N2|
|隆突下淋巴结是否有转移迹象?|是/否|N2|
|另一侧纵隔淋巴结是否有转移?|是/否|N3|
|对侧肺门淋巴结是否有转移?|是/否|N3|
|锁骨上区域淋巴结是否有转移证据?|是/否|N3|
|对侧肺叶中是否有明显的肿瘤结节?|是/否|M1a|
|肿瘤是否伴有胸膜结节?|是/否|M1a|
|是否有恶性的胸膜或心包积液?|是/否|M1a|
|肿瘤的形状如何?|文本|NA|
|肿瘤的密度如何?|文本|NA|
|肿瘤的强化程度如何?|文本|NA|
- 词嵌入 :词嵌入是一种无监督技术,它将单词映射到实值向量,以从语料库中提取语义和语法信息。研究中使用word2vec将词嵌入方法应用于中文维基百科语料库,用于卷积神经网络(CNN)和循环神经网络(RNN)模型。
- 命名实体识别(NER)过程 :NER是确定所审查实体的形式和边界的关键技术,可用于驱动其他NLP活动。最近开发的深度学习NER方法优于旧方法,无需繁琐的特征工程。
- 关系分类过程 :建立实体对之间语义连接的任务称为关系分类(RC),这些连接可用于组织相关事物以产生更好的语义。虽然传统的RC方法取得了令人满意的结果,但深度学习RC方法为手工制作特征的问题提供了更有效的解决方案。可以使用这些策略轻松地将实体与实体之间的关系标准纳入模型,以提高预测性能。
- 预测性能步骤 :仅使用挖掘的三元组来获取上述表格中问题的答案是不够的,还需要进一步分析。例如,要回答同侧纵隔淋巴结是否有转移的问题,必须首先确定患者是否有原发性肿瘤和纵隔淋巴结转移,然后确定它们的相对位置。
下面是一个简单的mermaid流程图,展示了数据处理的大致流程:
graph LR
A[CT报告] --> B[数据注释]
B --> C[词嵌入]
C --> D[NER过程]
D --> E[关系分类过程]
E --> F[预测性能步骤]
5. 相关工作
在肺癌检测领域,众多研究者提出了不同的方法和系统,以下是对一些相关工作的总结:
|作者及年份|方法/技术|考虑的参数|局限性|
|----|----|----|----|
|Hu等(2021)|命名实体识别算法、关系分类方法、后处理方法识别命名实体|位置、大小、密度、强化、形状|未提取边缘特征|
|PhuPaing等(2020)|3D链编码、优化随机森林|2D和3D几何特征|未检测TNM分期,未计算预期寿命|
|Marcelo等(2020)|KNN、MLP、随机森林|3D纹理和边缘清晰度特征|未检测TNM分期|
|Amer等(2019)|阈值技术、形态学操作、多层前馈神经网络|统计特征、梯度特征和纹理特征|区分癌性和非癌性肺结节需更多工作|
|Johora等(2018)|标记控制的分水岭分割、SVM|面积、周长、偏心率|提取特征较少|
|Javaid等(2016)|形态学闭合、k - 均值聚类、形态学开放、SVM|2D和3D特征|检测结节平均时间过长|
|Mekali和Girijamma(2016)|迭代阈值、Freeman链码算法、区域生长算法|形状、大小、体积|未提取边缘特征|
|Peña等(2016)|3D斑点算法、SVM|直径、面积、半径、圆形度、伸长率|假阳性率较高|
|Jin等(2016)|CNN|大小、感兴趣区域、形状|提取特征较少|
|Aggarwal等(2015)|线性判别分析、最优阈值|几何、统计和灰度级特征|未达到最佳精度|
|Punithavathy等(2015)|形态学算子、模糊聚类|统计纹理特征|提取特征较少|
|Chen等(2014)|滚动球算法、自适应阈值二值化|形状、面积|未提取边缘特征|
|Shan和Rezaei(2021)|数学形态学分割、ITEO算法特征选择、ANN图像分类|对比度、相关性、同质性、熵、能量|未提取卷积特征|
|Venkatesan等(2021)|高斯噪声去除技术、CNN训练的深度模型|几何特征、纹理特征|需通过数据增强丰富数据集|
|Li等(2020)|肺分割、肋骨抑制、多分辨率基于补丁的CNN|放射学特征|未进行边缘类型分类|
|Yu等(2020)|深度学习、辅助自适应分层启发式数学模型、改进k - 均值算法|光谱相关特征|未进行边缘类型分类|
|Bhandary等(2020)|形态学分割和分水岭分割|深度和手工特征|未计算预期寿命|
|Shakeel等(2020)|改进的深度神经网络和集成分类器、多层保亮度预处理技术|几何特征|未确定TNM分期|
|Shakeel等(2019)|加权平均直方图均衡化去噪、大量聚类分割、深度学习训练的神经网络|光谱特征|未提取边缘特征|
|Reddy等(2019)|机器学习方法|面积、周长、特殊性、熵、对比度、关联性|未提取边缘特征|
|Bhatia等(2019)|XGBoost和随机森林分类|预处理特征|未计算预期寿命|
|Makaju等(2018)|中值和高斯滤波器预处理、分水岭分割、SVM分类|周长、面积、质心、偏心率、直径、平均强度|未达到最佳精度|
|Faisal等(2018)|预处理清理数据、多种分类器(神经网络、实例决策树、梯度提升树、朴素贝叶斯算法、SVM)|几何特征|未提取边缘特征|
|Singh和Gupta(2018)|去噪和阈值方法、KNN、SVM、决策树分类器|纹理和统计特征|未计算预期寿命|
|Alam和Hossan(2018)|图像增强、分割、多类SVM|活力、熵、均值、标准差、同质性、平滑度|未提取边缘特征|
从这些相关工作可以看出,虽然不同的方法在肺癌检测中都有一定的效果,但都存在各自的局限性,例如未提取关键的边缘特征、未检测TNM分期、未计算预期寿命等。
6. 讨论
综合上述的研究和相关工作,肺癌早期检测是一个复杂且具有挑战性的任务。目前的检测方法虽然在不断发展和改进,但仍存在诸多问题需要解决。
在机器学习和深度学习技术的应用方面,虽然取得了一定的进展,但不同的方法在特征提取和分类性能上存在差异。例如,一些方法提取的特征较少,导致分类的准确性和全面性受到影响;部分方法在TNM分期检测和患者预期寿命计算方面存在不足,这对于临床治疗决策的制定是非常关键的信息。
自然语言处理在从CT报告中提取有价值信息方面具有很大的潜力,但扫描数据的自由文本性质给信息提取带来了困难。如何更有效地利用NLP技术,准确地从CT报告中提取关于肿瘤、结节和转移等关键信息,是未来需要重点研究的方向。
另外,数据的质量和数量对于模型的训练和性能也至关重要。目前一些研究存在数据集不够丰富、缺乏数据增强等问题,这可能导致模型的泛化能力不足。
7. 结论
肺癌作为全球主要的死亡原因之一,早期检测对于提高患者的生存率和治疗效果至关重要。利用机器学习和自然语言处理技术进行肺癌早期检测具有很大的优势和潜力。
通过对CT报告进行数据注释、词嵌入、命名实体识别、关系分类等处理步骤,可以构建一个信息提取系统,自动从CT报告中提取有价值的信息,辅助临床医生进行肺癌的诊断和分期。
尽管目前已经有很多相关的研究和方法,但仍存在一些不足之处,如特征提取不全面、TNM分期检测不准确、患者预期寿命计算困难等。未来的研究需要进一步改进和优化这些方法,提高肺癌早期检测的准确性和可靠性,为临床治疗提供更有力的支持。
下面是一个mermaid流程图,展示了整个肺癌检测系统的大致框架:
graph LR
A[CT扫描] --> B[CT报告]
B --> C[数据处理]
C --> D{机器学习与NLP技术}
D --> E[信息提取]
E --> F[肺癌诊断与分期]
F --> G[治疗决策]
在未来的研究中,可以从以下几个方面进行改进:
- 进一步优化特征提取方法,确保能够提取到更全面、更有代表性的特征,特别是边缘特征等关键信息。
- 提高TNM分期检测的准确性,结合更多的诊断方法和数据,为临床治疗提供更精确的分期信息。
- 加强数据的收集和处理,通过数据增强等方式丰富数据集,提高模型的泛化能力。
- 深入研究自然语言处理技术,更好地处理CT报告的自由文本数据,提高信息提取的效率和准确性。
超级会员免费看
905

被折叠的 条评论
为什么被折叠?



