自然语言处理与医学图像分析中的图学习应用
1. 自然语言处理中的图学习
1.1 文本分割
文本分割主要分为两个阶段:
1. 从单词抽象的连接创建两层树。
2. 基于此树创建图,并选择关键片段。
具体操作是,将文本中的所有句子用相关性图的顶点表示,计算输入文档中所有句子对之间的语义相似度。对于语义相关性高于特定阈值的句子对,在图的等效节点之间添加边。计算图中所有潜在的最大团集,通过合并在图的至少一个最大团中识别出的相邻句子,得到初步的片段集。接着,合并相邻片段,这些相邻片段至少有一个团,且每个相邻片段至少包含一个句子。对于指定的最小片段大小,将片段大小小于最大值的句子与相邻片段中语义相关性更高的句子合并,相邻片段之间的相关性计算为其对应句子的平均相关性。
1.2 话语关系
话语关系通常使用连词或各种内容导向的词来表征,这些词有助于文本的连贯性。例如:
| 连词或词 | 话语关系类型 | 示例 |
| ---- | ---- | ---- |
| “before” “after” | 时间顺序 | “Before he wrote the article, John visited the library.” |
| “because” | 因果关系 | “Travel was delayed because of technical reasons.” |
| “Furthermore” “also” | 阐述 | “Additional edges are included in the graph. A weight is also computed and later assigned to every edge.” |
| “however” “but” | 对比 | “Mary liked the latest novel, but Tom had no interest in it.” |
为了获取话语导向的信息以回答逻辑问题,操作步骤如下:
1. 对基本话语单元进行编码。
2. 进行图的推理模块。
3. 构建预测答案的模型。
对于问题答案选项中的第 j 个选项,构建图 $G_i = (V_i, E_i)$,其中节点 $v_j \in V$,节点 $v_j$ 与相应的话语单元 $e_j$ 相关。在传播具有相关权重的消息后,使用以下公式更新特定顶点 $v_i$ 的表示:
$v_{j_{updated}} = ReLU(v_{message} + bias_u + weight_u)$
更新后的顶点表示用于通过对相关顶点位置求和来上下文地改进标记嵌入,其中 $bias_u$ 和 $weight_u$ 分别表示偏差和权重。将经过话语改进的标记嵌入输入到答案预测组件中,得出答案选项的概率。该模型使用交叉熵相关损失进行完全训练,将高级和低级话语标记特征合并,形成单个特征向量,可将这些特征连接起来作为新向量输入,以获得用于进一步分类的输出特征。
1.3 机器翻译
早期的机器翻译方法主要是基于规则的系统,虽然翻译能力精确,但覆盖范围低且不可跨领域移植。当前的统计方法依赖大量平行输入文本自动学习翻译模型,可应用于新文本的翻译。不过,在某些应用中需要大量潜在的替代翻译,这带来了存储和处理挑战。词图是一种解决方案,它是有向无环图,有一个选定的根顶点,边用单词标记,图中的路径代表候选翻译。词图还可以包含与图边单词相关的分数,用于计算特定翻译路径的分数。词级和短语级翻译的主要区别在于以下三个额外步骤:
1. 通过在单词之间引入新边将短语包含在图中。
2. 通过为每个潜在的短语翻译引入额外的边来翻译图中的短语。
3. 通过用单字边序列替换短语边来调整短语到单词的边标签。
1.4 基于图的多语言信息检索
传统的多语言信息检索主要有两种技术:
1. 将输入文档自动翻译成查询所使用的语言。
2. 将查询自动翻译成输入文档的语言。
其中,翻译输入查询的方法使用更频繁,因为它耗时少且无需重新索引输入文档集合。创建特定查询的翻译时,最常用的方法是使用双语词典。图导向的表示可以通过在共现图上进行随机游走来有效确定正确的翻译。构建共现图时,将潜在的候选翻译作为顶点,根据目标语言中较大系统确定的链接强度用加权边连接。
1.5 基于图的信息检索
信息检索应用通常返回与查询相关的完整文档,当需要更具体的信息时,信息提取系统更有用。信息提取用于从非结构化的原始文本中识别知识,一种有效的处理方案是相互强化,基于理想模式产生好的实例,好的实例又产生好的模式的概念。这种强化可以用二分图自然建模,通过中心性算法耦合。在这种表示中,模式和实例表示为图中的节点,边反映实例和模式之间的创建链接。构建图后,迭代应用中心性度量为每个节点确定分数,该分数作为模式和种子的置信水平,可作为过滤器避免在自举过程中引入错误。因此,在每个自举步骤中,模式和实例的选择基于从整个模式和种子图中反复推断出的全局信息,而不是由它们产生的直接种子的局部信息。
1.6 基于图的问答
基于图的问答与信息检索和信息提取有重叠,是自动回答自然语言问题的任务。在图匹配中,从训练数据中学习的问答图用于构建图规则,以找到新问题的答案。具体操作是手动标注一组问题和答案,然后通过匹配它们各自的图自动学习规则。图使用特定依赖解析器的输出构建,捕捉单词之间的句法关系及其相关角色。虽然基于图的问答方法整体性能不如现有方法,但它易于移植到新领域,不需要不同的问题分类阶段,也不使用可能在非英语语言中不易获得的实体识别器。
graph LR
A[文本分割] --> B[话语关系]
B --> C[机器翻译]
C --> D[多语言信息检索]
D --> E[信息检索]
E --> F[基于图的问答]
2. 医学图像分析中的机器学习技术
2.1 引言
近年来,医学科学和成像领域的一个主要焦点是肿瘤识别,尤其是脑肿瘤检测,这在医学科学中仍然是一个极具挑战性的研究领域。医学图像分析的主要目的是准确检测脑肿瘤,以便为患者提供及时和适当的治疗。磁共振成像(MRI)常用于提供输入图像源,脑肿瘤是指大脑细胞和组织的异常生长,可发生在任何年龄段。
脑肿瘤的症状取决于其大小、类型和位置,可能包括呕吐、头痛、视力问题、精神变化、行走困难、言语和听力变化以及记忆改变等。研究使用小波变换处理MRI图像,然后通过主成分分析(PCA)降低检测到的特征维度,使用支持向量机(SVM)方法对医学图像进行二分类。还使用了具有四个核的核支持向量机(KSVM)进行精确测量,包括径向基函数、线性函数、多边形函数和二次函数,并应用了多种技术,如标准差、能量、均值、方差、熵、均方根(RMS)、逆差分矩(IDM)、峰度、对比度、平滑度、相关性和偏度等。
2.2 研究动机与目标
2.2.1 动机
研究发现,许多人因脑肿瘤检测不准确而死亡。本研究受一篇文章启发,该文章描述了如何将k - 均值算法应用于无噪声的MRI图像以更准确地提取肿瘤数据,然后应用模糊C - 均值算法识别需要提取的特征。肿瘤种类繁多,每种肿瘤的治疗方法不同。虽然有多种扫描技术可用于识别肿瘤,如计算机断层扫描(CT)、正电子发射断层扫描(PET)和MRI,但MRI扫描最为准确。在孤立的特征中识别相关特征并确定最适合脑肿瘤成像的技术非常困难,研究发现PCA是寻找高维模式的常用技术,在数据分析中应用广泛。
2.2.2 目标
本研究的主要目标是使用适当的分割技术检测脑肿瘤,识别各种特征,然后使用具有不同核函数的支持向量机进行分类过程。具体包括:
1.
研究不同的分割技术
:研究各种图像处理和计算机查看方法,包括阈值策略、Otsu技术、基于图的策略、轮廓技术、基于区域的策略、边缘检测策略、聚类策略和各种混合技术。由于其简单性,选择了Otsu技术。
2.
选择合适的特征
:应用小波变换,通过离散小波变换(DWT)计算系数矩阵,DWT可用于选择特征。该方法将输入图像分解为一系列子带图像,然后通过PCA减少特征,再经过灰度共生矩阵(GLCM)处理计算能量、对比度、相关性和同质性等特征。
3.
评估和分类提出的模型
:实施所选的分类技术后,使用SVM和各种核函数评估系统并总结结果。
2.3 文献综述
- Aslam、Daxiang和Cui :建议使用阈值从灰度图像的亮度强度中检测患病组织,并使用一系列滤波器去除噪声。
- Zhang和Wu :讨论了一种区分正常和异常大脑的工具,确定了高斯径向基(GRB)核。由PCA和KSVM支持的这种脑成像分类系统可能是计算机辅助临床识别的有价值工具。
- Panigrahi等人 :认为肿瘤检测受益于反复应用于遗传公式参数的模糊C - 均值聚类。该方法分为预处理和后处理阶段,并应用于各种大小和强度的原发性和继发性异常图像。
- Kohir和Karaddi :提出了一种新的脑癌分类方法,用于星形细胞瘤类型的脑识别,利用GLCM进行图像处理。
- Tirpude和Welekar :认为图像像素的灰度分布不够明显,使用单一的全局阈值分割整个图像(包括肿瘤)不是一个好选择,得出全局阈值技术在分割含肿瘤大脑的MRI图像时效果不佳的结论。
- Malik和Baharudin :通过在离散余弦变换(DCT)域中对应用数学量化柱状图纹理特征进行实验比较分析,支持使用中值和拉普拉斯滤波器进行有效图像检索。计算了如峰度、平滑度、能量、偏度、均值、标准差和熵等应用数学纹理特征。基于拉普拉斯滤波器、中值与边缘提取以及中值的量化柱状图纹理选项在DCT域的图像检索中表现最佳。
- Hassan和Aboshgifa :认为具有图形用户界面(GUI)的程序在肿瘤检测方面比传统技术提供更好的结果,因为它们允许用户轻松更改参数。
- Thiagarajan和Bremananth :提出了一种基于条件随机场和改进的人工蜂群优化与改进的模糊可能性c - 均值相结合的独特算法。条件随机场是一种广泛用于图像分割的技术,该组合用于找到最小化后验能量函数的最佳标签以分割图像,在考虑的应用数学参数方面提供了重要结果,优于现有方法。
- Reddy等人 :提出了一种使用区域生长算法区分肿瘤大小增长和骨癌阶段的方法,该技术通过区域生长算法分割感兴趣区域,并根据像素数量数学计算肿瘤大小。
2.4 问题域与解决方案
2.4.1 问题域
脑肿瘤检测存在诸多挑战,包括肿瘤类型多样、特征识别困难以及选择合适的成像技术和处理方法等。不同的肿瘤具有不同的特征,需要准确识别以进行有效的治疗。
2.4.2 解决方案
本研究提出的解决方案包括以下步骤:
1.
图像预处理
:使用Otsu方法进行图像分割,该方法简单有效。
2.
特征提取
:
- 应用小波变换,通过DWT计算系数矩阵,将图像分解为子带图像。
- 使用PCA减少特征维度。
- 通过GLCM处理计算纹理和统计特征,如能量、对比度、相关性和同质性等。
3.
分类
:使用SVM和KSVM进行二分类,KSVM使用径向基函数、线性函数、多边形函数和二次函数等核函数。
2.5 实现与结果分析
2.5.1 实现
使用MATLAB作为工具,按照以下方法进行实现:
1. 对MRI图像进行预处理,去除噪声并进行分割。
2. 提取特征,包括颜色、纹理和形状等。
3. 使用SVM和KSVM进行分类。
2.5.2 结果分析
对结果进行了多方面的分析,包括:
| 分析指标 | 描述 |
| ---- | ---- |
| 均值 | 反映图像的平均亮度。 |
| 标准差 | 衡量图像亮度的离散程度。 |
| 熵 | 表示图像的信息含量。 |
| RMS | 均方根,用于评估图像的整体强度。 |
| 方差 | 衡量数据的离散程度。 |
| 平滑度 | 反映图像的平滑程度。 |
| 峰度 | 描述数据分布的峰态。 |
| 偏度 | 衡量数据分布的不对称性。 |
| IDM | 逆差分矩,用于分析纹理特征。 |
| 对比度 | 体现图像的对比度。 |
| 相关性 | 表示图像像素之间的相关性。 |
| 能量 | 反映图像的能量分布。 |
| 同质性 | 衡量图像的均匀程度。 |
| 核函数 | 包括径向基函数、线性函数、多边形函数和二次函数等,用于KSVM分类。 |
graph LR
A[MRI图像] --> B[Otsu分割]
B --> C[小波变换]
C --> D[PCA降维]
D --> E[GLCM特征提取]
E --> F[SVM/KSVM分类]
F --> G[结果分析]
2.6 结论与展望
本研究通过结合自然语言处理中的图学习技术和医学图像分析中的机器学习技术,在文本处理和脑肿瘤检测方面取得了一定的成果。在自然语言处理中,图学习为文本分割、话语关系分析、机器翻译、信息检索和问答等任务提供了有效的解决方案。在医学图像分析中,通过多种技术的组合,实现了对脑肿瘤的有效检测和分类。
未来的研究可以进一步优化这些方法,提高自然语言处理和医学图像分析的准确性和效率。例如,在自然语言处理中,可以探索更复杂的图结构和算法,以处理更复杂的文本数据。在医学图像分析中,可以引入更多的图像数据和特征,改进分割和分类算法,提高脑肿瘤检测的精度。
超级会员免费看

被折叠的 条评论
为什么被折叠?



