第5章 舌像分析及其用于健康诊断的移动应用开发
拉差达蓬·卡纳翁、泰约·奥巴费米‐阿杰伊、刘大海、张萌、徐东和段烨
5.1 引言
中医(TCM)在东亚国家治疗各种疾病方面有着悠久的历史,在西方国家也是一种补充和替代医学体系。中医采用整体方法,强调人体的完整性以及人与社会和自然环境之间的密切关系[1]。中医应用不同的治疗方法以增强人体对疾病的抵抗力并进行预防。中医诊断基于四诊过程,即望、闻、嗅、问和切。最常见的任务是切脉和舌诊[2]。几千年来,中医医师通过舌诊来判断患者内脏的健康状况,尤其是舌头表面的形态特征’。舌象反映脏腑状况。舌的变化能客观地体现疾病状态,有助于辨证、确立治疗方法、处方中药和判断疾病预后。此外,舌象还能提示无明显疾病时的整体健康状况,为预防医学和生活方式调整提供依据。
证候(中医证候)是中医理论中一个整体且基本的部分。它是中医医师能够识别的所有临床表现的特征性症状特征。证候是在分析所有症状和体征(包括舌象和脉象)后得出的结果。中医所有的诊疗方法均基于辨证,这一概念与中国中医本身一样古老[3]。证候并非仅仅是疾病症状的集合,而可以视为中医对个体患者症状特征的理论抽象。例如,患有相同疾病的患者可能被归为不同的证候,而不同疾病却可能被归为相同的证候。寒证(寒证)和热证(热证)是证候的两种关键状态[3]。其他证候包括肾阳虚证(肾阳虚证)、肾虚证(肾虚证)、血瘀证(血瘀证)等[4]。
在本研究中,我们探索了使用各种有监督的机器学习算法对证进行临床表征的新方法。通过一个自动化的舌像诊断系统,我们从临床患者的舌象图像中提取客观特征,并分析这些特征与其相应的证候数据以及临床医师提供的疾病预后(特别是胃部疾病,即胃炎)之间的关系。我们提出了一种系统,该系统通过基于色彩空间模型的一组丰富特征从舌象图像中提取有意义的特征,从而学习临床医师的评估数据,以分类患者健康状态。我们的前提是,中医医师通常观察舌色和舌苔来判断寒证或热证,并诊断包括胃炎在内的不同胃部疾病。因此,我们建议使用机器学习技术,通过示例学习来建立舌象特征与证之间的关系。我们还关注胃炎患者证中观察到的寒证和热证模式与其相应症状特征之间的相关性。
已探索多种特征用于舌特征提取和舌象分析,包括纹理[5],颜色[6–8],形状[9],光谱[8],等。张等人[10]随后提出了一种系统的舌特征集,该特征集结合了几何特征(大小、形状等)、裂纹和纹理。基于这些特征类型的计算机辅助舌象分析系统也已被开发[11, 12]。我们的目标是基于证的标注,从患者的舌象图像中提取一组客观特征,中医专家,这提高了客观临床诊断的准确率。我们提出的舌特征集基于广泛的颜色模型。
5.2 中医舌诊
中医认为,舌头与人体的经络和内脏有着密切的联系。因此,在望诊中观察舌头对于确认中医诊断非常有用且重要,因为它能够直观地反映出一个人整体身心的平衡或失衡状态。在中医中,舌头被分为舌尖、舌边、舌中和舌根。
图5.1 舌区及其在中医中与内脏的对应关系。(a)舌区的器官分布。(b)舌区的几何分布
舌尖反映心和肺的病理变化,舌两侧反映肝和胆的状况。脾和胃的病理变化体现在舌中,而肾、肠和膀胱的病变则对应于舌根。
在本研究中,我们关注患有胃部疾病、胃炎的患者。因此,我们不仅希望从整舌图像中提取特征,还特别关注中部区域的特征提取,因为根据中医理论,该区域对应于胃器官。我们提取图5.1b中所示的矩形区域,作为舌头中部区域的近似。
医师会检查舌头的整体和局部形态以及舌头的颜色和舌苔。根据中医理论,正常舌象为淡红舌,薄白苔。一些失衡或病理的征兆包括红舌、黄苔,或像马苏里拉奶酪一样的厚苔等。某些特征性变化出现在某些特定疾病中的舌头表现。大多数舌部特征位于舌表面。中医医生会观察舌体的多个属性:颜色、湿润度、大小、形状和舌苔。这些征象不仅反映整体健康状况,还与特定器官功能及失衡相关,尤其是消化系统。
证候诊断中舌头的两个主要特征是颜色和舌苔。患者的舌色可提供其健康状况的信息。例如,深红色可能表明存在炎症或溃疡 [13],而白舌则提示寒袭、痰湿积聚,或血虚导致贫血等病症 [12]。此外,黄舌指出肝胆功能紊乱,蓝或紫则意味着血瘀以及舌面面积所对应的消化系统部分严重减弱。
舌苔不仅通过其有无进行辨别,还通过其颜色进行区分。颜色可能为黄色、白色及其他颜色。然而,图像中的颜色并非舌头的真实颜色。为了准确识别舌苔的颜色,我们采用了先前在舌象检测与分析研究中提出的镜面反射成分技术[2]。图5.2展示了患者的不同舌象图像及其对应的证候类别。
热证,(b) 寒证,(c) 正常)
5.3 舌头特征提取与分类
5.3.1 舌象图像分析的特征提取
我们的目标是从每张舌像 j 中计算出一组客观特征 ~Fj1⁄4 Fnfg,输入到我们的学习系统中,以便不仅能够预测舌头的颜色和舌苔,还能预测胃炎患者的不同的证。这些特征旨在捕捉舌头的不同颜色特征。尽管单个特征可能区分能力较弱,但我们假设这些特征的聚合将具有良好的区分性。我们让学习算法来确定每个特征在最终分类中的权重/贡献。
大多数颜色空间用数字元组表示,通常包含三个或四个颜色分量。颜色分量决定了颜色在所用颜色空间中的位置。许多颜色空间是为不同目的而定义的。我们设计了一组涵盖整个颜色空间模型的25个特征。这些特征可分为八个类别: RGB、HSV、YIQ、Y’CbCr、XYZ、L*a*b*、CIE Luv 和 CMYK。
为了使用这组特征训练我们的分类模型,我们需要将每个像素的特征组合成一个复合特征向量 ~Fj 1⁄4 Fnf g,对应每张舌像(或区域)j。我们通过两种不同的统计平均值(均值和中位数)以及标准差值来聚合像素特征。在自动舌诊证型分类系统中,我们使用以下算子推导出五种不同形式的特征向量:均值、中位数(med~F)、标准差(σ~F)、“均值加标准差”( μ~ σ~ F; F)以及“中位数加标准差”(med~ σ~ F; F)。
设N表示给定舌像(或区域)j中的像素数量。均值特征向量表示为 μ~Fj 1⁄4 μFnf g,其中 μFn由下式给出
μFn ¼ P N i¼1 f i n N , n ¼ 1,…, 25:
中位数特征向量表示为 med~Fj 1⁄4 medFnf g,其计算公式为 medFn 1⁄4 mid{sort(Fset)},其中 n 1⁄4 1 , . . . , 25。标准差描述了给定特征值与其在特定区域内所有像素上的平均值之间的差异程度。因此,标准差特征向量表示为 σ~Fj 1⁄4 σFnf g,其中 σFn由以下公式给出
σFn ¼ ffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffi P N i¼1 f i n μFn N 2 tvuuu , n ¼ 1,…, 25: “均值加标准差”用 μ~ σ~ F表示;F是均值特征向量与标准差特征向量的拼接。类似地,“中位数加标准差”特征向量,用med~ σ~ F表示;F是中位数特征向量与标准差特征向量的拼接。因此,这两个拼接后的特征向量各自包含50个特征。
5.3.2 证型分类的监督学习算法
我们应用三种不同的监督学习算法(AdaBoost、支持向量机和多层感知器网络)来构建分类模型,用于训练和评估所提出的基于舌头的自动化诊断系统。每种模型都有其优缺点,我们将在下面简要描述。我们通过实验在我们的数据集上评估了它们的性能。
分Ad类aBo器os集t成是一组分类器,其各自的预测结果通过某种方式(通常采用投票)组合起来,以对新样本进行分类。提升法是一种分类器集成方法,它利用从数据的迭代更新分布中抽取的实例生成一组弱分类器,在每次迭代中,被正确分类样本的概率增加,而被错误分类样本的概率减少。该集成分类器由生成的一系列分类器进行加权多数投票得到。
AdaBoost算法[14]在一系列轮次 t 1⁄4 1 , . . . , T 中反复训练弱学习或基础学习算法。给定一个训练集{xi, yi}i¼ 1,.., n,其中 xi属于某个域 X,yi2 Y 1⁄4 {1,+1}(对应的二分类标签),我们用 Dt(i) 表示第 i 个样本在第 t 轮的权重。初始时,所有权重相等,因此 D1 ið Þ 1⁄4 1 n,8i。在每一轮 t 中,使用当前分布 Dt训练一个弱学习器。当我们得到一个错误率为 Et 1⁄4 PriDt ht xið Þ 61⁄4 yi.],的弱假设 ht时,若 Et> 1/2,则结束训练;否则,设置 αt1⁄ 4 1 2 ln 1Et t E,并更新 Dt+ 1为
Dtþ1 ið Þ 1⁄4 Dt ið Þ Zt e α t i t i α t t i 6 ifhxð Þ 1⁄4 yi eifhxð Þ 1⁄4 y,其中 Zt 是一个归一化因子。
最终假设由 H xð Þ 1⁄4 sign XT t1⁄41 αt ht xð Þ ! 给出。
支持向量机
支持向量机 (SVM)[15]是最著名的通用学习算法之一。支持向量机的目标是生成一个模型,该模型可根据特征属性向量预测测试集中数据实例的目标值。它试图最大化各类别支持向量之间的分类间隔,并在数据非线性可分时最小化错误率。支持向量机分类器通常在高维空间中表现良好,能够避免过拟合,并具有良好的泛化能力。在我们的工作中,我们采用了序列最小优化 (SMO)算法[16],,该算法为求解支持向量机优化问题的对偶问题提供了一种高效的方法。
多层感知器网络
多层感知器(MLP)网络[17]是一种前馈神经网络,其输入和输出节点之间包含一个或多个隐藏层。神经网络具有学习复杂数据结构和逼近任意连续映射的能力[18]。网络中每个神经元的模型包含一个可微的非线性激活函数,例如sigmoid函数。每个单元对其输入进行带偏置的加权求和,并将该激活水平通过传递函数传递以产生输出,其表达式为
φ ðx Þ ¼f wTx þ θ ;
其中,w 是突触向量,x 是输入向量, θ 是偏置常数,T 是转置算子。对于 K类分类,多层感知机 使用反向传播 来实现非线性判别函数。该模型有 K 个输出,以 软最大函数 作为输出非线性函数。
5.3.3 瘀点识别
瘀点是舌头上颜色不确定的小点。可以通过比较瘀点与周围区域的颜色来检测瘀点,因为瘀点通常比其周围的区域颜色更深。因此,可以使用高通滤波提取舌头表面的瘀点。在图像处理领域有许多类型的高通滤波器。本研究采用高斯差分(DoG)滤波器来检测舌头上的瘀点。高斯核广为人知,是一种可作为卷积核实现的平滑核。图5.3显示了一个核大小21乘21的高斯差分核。
图5.4显示了检测到的瘀点。
5.3.4 瘀点几何特征提取
在从舌头上提取瘀点后,下一步是将瘀点表示为几何特征向量以供使用
原始舌像 和 (b) 瘀点提取结果)
分类模型。我们考虑三个标准:大小、大小比例和分布失真标准。
大小标准
包含七个子特征,如下所示:
1. 点数特征:通过计算舌头上存在的瘀点数量得到。
2. 累积点面积特征:指舌面上发现瘀点的区域总面积(以像素为单位)。
3. 平均斑点大小特征:指瘀点的平均大小(以像素为单位)。
4. 中位斑点大小特征:指瘀点大小的中位数(以像素为单位)。
5. 众数斑点大小特征:指瘀点大小的众数(以像素为单位)。
6. 斑点大小标准差特征:指斑点大小的标准差。
7. 最大斑点大小:指舌头上的最大斑点。
大小比例标准特征
表示与舌面面积相关且具有尺度不变性的特征。共有六个子特征,描述如下:
1. 累积点面积比率:这是指累积点面积特征与舌面面积之间的比例。
2. 平均斑点大小比率:这是指平均斑点大小特征与舌面面积之间的比例。
3. 中位斑点大小比率:这是指中位斑点大小特征与舌面面积之间的比例。
4. 模式斑点大小比:这是指众数斑点大小特征与舌面面积之间的比例。
5. 斑点大小标准差特征比:这是指斑点大小标准差特征与舌面面积之间的比例。
6. 最大斑点大小比:这是指最大斑点大小特征与舌面面积之间的比例。
分布失真准则
用于识别质心点和瘀点中点变换相对于舌头质心的距离和方向。有三个含义相似的术语。第一个是质心,指的是舌区所有像素的平均值所计算出的舌头中心点。第二个是质心点,表示属于瘀点的所有像素取平均后的中心位置。第三个是中点,表示所有瘀点像素的中位数点。失真准则包含四个子特征:
1. 质心失真方向:这是从质心点到质心的向量与水平线之间的夹角。
2. 中点失真方向:这是从中点到质心的向量与水平线之间的夹角。
3. 质心失真距离:这是质心点与质心之间的距离。
4. 中点失真距离:这是中点与质心之间的距离。
5.3.5 数据集标注与预处理
我们提出的系统依赖于一个标注数据集,以有效构建基于舌象的自动证型分类系统。我们的数据集包含263名胃炎患者的舌象图像以及48名健康志愿者的对照组。本研究的数据采集已获得人体伦理委员会(清华大学,中国北京)批准,并取得了患者的知情同意。大多数胃炎患者被中医医生根据其舌苔颜色(黄色或白色)归类为寒证或热证,并据此赋予颜色标签。此外,医生还通过临床评估为每位患者进行了详细的证候症状特征分析。主要症状特征术语列表总结于表5.1。
我们也关注中医诊断与西医诊断之间的关系;因此,对于部分患者,我们获得了相应的西医胃炎病理信息。这些信息被分为两类:浅表性与萎缩性。在西医中,医生还希望了解慢性胃炎患者胃内是否存在幽门螺杆菌( Helicobacter pylori,HP)细菌,即检测结果为阳性或阴性。因此,我们也获得了部分患者的该项信息。
无法获取每位患者收集的所有不同信息。表5.2总结了四个不同标签(证、舌苔、病理和HP)下各子集的人群情况。
| 受试者 | |
|---|---|
| 与寒证相关 症状 | 寒(发冷、畏寒),喜热饮食,喜温暖环境 环境,面色苍白,不口渴,无口臭,无 酸性唾液、清尿、稀便、音调高而短促的声音,以及 四肢发冷 |
| 热证相关 症状 | 发热(热、上火),喜寒凉饮食,喜冷环境 面红、口渴、明显的口臭、酸性唾液 黄尿、硬便、便秘以及四肢发热感 |
关键词
| 人群 | |
|---|---|
| 证型:寒/热 | 132/68 |
| 舌苔:黄/白 | 147/67 |
| 病理:浅表性/萎缩性 | 84/144 |
| 幽门螺杆菌:阳性/阴性 | 72/167 |
| ## 5.4 结果与分析 |
5.4.1 实验设置
在本节中,我们使用第5.3节所述的三种分类模型(AdaBoost、SVM和 MLP)评估了所提出的证候类别分类系统的性能。我们比较了使用从整舌图像提取的特征集与仅从中部舌区提取的特征集来训练分类器模型的性能。如第5.2节所述,在中医理论中,认为舌中部区域可为诊断胃部疾病提供判别信息。因此,我们从中部舌区提取特征(如图5.1b所示),以评估其相对于从全舌区域提取特征的性能表现。在分类模型的训练与测试过程中,我们采用三折交叉验证策略,即将数据分为三组,其中一组用于测试,其余两组用于训练,并轮流使用每组进行三次实验。最终以三组测试结果的平均准确率作为性能评价指标。对于每个分类模型,我们调整其参数以优化性能。同时,我们还比较了使用五种不同形式的特征向量(均值 = μ~F、中位数 = med~F、标准差 = σ~F、均值与标准差 = μ~ + σ~F;F,以及中位数与标准差 = med~ + σ~F;F)。我们还对特征向量应用信息增益属性评估,以量化并排序各个特征的重要性。最后,我们采用最佳优先特征选择算法,在训练分类器之前选择“显著”特征,从而比较使用完整特征集与选定特征训练分类器的性能。
使用的性能指标包括平均F值、精确率=TP/(TP+FP)和召回率=TP/(TP+FN),其中
TP(真阳性):系统正确预测的阳性样本数量
TN(真阴性):系统正确预测的阴性样本数量
FP(假阳性):系统对阳性样本的误检数量
FN(假阴性):系统漏检的实际阳性数量
F值定义为
F-measure = 2 ∙ Recall ∙ Precision / (Recall + Precision)
5.4.2 基于舌苔和证的胃炎患者分类结果
本节展示的实验结果分析了基于胃炎患者的舌苔颜色和证类别的区分情况。表5.3总结了使用我们提出的颜色空间特征向量训练分类器,以自动分类胃炎患者舌头舌苔为黄色或白色的结果。从表5.3中可以看出,中位数和标准差特征值的组合(med~ + σ~F;F)对全舌区域和仅舌中部区域均取得了最佳结果,且两个区域的结果具有可比性。
| 特征向量 | 全舌 | 舌中部 | ||||
|---|---|---|---|---|---|---|
| F值 | CA | F值 | CA | F值 | CA | |
| AdaBoost | 0.681 | 69.16 | 0.761 | 77.57 | 0.761 | 77.57 |
| SVM | 0.757 | 76.64 | 0.796 | 80.84 | 0.796 | 80.84 |
| MLP | 0.752 | 76.17 | 0.773 | 78.04 | 0.773 | 78.04 |
| { , } | 0.743 | 74.77 | 0.764 | 76.64 | 0.764 | 76.64 |
| { , } | 0.792 | 79.44 | 0.799 | 80.37 | 0.799 | 80.37 |
| { , } | 0.774 | 77.57 | 0.767 | 77.10 | 0.767 | 77.10 |
| { , } | 0.763 | 76.64 | 0.781 | 78.50 | 0.781 | 78.50 |
| { , } | 0.801 | 80.37 | 0.775 | 77.10 | 0.775 | 77.10 |
| { , } | 0.767 | 77.10 | 0.811 | 81.31 | 0.811 | 81.31 |
| { , } | 0.747 | 75.70 | 0.747 | 74.77 | 0.747 | 74.77 |
| { , } | 0.797 | 79.91 | 0.777 | 77.57 | 0.777 | 77.57 |
| { , } | 0.783 | 78.50 | 0.783 | 78.97 | 0.783 | 78.97 |
当使用全舌区域时,根据信息增益属性排序,用于舌苔颜色分类的前三项显著特征为{σF9, medF12, σF2},分别表示Q色度(YIQ模型)的标准差、Cr分量(YCbCr)的中位数以及绿色通道(RGB)的标准差。仅使用舌中部区域时,前三项显著特征为{σF9, σF20, medF4},分别表示Q色度(YIQ模型)的标准差、u分量(L*u*v*)的标准差以及色调(HSV)的中位数。此外,值得注意的是,在使用整个区域与舌中部区域的前十项显著特征中,两者有六项特征是相同的。
寒热组间证型分类的结果如表5.4所示。在证型分类中,使用标准差特征值(σ~F)在处理全舌区域时表现最佳,而med~ + σ~F;F特征向量仅在舌中部区域表现最优。
| 向特量征 | 全舌 | 舌中部 | ||||
|---|---|---|---|---|---|---|
| F值 | CA | F值 | CA | F值 | CA | |
| AdaBoost | 0.618 | 63.50 | 0.622 | 63.50 | 0.622 | 63.50 |
| SVM | 0.716 | 71.50 | 0.710 | 70.50 | 0.710 | 70.50 |
| MLP | 0.710 | 71.00 | 0.663 | 67.00 | 0.663 | 67.00 |
| { , } | 0.750 | 75.00 | 0.664 | 68.00 | 0.664 | 68.00 |
| { , } | 0.680 | 67.50 | 0.735 | 73.50 | 0.735 | 73.50 |
| { , } | 0.723 | 72.00 | 0.740 | 74.00 | 0.740 | 74.00 |
| { , } | 0.647 | 65.50 | 0.684 | 71.00 | 0.684 | 71.00 |
| { , } | 0.649 | 64.50 | 0.661 | 67.00 | 0.661 | 67.00 |
| { , } | 0.676 | 68.00 | 0.690 | 69.00 | 0.690 | 69.00 |
| { , } | 0.738 | 74.50 | 0.685 | 70.00 | 0.685 | 70.00 |
| { , } | 0.665 | 66.00 | 0.708 | 72.00 | 0.708 | 72.00 |
| { , } | 0.726 | 72.50 | 0.761 | 76.00 | 0.761 | 76.00 |
| { , } | 0.763 | 76.50 | 0.709 | 71.00 | 0.709 | 71.00 |
| { , } | 0.709 | 71.00 | 0.719 | 72.00 | 0.719 | 72.00 |
对于胃炎患者寒热证候的证型分类,当使用全舌区域时,仅有一个特征被信息增益属性认为具有显著性:σF9,即Q色度(YIQ模型)的标准差。对于舌中部区域,最重要的特征是σF20,u分量(L*u*v*)的标准差。尽管全舌区域和舌中部区域中显著的特征不同,但YIQ颜色空间中的Q分量和L*u*v*颜色空间中的u分量均在色度图上表现出从绿色到红色的差异。
表5.5总结了当我们使用颜色特征向量训练不同分类器以检测胃炎患者体内幽门螺杆菌存在时所获得的结果。学习患者病理组(浅表性与萎缩性)的分类结果如表5.6所示。这两种情况的相关性都不强,说明西医诊断与中医医师所使用的舌头信息之间相关性较弱。在这两种情况下均未发现显著特征。
| 特征向量 | 全舌 | 舌中部 | ||||
|---|---|---|---|---|---|---|
| F值 | 分类准确率 | F值 | CA | F值 | CA | |
| AdaBoost | 0.679 | 71.97 | 0.696 | 71.97 | 0.696 | 71.97 |
| SVM | 0.681 | 68.20 | 0.686 | 70.29 | 0.686 | 70.29 |
| MLP | 0.673 | 68.20 | 0.682 | 70.29 | 0.682 | 70.29 |
| { , } | 0.644 | 66.11 | 0.632 | 64.85 | 0.632 | 64.85 |
| { , } | 0.680 | 67.78 | 0.681 | 68.20 | 0.681 | 68.20 |
| { , } | 0.713 | 71.97 | 0.681 | 67.78 | 0.681 | 67.78 |
| { , } | 0.655 | 67.78 | 0.699 | 71.55 | 0.699 | 71.55 |
| { , } | 0.666 | 67.36 | 0.644 | 69.04 | 0.644 | 69.04 |
| { , } | 0.666 | 67.78 | 0.676 | 68.20 | 0.676 | 68.20 |
| { , } | 0.655 | 67.78 | 0.633 | 65.27 | 0.633 | 65.27 |
| { , } | 0.686 | 68.20 | 0.631 | 64.44 | 0.631 | 64.44 |
| { , } | 0.695 | 69.87 | 0.684 | 68.20 | 0.684 | 68.20 |
| { , } | 0.661 | 68.20 | 0.594 | 61.09 | 0.594 | 61.09 |
| { , } | 0.669 | 66.95 | 0.669 | 66.95 | 0.669 | 66.95 |
| { , } | 0.649 | 65.27 | 0.649 | 65.27 | 0.649 | 65.27 |
| 特征向量 | 全舌 | 舌中部 | ||||
|---|---|---|---|---|---|---|
| F值 | CA | F值 | CA | F值 | CA | |
| AdaBoost | 0.604 | 63.16 | 0.658 | 66.67 | 0.658 | 66.67 |
| SVM | 0.642 | 64.47 | 0.631 | 63.16 | 0.631 | 63.16 |
| MLP | 0.627 | 63.16 | 0.622 | 62.72 | 0.622 | 62.72 |
| { , } | 0.633 | 65.35 | 0.604 | 61.40 | 0.604 | 61.40 |
| { , } | 0.662 | 65.79 | 0.630 | 63.60 | 0.630 | 63.60 |
| { , } | 0.702 | 71.05 | 0.621 | 62.28 | 0.621 | 62.28 |
| { , } | 0.633 | 64.47 | 0.623 | 65.79 | 0.623 | 65.79 |
| { , } | 0.601 | 62.72 | 0.632 | 63.16 | 0.632 | 63.16 |
| { , } | 0.640 | 64.04 | 0.623 | 62.28 | 0.623 | 62.28 |
| { , } | 0.657 | 66.23 | 0.613 | 62.72 | 0.613 | 62.72 |
| { , } | 0.660 | 65.79 | 0.645 | 64.47 | 0.645 | 64.47 |
| { , } | 0.697 | 69.74 | 0.663 | 66.23 | 0.663 | 66.23 |
| { , } | 0.637 | 64.91 | 0.631 | 64.04 | 0.631 | 64.04 |
| { , } | 0.697 | 70.18 | 0.629 | 63.16 | 0.629 | 63.16 |
| { , } | 0.659 | 66.23 | 0.639 | 64.47 | 0.639 | 64.47 |
表5.7总结了使用我们提出的颜色空间特征向量训练分类器,以自动对标注为寒证的患者进行浅表组与萎缩组分类的结果。热证患者在浅表组与萎缩组之间的分类结果如表5.8所示。从表5.7可以看出,对于全舌区域,σ~F特征向量表现最佳,而对舌中部区域,med~ + σ~F;F特征向量取得了最好的结果。
| 向特量征 | 全舌 | 舌中部 | ||||
|---|---|---|---|---|---|---|
| F值 | CA | F值 | CA | F值 | CA | |
| AdaBoost | 0.579 | 58.33 | 0.651 | 65.00 | 0.651 | 65.00 |
| SVM | 0.658 | 66.67 | 0.639 | 65.00 | 0.639 | 65.00 |
| MLP | 0.633 | 63.33 | 0.633 | 63.33 | 0.633 | 63.33 |
| { , } | 0.716 | 71.67 | 0.643 | 65.00 | 0.643 | 65.00 |
| { , } | 0.647 | 65.00 | 0.649 | 65.00 | 0.649 | 65.00 |
| { , } | 0.680 | 68.33 | 0.662 | 66.67 | 0.662 | 66.67 |
| { , } | 0.600 | 60.00 | 0.633 | 63.33 | 0.633 | 63.33 |
| { , } | 0.714 | 71.67 | 0.613 | 66.67 | 0.613 | 66.67 |
| { , } | 0.733 | 73.33 | 0.633 | 63.33 | 0.633 | 63.33 |
| { , } | 0.717 | 71.67 | 0.684 | 68.33 | 0.684 | 68.33 |
| { , } | 0.698 | 70.00 | 0.598 | 60.00 | 0.598 | 60.00 |
| { , } | 0.700 | 70.00 | 0.667 | 66.67 | 0.667 | 66.67 |
| { , } | 0.701 | 70.00 | 0.579 | 58.33 | 0.579 | 58.33 |
| { , } | 0.761 | 76.67 | 0.598 | 60.00 | 0.598 | 60.00 |
| { , } | 0.745 | 75.00 | 0.601 | 60.00 | 0.601 | 60.00 |
同样,表5.8显示,对于热证患者,在舌中部区域,med~ + σ~F;F特征向量表现最佳。然而,μ~ + σ~F;F特征向量在处理全舌区域时表现最好。当使用全舌区域时,寒证中浅表性和萎缩性的病理分类中,按信息增益属性排序的前三项显著特征为{σF9, σF6, σF1},分别表示Q色度(YIQ模型)的标准差、明度分量(HSV)的标准差和红色通道(RGB)的标准差。在表5.8中,当使用全舌区域时,热证中浅表性和萎缩性的病理分类中,按信息增益属性排序的前三项显著特征为{μF22, μF25, μF3},分别表示青色油墨(CMYK模型)的均值、黑色油墨(CMYK模型)的均值和蓝色通道(RGB)的均值。仅针对舌中部区域,前三项显著特征为{σF22, σF25, medF25},分别表示青色油墨(CMYK模型)的标准差、黑色油墨(CMYK模型)的标准差以及黑色油墨(CMYK模型)的中位数。
| 特征向量 | 全舌 | 舌中部 | ||||
|---|---|---|---|---|---|---|
| F值 | CA | F值 | CA | F值 | CA | |
| AdaBoost | 0.768 | 77.06 | 0.710 | 71.56 | 0.710 | 71.56 |
| SVM | 0.755 | 75.23 | 0.735 | 76.15 | 0.735 | 76.15 |
| MLP | 0.735 | 73.39 | 0.680 | 67.89 | 0.680 | 67.89 |
| { , } | 0.741 | 74.31 | 0.680 | 68.81 | 0.680 | 68.81 |
| { , } | 0.845 | 84.40 | 0.777 | 77.06 | 0.777 | 77.06 |
| { , } | 0.764 | 76.15 | 0.780 | 77.98 | 0.780 | 77.98 |
| { , } | 0.718 | 72.48 | 0.686 | 68.81 | 0.686 | 68.81 |
| { , } | 0.708 | 72.48 | 0.706 | 70.64 | 0.706 | 70.64 |
| { , } | 0.718 | 71.56 | 0.736 | 73.39 | 0.736 | 73.39 |
| { , } | 0.715 | 71.56 | 0.672 | 67.89 | 0.672 | 67.89 |
| { , } | 0.817 | 81.65 | 0.774 | 77.06 | 0.774 | 77.06 |
| { , } | 0.815 | 81.65 | 0.808 | 80.73 | 0.808 | 80.73 |
| { , } | 0.770 | 77.06 | 0.675 | 67.89 | 0.675 | 67.89 |
| { , } | 0.818 | 81.65 | 0.792 | 78.90 | 0.792 | 78.90 |
| { , } | 0.817 | 81.65 | 0.781 | 77.98 | 0.781 | 77.98 |
下一组实验结果重点在于使用我们提出的颜色空间特征向量来训练分类器,以区分每个病理组中的热证与寒证。表5.9总结了针对浅表性胃炎患者训练分类器以自动分类寒热证所获得的结果。表5.10反映了胃炎患者的结果。从表5.9中可以看出,对于全舌区域和舌中部区域,μ~ + σ~F;F以及med~ + σ~F;F特征向量的表现均最佳。从表5.10的结果来看,在处理全舌区域时,σ~F特征向量(σ~F)表现最好,而(μ~ + σ~F;F)特征向量在舌中部区域表现最优。
| 向特量征 | 全舌 | 舌中部 | ||||
|---|---|---|---|---|---|---|
| F值 | CA | F值 | CA | F值 | CA | |
| AdaBoost | 0.583 | 59.68 | 0.705 | 70.97 | 0.705 | 70.97 |
| SVM | 0.773 | 77.42 | 0.773 | 77.42 | 0.773 | 77.42 |
| MLP | 0.705 | 70.97 | 0.726 | 72.58 | 0.726 | 72.58 |
| { , } | 0.740 | 74.19 | 0.690 | 69.35 | 0.690 | 69.35 |
| { , } | 0.839 | 83.87 | 0.839 | 83.87 | 0.839 | 83.87 |
| { , } | 0.765 | 77.42 | 0.757 | 75.81 | 0.757 | 75.81 |
| { , } | 0.628 | 62.90 | 0.675 | 67.74 | 0.675 | 67.74 |
| { , } | 0.740 | 74.19 | 0.710 | 70.97 | 0.710 | 70.97 |
| { , } | 0.743 | 74.19 | 0.658 | 66.13 | 0.658 | 66.13 |
| { , } | 0.774 | 77.42 | 0.774 | 77.42 | 0.774 | 77.42 |
| { , } | 0.839 | 83.87 | 0.839 | 83.87 | 0.839 | 83.87 |
| { , } | 0.755 | 75.81 | 0.774 | 77.42 | 0.774 | 77.42 |
| { , } | 0.834 | 83.87 | 0.819 | 82.26 | 0.819 | 82.26 |
| { , } | 0.757 | 75.81 | 0.791 | 79.03 | 0.791 | 79.03 |
| { , } | 0.838 | 83.87 | 0.750 | 75.81 | 0.750 | 75.81 |
| 特征向量 | 全舌 | 舌中部 | ||||
|---|---|---|---|---|---|---|
| F值 | CA | F值 | CA | F值 | CA | |
| AdaBoost | 0.539 | 55.14 | 0.572 | 58.88 | 0.572 | 58.88 |
| SVM | 0.642 | 63.55 | 0.762 | 75.70 | 0.762 | 75.70 |
| MLP | 0.645 | 64.49 | 0.615 | 61.68 | 0.615 | 61.68 |
| { , } | 0.662 | 67.29 | 0.638 | 64.49 | 0.638 | 64.49 |
| { , } | 0.681 | 69.16 | 0.702 | 69.16 | 0.702 | 69.16 |
| { , } | 0.698 | 70.09 | 0.685 | 68.22 | 0.685 | 68.22 |
| { , } | 0.612 | 61.68 | 0.611 | 62.62 | 0.611 | 62.62 |
| { , } | 0.646 | 63.55 | 0.606 | 62.62 | 0.606 | 62.62 |
| { , } | 0.666 | 66.36 | 0.638 | 64.49 | 0.638 | 64.49 |
| { , } | 0.704 | 71.03 | 0.604 | 60.75 | 0.604 | 60.75 |
| { , } | 0.657 | 64.49 | 0.701 | 69.16 | 0.701 | 69.16 |
| { , } | 0.677 | 68.22 | 0.703 | 70.09 | 0.703 | 70.09 |
| { , } | 0.696 | 70.09 | 0.650 | 64.49 | 0.650 | 64.49 |
| { , } | 0.691 | 68.22 | 0.675 | 66.36 | 0.675 | 66.36 |
| { , } | 0.734 | 73.83 | 0.645 | 63.55 | 0.645 | 63.55 |
当使用全舌区域时,根据信息增益属性排序,在表证患者中区分热证与寒证的证型分类前三项显著特征为{σF9, medF3, medF18},分别表示Q色度(YIQ模型)的标准差、蓝色通道(RGB)的中位数以及蓝色敏感Z分量的中位数。分别地,仅针对舌中部区域,前三项显著特征为medF24、σF19,和medF5,它们表示黄色油墨(CMYK)的中位数、Luv模型中亮度分量的标准差以及HSV中饱和度的中位数。有趣的是,通过比较使用整个区域与使用舌中部区域所得出的前五项显著特征集合,可以发现两者均包含黄色油墨(CMYK)这一特征。
当使用全舌区域时,在萎缩患者的热证与寒证的证型分类中,仅有一个显著特征差异,该特征按信息增益属性排序为σF9,,表示Q色度(YIQ模型)的标准差。仅使用舌中部区域时,存在两个显著特征:{μF19, μF3},分别表示蓝色敏感Z分量(XYZ)的均值和蓝色通道(RGB)的均值。
5.4.3 胃炎患者与对照组的分类结果
本节展示的实验结果分析了胃炎患者与对照组之间的区分情况。表5.11总结了使用我们提出的颜色空间特征向量训练分类器,以自动区分有舌苔的患者与正常舌象(无舌苔)健康患者的分类结果。从表5.11中可以看出,med~ + σ~F;F特征向量在全舌区域取得了最佳结果,而在舌中部区域表现最好的是σ~F特征向量。
| 向特量征 | 全舌 | 舌中部 | ||||
|---|---|---|---|---|---|---|
| F值 | CA | F值 | CA | F值 | CA | |
| AdaBoost | 0.803 | 82.82 | 0.771 | 78.63 | 0.771 | 78.63 |
| SVM | 0.831 | 82.44 | 0.774 | 77.48 | 0.774 | 77.48 |
| MLP | 0.795 | 80.53 | 0.764 | 75.95 | 0.764 | 75.95 |
| { , } | 0.829 | 83.59 | 0.812 | 81.68 | 0.812 | 81.68 |
| { , } | 0.851 | 85.11 | 0.814 | 81.68 | 0.814 | 81.68 |
| { , } | 0.848 | 85.50 | 0.816 | 82.44 | 0.816 | 82.44 |
| { , } | 0.814 | 83.21 | 0.817 | 83.59 | 0.817 | 83.59 |
| { , } | 0.8 |
9

被折叠的 条评论
为什么被折叠?



