- 背景与挖掘目标
在医学上,癌是指起源于上皮组织的恶性肿瘤,是恶性肿瘤中最常见的一类。相对应的,起源于间叶组织的恶性肿瘤统称为肉瘤。有少数恶性肿瘤不按上述原则命名,如肾母细胞瘤、恶性畸胎瘤等。一般人们所说的“癌症”习惯上泛指所有恶性肿瘤。应用中医药治疗癌症已成为公认的综合治疗的方法之一,并且中医药治疗乳腺癌有着广泛的适应性和独特的优势。大部分情况下,提升患者的免疫力,进一步减少患者在放疗、化疗过程当中的副反应,确定“先证而治”的方向,为后续治疗打下基础。同时减少手术并发症,有效地提高患者的生存治疗,延长患者生存期。
根据已有数据实现以下目标:
- 借助数据,挖掘患者的症状与中医证型之间的关联关系
- 对截断治疗提供依据,挖掘潜性证。
- 分析方法与过程
本文采用问卷调查的方式收集数据,运用数据挖掘技术对搜集的数据进行数据探索与预处理,形成建模数据,采用关联规则算法,挖掘各中医证素与乳腺癌TNM之间的关系。
中医证型关联规则挖掘主要包括以下步骤:
- 以问卷调查的方式对数据进行收集,并将问卷信息整理成原始数据;
- 对原始数据集进行数据预处理,包括数据清洗、属性规约、数据变换;
- 利用数据采用关联规则算法,调整模型输入参数,获取各中医证素与乳腺癌TNM分期之间的关系。
- 对模型结果进行分析,最后输出关联规则结果。

- 数据预处理
在收回的问卷中,存在无效的问卷,为了便于分析,需要对其进行处理。如图8-2所示。

- 属性规约

- 数据变换
由于Apriori关联规则算法无法处理连续型数值变量,为了将原始数据格式转换成合适建模的格式,需要对数据进行离散化。

原始数据集经过数据预处理后,形成建模数据如8-15所示。

- 中医证型关联规则模型
首先设置建模参数最小支持度、最小置信度,输入建模样本数据。然后采用Apriori关联规则算法对建模的样本数据进行分析,通过模型参数设置的最小支持度、最小置信度以及分析目标作为条件,如果所有的规则都不满足条件,则需要重新调整模型参数,否则输出关联规则结果。本文选取的输入参数为:最小支持度为6%、最小置信度75%。


- 模型分析

由表8-16分析可以得到如下结论:
- A4、3→H4支持度最大,达到7.85%,置信度最大,达到87.96%,说明肝气郁结证型系数处于[0.259,0.35]和肝肾阴虚证型系数处于[0.355,0.607]范围内,TNM分期诊断为H4期的可能性为87.96%,而这种情况发生的可能性为7.85%。2) C3、F3→H4支持度为7.53%,置信度为87.50%,说明冲任失调证型系数处于[0.289,0.415]和肝肾阴虚证型系数处于[0.355,0.607]范围内,TNM分期诊断为H4期的可能性为87.50%,而这种情况发生的可能性为7.53%。
- 综合以上分析,TNM分期为H4期的三阴乳腺癌患者证型主要为肝肾阴虚证、热毒蕴结证和肝气郁结证,H4期患者肝肾阴虚证和肝气郁结证的临床表现较为突出,其置信度最大达到87.96%。
- 模型应用
Ⅳ期患者肝肾阴虚证和肝气郁结证的临床表现较为突出,其置信度最大达到了87.96%,且肝肾阴虚证临床表现都存在。所以当Ⅳ期患者出现肝肾阴虚证之表现时,应当选取滋补肝肾、清热解毒类抗癌中药,以滋养肝肾为补,清热解毒为攻,攻补兼施,截断热毒蕴结证的出现,为患者接受进一步治疗争取机会。
- 思考与实验总结
本案例采用聚类的方法进行数据离散化,读者可以自己上机实验其他的离散化方法,如等距、等频、决策树、基于卡方检验等,试比较各个方法的优缺点。
8.拓展思考
利用本文数据,采用Apriori关联规则算法,分析中医证型系数与病程阶段、转移部位和确诊后几年发现转移三个指标的关联分析。

分析中医证型系数与病程阶段、转移部位和确诊后几年发现转移三个指标的关联分析,把“TNM分期”换成对应要关联的数据即可。
该文通过问卷调查收集数据,运用数据挖掘技术,特别是Apriori关联规则算法,研究乳腺癌患者症状与中医证型间的关联,旨在为中医治疗乳腺癌提供依据。挖掘结果显示,肝肾阴虚证和肝气郁结证与TNM分期H4期关联度最高,为临床治疗提供了指导。
1万+

被折叠的 条评论
为什么被折叠?



