中医证型关联规则挖掘

本文通过证型系数计算揭示中医证素分布特征,利用Apriori算法进行关联规则挖掘。首先,将连续数据离散化并聚类为4类,然后应用Apriori算法对数据进行分析,探索证型间的关联性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据集链接: https://pan.baidu.com/s/1K_YWnrCHDjl7wXmo29xwwQ 提取码: vv78
为更好反映中医证素分布的特征,采用证型系数代替单证型的证素得分
证型相关系数计算公式:证型系数=该证型得分/该证型总分

由于Apriori关联规则算法无法处理连续型数值变量,故需要对数据进行离散化
进行离散化处理并将每个属性聚成4类

#-*- coding: utf-8 -*-
'''
聚类离散化,最后的result的格式为:
      1           2           3           4
A     0    0.178698    0.257724    0.351843
An  240  356.000000  281.000000   53.000000
即(0, 0.178698]有240个,(0.178698, 0.257724]有356个,依此类推。
'''
from __future__ import print_function
import pandas as pd
from sklearn.cluster import KMeans #导入K均值聚类算法

datafile = 'D:/下载/data/input/data.xls' #待聚类的数据文件
processedfile = 'D:/下载/data/output/data_processed.xls' #数据处理后文件
typelabel ={u'肝气郁结证型系数':'A', u'热毒蕴结证型系数':'B', u'冲任失调证型系数':'C', u'气血两虚证型系数':'D', u'脾胃虚弱证型系数':'E', u'肝肾阴虚证型系数':'F'}
k = 4 #需要进行的聚类类别数

#读取数据并进行聚类分析
data = pd.read_excel(datafile) #读取数据
keys = list(typelabel.keys())
result = pd.DataFrame()

if __name_
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值