医疗管理中的预测分析技术
1. 基于遗传算法的模式挖掘
1.1 支持度与频繁模式
在数据库 D 的序列中,包含序列 s 的元组数量被称为 s 的支持度,记为 su(s)。用户定义一个值 α,支持度大于该值的挖掘模式被称为频繁单长度模式。对于更长长度的模式挖掘,则采用遗传算法(GA)进行优化。
1.2 遗传算法模式挖掘步骤
1.2.1 染色体生成
染色体基于初始种群随机生成。生成的染色体在单长度模式中较为频繁,每个染色体的位置代表一个基因。染色体的表示形式为:
[C_j = {i_1, l_i, i_x}; 0\leq j\leq n_c - 1]
其中,基因值 (i_x) 表示频繁项的单长度模式值,(l_i) 表示语言术语。以单长度频繁模式 ({c, d, e}) 为例,生成的染色体如下表所示:
| 样本染色体 |
| — |
| c short d |
| c short e |
| d short e |
| c long d |
| c long e |
| d long e |
| c middle d |
| c middle e |
| d middle e |
1.2.2 适应度函数
在生成染色体阶段,对每个生成的染色体计算适应度函数,以选择最佳染色体。适应度函数定义为:
[f_{c_j} = su(c_j)]
选择满足 (Su(c_j) > \alpha) 的 (n_c/2) 个最佳染色体,用于后续的交叉和变异操作。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



