21、跨不同应用领域的规则归纳算法进化研究

最新推荐文章于 2025-08-22 03:49:06 发布

perl8

最新推荐文章于 2025-08-22 03:49:06 发布

阅读量29

点赞数

CC 4.0 BY-SA版权

分类专栏：自动化设计数据挖掘算法：遗传编程的新纪元文章标签：规则归纳算法 GGP系统多目标优化

本文链接：https://blog.youkuaiyun.com/perl8/article/details/150596392

自动化设计数据挖掘算法：遗传编程的新纪元专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

跨不同应用领域的规则归纳算法进化研究

1. 多数据集训练下的预测准确率比较

在使用14个数据集训练系统时，不同规则归纳算法在元测试集上的预测准确率有所不同。以下是具体数据：
| 数据集 | GGP - RIs | OrdCN2 | UnordCN2 | Ripper | C45Rules |
| — | — | — | — | — | — |
| crx | 80.81±1.14 | 80.16 ± 1.27 | 80.6 ± 0.93 | 84.37 ± 1.21 | 84.82 ± 1.53 |
| mushroom | 100±0 | 100 ± 0 | 100 ± 0 | 99.96 ± 0.04 | 98.8 ± 0.06 |
| promoters | 81.72±3.3 | 81.9 ± 4.65 | 74.72 ± 4.86 | 78.18 ± 3.62 | 83.74 ± 3.46 |
| segment | 95.21±0.43 | 95.38 ± 0.28 | 85.26 ± 0.87 | 95.44 ± 0.32 | 88.16 ± 7.72 |
| sonar | 71.94±1.46 | 70.42 ± 2.66 | 72.42 ± 1.4 | 72.88 ± 4.83 | 72.4 ± 2.68 |
| splice | 89.33±0.38 | 90.32 ± 0.74 | 74.82 ± 2.94 | 93.88 ± 0.41 | 89.66 ± 0.78 |

使用较少数据集在元训练集中生成的规则归纳算法可能更简单，这些简单算法似乎更具鲁棒性，在不同类型的数据上表现更好。

2. GGP系统的语法变体实验

GGP系统对其参数值的变化不太敏感，但语法的改变可能会完全改变系统生成的规则归纳算法。为了评估语法变化的影响，进行了以下三种实验：
- 移除“新组件” ：从语法中移除所有“新组件”，如innerIf、MakeFirstRule、typicalExample和Remove2。
- 移除复杂剪枝符号 ：移除负责复杂剪枝技术的符号PostProcess和PrePruneRule，但保留非终结符StoppingCriterion提供的简单剪枝方式。
- 强制生成自底向上算法 ：修改语法，移除emptyRule和MakeFirstRule，迫使系统仅生成自底向上的规则归纳算法。

所有实验均使用20个数据集，GGP系统的参数设置为：种群大小100，进化30代，锦标赛大小2，交叉率0.7，变异率0.25，繁殖率0.05。以下是不同语法版本下GGP - RIs在元测试集上的预测准确率：
| 数据集 | 原始语法 | 基本语法 | 无剪枝语法 | 自底向上语法 |
| — | — | — | — | — |
| crx | 77.46±3.8 | 80.19±1.11 | 80.14±0.73 | 81.33±1.14 |
| heart - c | 76.72±1.5 | 76.44±1.53 | 77.37±1.39 | 75.3±0.96 |
| ionosphere | 87.04±2.2 | 85.72±1.81 | 86.06±2.18 | 84.85±1.6 |
| monks - 1 | 99.93±0.07 | 100±0 | 100±0 | 100±0 |
| mushroom | 99.98±0.02 | 100±0 | 99.9±0.02 | 99.79±0.1 |
| promoters | 78.98±2.93 | 80.16±1.22 | 74.71±0.76 | 52.11±1.96 |
| segment | 95.06±0.26 | 95.95±0.19 | 94.32±0.24 | 88.47±1.2 |
| sonar | 72.34±1.91 | 76.38±3.04 | 74.45±2.64 | 60.86±0.85 |
| splice | 88.68±0.31 | 90.08±0.44 | 82.85±0.44 | 50.72±0.49 |
| wisconsin | 95.58±0.74 | 94.61±0.51 | 94.14±0.44 | 91.18±0.55 |

从结果来看，基本语法版本在segment和splice数据集上的准确率显著高于原始语法版本，可能是因为基本语法生成的算法更简单。无剪枝语法在mushroom和splice数据集上的结果显著差于原始语法。自底向上语法在一半的数据集上结果显著差于原始语法，在另一半数据集上具有竞争力。

3. GGP与基于语法的爬山搜索比较

为了确定GGP系统是否是自动搜索规则归纳算法的好方法，实现了基于语法的爬山搜索（GHC）方法。GHC方法的核心思想是随机生成一个解决方案，评估后进行修改，如果新方案更好则替换原方案，否则继续修改原方案，直到评估完最大数量的解决方案。

GGP和GHC系统使用相同的语法、个体表示和适应度函数，评估相同数量的候选规则归纳算法。但二者存在以下区别：
- GGP系统处理候选解决方案的种群，而GHC系统一次只处理一个候选解决方案。
- GGP系统在修改个体前进行选择过程，GHC系统采用“精英”策略，仅保留最佳候选解决方案。
- GGP系统通过交叉和变异创建新解决方案，GHC系统仅使用变异。

以下是GGP - RIs和GHC - RIs在元测试集上的预测准确率比较：
| 数据集 | GGP - RIs | GHC - RIs |
| — | — | — |
| crx | 77.46±3.8 | 82.66±1.14 |
| heart - c | 76.72±1.5 | 78.75±1.03 |
| ionosphere | 87.04±2.2 | 84.64±1.97 |
| monks - 1 | 99.93±0.07 | 99.82±0.18 |
| mushroom | 99.99±0 | 99.03±0.07 |
| promoters | 78.98±2.93 | 60.26±1.96 |
| segment | 95.06±0.26 | 88.53±1.03 |
| sonar | 72.34±1.91 | 64.92±1.12 |
| splice | 88.68±0.31 | 65.2±0.27 |
| wisconsin | 95.58±0.74 | 93.56±0.56 |

通过配对双尾学生t检验（显著性水平0.01）比较结果，GGP - RIs在十次中有五次显著优于GHC - RIs，且GHC - RIs在promoters和splice数据集上的准确率极低。分析发现，GHC系统生成的部分算法产生无序规则集并进行后处理的策略不太成功。

此外，观察GGP和GHC系统搜索过程中候选规则归纳算法的进化情况，发现由于为避免过拟合，GGP系统每100次评估会改变训练和验证子集，导致适应度值不会随评估次数单调增加。GHC系统在某些点上有比GGP系统更好的解决方案，但可能是因为在同一组数据上多次改进导致过拟合。而且，GHC系统平均只有约3%的变异操作能产生比前一个算法更好的规则归纳算法。

综上所述，GGP系统具有并行搜索和全局搜索的优势，在搜索规则归纳算法方面比GHC系统更有效。

4. MOGGP：改进的多目标GGP系统

自动进化规则归纳算法的一个动机是其生成的分类模型具有简单性和可解释性。之前的实验未考虑进化规则归纳算法生成模型的简单性，因此开发了多目标版本的GGP系统MOGGP，其适应度函数同时考虑规则归纳算法的预测准确率和分类模型中所有规则的条件总数，采用多目标优化和帕累托优势的概念。

MOGGP使用与单目标GGP系统相同的参数值，比较MOGGP - RIs与其他规则归纳算法时，采用考虑统计显著性差异的帕累托优势概念。以下是MOGGP - RIs与GGP - RIs、基线算法在预测准确率和规则条件数量方面的比较：
| 数据集 | MOGGP - RIs（准确率） | MOGGP - RIs（规则大小） | GGP - RIs（准确率） | GGP - RIs（规则大小） |
| — | — | — | — | — |
| crx | 83.33±1.26 | 13.52±0.72 | 77.46±3.8 | 99.4±5.98 |
| segment | 92±0.67 | 25.64±1.22 | 95.06±0.26 | 83.2±6.13 |
| sonar | 68.04±1.74 | 4.6±0.75 | 72.34±1.91 | 20.2±1.32 |
| heart - c | 76.46±1.82 | 7.2±0.9 | 76.72±1.5 | 50.6±2.92 |
| ionosphere | 85.48±1.63 | 7.88±0.62 | 87.04±2.2 | 24.2±1.53 |
| monks - 1 | 99.78±0.22 | 11.64±0.39 | 99.93±0.07 | 13±2.05 |
| mushroom | 99.66±0.22 | 15.16±0.38 | 99.98±0.02 | 15.2±0.58 |
| wisconsin | 92.1±0.71 | 9.68±0.57 | 95.58±0.74 | 48±10.62 |
| promoters | 71.84±5.24 | 3.96±0.38 | 78.98±2.93 | 14.6±2.27 |
| splice | 87.68±0.5 | 42.52±2.3 | 88.68±0.31 | 271.8±12.02 |

数据集	OrdCN2（准确率）	OrdCN2（规则大小）	UnordCN2（准确率）	UnordCN2（规则大小）	C45Rules（准确率）	C45Rules（规则大小）
crx	80.16 ± 1.27	101.4 ± 3.46	80.6 ± 0.93	101.6 ± 2.38	84.82 ± 1.53	34 ± 1.38
segment	95.38 ± 0.28	73.8 ± 1.74	85.26 ± 0.87	102.8 ± 2.15	88.16 ± 7.72	96.8 ± 12.71
sonar	70.42 ± 2.66	19.4 ± 0.87	72.42 ± 1.4	50.2 ± 3.02	72.4 ± 2.68	14.6 ± 4.3
heart - c	77.9 ± 1.96	37.2 ± 1.24	77.54 ± 2.85	70 ± 3.54	74.2 ± 5.43	22 ± 5.63
ionosphere	87.6 ± 2.76	20.2 ± 1.53	90.52 ± 2.03	37 ± 1.84	89.06 ± 2.71	10.2 ± 4.34
monks - 1	100 ± 0	11 ± 0.71	100 ± 0	61 ± 0	100 ± 0	61 ± 0
mushroom	100 ± 0	15.6 ± 0.24	100 ± 0	26 ± 0	98.8 ± 0.06	18.6 ± 2.73
wisconsin	94.58 ± 0.68	32.6 ± 1.36	94.16 ± 0.93	53.8 ± 2.91	95.9 ± 0.56	19.2 ± 0.86
promoters	81.9 ± 4.65	10.4 ± 0.75	74.72 ± 4.86	23.6 ± 1.36	83.74 ± 3.46	10.8 ± 1.02
splice	90.32 ± 0.74	256.2 ± 5.08	74.82 ± 2.94	172.6 ± 9.75	89.66 ± 0.78	119.8 ± 29.68

通过统计显著性帕累托优势分析，MOGGP - RIs与GGP - RIs在十次中有四次呈中性关系。在需要同时考虑准确率和规则模型可解释性的应用场景中，如生物医学和生物信息学领域，MOGGP系统生成的规则归纳算法具有一定优势。

跨不同应用领域的规则归纳算法进化研究

5. 帕累托优势分析及应用场景

在对MOGGP - RIs与GGP - RIs、基线算法的比较中，使用考虑统计显著性差异的帕累托优势概念来判断算法的优劣。以下表格展示了MOGGP - RIs与其他算法在不同关系下的数量：
| 比较对象 | 中性关系数量 | 支配数量 | 被支配数量 |
| — | — | — | — |
| MOGGP - RIs vs GGP - RIs | 4 | 6 | 0 |
| MOGGP - RIs vs 基线算法 | 7 | 23 | 0 |

从表格数据可以看出，MOGGP - RIs在与GGP - RIs和基线算法的比较中，大部分情况下不会被其他算法支配，并且在很多情况下能够支配其他算法。这表明MOGGP - RIs在综合考虑预测准确率和规则条件数量方面具有一定的优势。

在某些应用场景中，分类模型不仅要用于预测，更要被领域专家解读以获取新的见解。例如在生物医学和生物信息学领域，可解释的分类模型具有重要意义。以下是这类应用场景中可解释模型的一些好处：
- 增加用户信心 ：用户能够理解模型的决策过程，从而对系统的结果更有信心。
- 获取新见解 ：有助于专家发现数据中的新规律，形成新的假设。
- 检测数据错误 ：可解释的模型能够帮助发现数据中的异常或错误。

例如，在蛋白质功能预测中，可解释的分类模型能为应用领域提供新的见解；在医学领域，即使预测准确率不是很高，一些分类规则也可能被认为比部分初级医生的知识更准确和新颖。

6. 总结与展望

综合上述研究，我们对规则归纳算法的进化有了更深入的了解。以下是对不同方面的总结：
- 数据集数量影响 ：使用较少数据集在元训练集中生成的规则归纳算法可能更简单，且更具鲁棒性，在不同类型数据上表现更好。
- 语法变体效果 ：GGP系统的语法变体实验表明，简单的语法版本可能在某些数据集上比复杂语法版本更有效，而剪枝和搜索方向的改变会对算法性能产生显著影响。
- 搜索方法比较 ：GGP系统在搜索规则归纳算法方面比基于语法的爬山搜索（GHC）方法更有效，因为GGP系统具有并行搜索和全局搜索的优势。
- 多目标优化优势 ：多目标版本的GGP系统MOGGP在综合考虑预测准确率和规则模型可解释性方面具有优势，适用于需要可解释模型的应用场景。

未来的研究可以从以下几个方向展开：
- 进一步优化参数 ：虽然GGP系统对部分参数变化不太敏感，但仍可探索更优的参数组合，以提高算法性能。
- 拓展语法功能 ：研究如何通过更合理地设计语法，生成更高效、更具适应性的规则归纳算法。
- 结合其他技术 ：考虑将规则归纳算法与其他机器学习技术相结合，以提升整体性能和应用范围。

以下是整个研究过程的mermaid流程图：

graph LR
    A[开始] --> B[数据集训练]
    B --> C[GGP系统语法变体实验]
    C --> D[GGP与GHC搜索方法比较]
    D --> E[MOGGP多目标优化]
    E --> F[帕累托优势分析]
    F --> G[应用场景评估]
    G --> H[总结与展望]
    H --> I[结束]

通过对规则归纳算法的不断研究和改进，我们有望在更多领域中获得更准确、更可解释的分类模型，为实际应用提供更有力的支持。