规则集的生成方法大致有两种,一种是通过决策树之类的算法派生,就不多说了。另一种通过顺序覆盖的方式直接产生,不过这样就容易产生一个问题,就是同样的数据集因为数据记录处理的次序不同,造成产生的规则集不一致。这是因为每次产生一个规则后,都会删除该规则覆盖的数据元,而且有些规则是可以相互替代的(特别是支持度和置信度都相同的规则,如拥有别墅或具备高档轿车之类的规则前件),即使小的数据集都有可能产生不同的规则。但有趣的是通常不会影响预测的结果,尤其对没有缺失值的数据记录进行预测不会有任何影响。
双机模型数据挖掘软件套件研发心得之飘忽的规则集
最新推荐文章于 2025-08-06 10:51:55 发布
本文探讨了规则集生成方法中的两种途径:决策树算法派生和顺序覆盖方式直接产生。重点分析了顺序覆盖方式下,由于数据记录处理次序的不同,导致规则集可能出现不一致性的问题。同时指出,虽然这种不一致性可能不会直接影响预测结果,尤其是对于无缺失值的数据集而言,但了解这一特性对于数据处理和规则生成有着重要意义。

2827

被折叠的 条评论
为什么被折叠?



