一、无指导聚类
1. 选择算法
这里我们选择ESX,他具有三层结构,能够适应无指导和有指导的数据挖掘分析。

2. 设置instance similarity相似指数
越趋近于0,实例所能举出来的类就愈少。通过这个参数的控制我们能够得到想要数量的类。另一个参数real-valuedtolerance还不太清楚其中的含义。

3. 观察类数
设定参数后会出现聚类所得的类的个数,我们可以作为参考。不合适我们可以重新设置参数。

4. 数据挖掘过程
其中的算法不可见。
5. 规则产生器,能够产生相关的规则。
Minimum correctness value是指设置准确率下限,例如:准确率表示符合(Income Range = "30-40,000",则为Class 2)的概率为100%。(符合条件和结论的事件数/符合条件的事件数)
Minimum rule coverage是指覆盖率下限,例如:覆盖率是指符合Income Range = "30-40,000"的实例在Class2中有4条,Class2有5条实例,所以,覆盖率为80%。(符合条件和结论的事件数/事件总数)
Attribute significance 是选择具有较高的Predictiveness的属性进行规则生成。一般会先设置一个比较高的值,如果没有理想的结果,就放宽条件。

Scope:
1) all rules

2) covering set rules 覆盖集规则 为什么只出现了关于Income Range的规则,而没有其他 Instancesource

1) all class instance

这篇博客详细介绍了如何使用EXCEL进行数据挖掘,包括无指导聚类、有指导学习和有指导、无指导的神经网络分析。在无指导聚类中,涉及选择ESX算法、设置相似指数和观察类数等步骤。有指导学习和神经网络分析则关注算法选择、训练实例设置和数据挖掘过程。此外,博客还讨论了各种规则生成器和评估指标。
最低0.47元/天 解锁文章
1928

被折叠的 条评论
为什么被折叠?



