一、无指导聚类
1. 选择算法
这里我们选择ESX,他具有三层结构,能够适应无指导和有指导的数据挖掘分析。
2. 设置instance similarity相似指数
越趋近于0,实例所能举出来的类就愈少。通过这个参数的控制我们能够得到想要数量的类。另一个参数real-valuedtolerance还不太清楚其中的含义。
3. 观察类数
设定参数后会出现聚类所得的类的个数,我们可以作为参考。不合适我们可以重新设置参数。
4. 数据挖掘过程
其中的算法不可见。
5. 规则产生器,能够产生相关的规则。
Minimum correctness value是指设置准确率下限,例如:准确率表示符合(Income Range = "30-40,000",则为Class 2)的概率为100%。(符合条件和结论的事件数/符合条件的事件数)
Minimum rule coverage是指覆盖率下限,例如:覆盖率是指符合Income Range = "30-40,000"的实例在Class2中有4条,Class2有5条实例,所以,覆盖率为80%。(符合条件和结论的事件数/事件总数)
Attribute significance 是选择具有较高的Predictiveness的属性进行规则生成。一般会先设置一个比较高的值,如果没有理想的结果,就放宽条件。
Scope:
1) all rules
2) covering set rules 覆盖集规则 为什么只出现了关于Income Range的规则,而没有其他 Instancesource
1) all class instance