Clementine12.0尝新

本文详细解析了Clementine12.0版本的四大亮点:增强的人机互动功能、自动建模能力、丰富的可视化评估工具及新增的强大算法。通过这些改进,大大提升了数据挖掘效率和用户体验。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一晃眼,从2年前我PUB的《Clementine10.0尝新》博文,到今天Clementine最新版本已到12.012.0Clementine来说可以说是一个里程碑的产品,所以我就不再写11.0介绍了。

 

我专门看了一下电驴上CYGiSO软件组release日期是200711月。简体中文版好像是由新加坡人翻译的,国内应该是20083月发布的,软件中很多的中文翻译都让你感觉哭笑不得。比如:

 

*Binning节点翻译成“分箱”,窃以为对连续变量的离散化比较符合中国人习惯的可能是“分段”更贴切点

*Partition节点翻译成“分区”,Partition实际完成的是建模数据集的样本内抽样,把数据集分成Training集、Testing集和Validation集,从这个角度来看可能是“分集”更贴切点

*Distribution节点里面自动生成平衡节点的Balance Node(Boost)翻译成“平衡节点(推进)”,把决策树里面的Use Boosting多重模型组合技术翻译成“使用推进”,就实在让人费解了。第一个Boost是指在做样本Balance时少的抽多的重复抽样,第二个Boosting是指把决策树分类错误的数据集再重新做一棵新的决策树,同时将两颗树的结果利用加权作组合以提升决策树的准确度。Boost从英文来讲是指像绑鞋带那样反复叠加交错,从这个含义上来说有点interation的含义,我觉得还不如翻译成“叠加”更恰当点。

 

不过话说回来,软件的界面翻译往往是最难的,因为软件界面的按钮或者选项不像翻译UserGuide那种文档可以有context帮助你把握一个单词的含义,例如像Over这样单独按钮的确是不好翻译成中文的,而且翻译的人也未必是DM专家,所以很多时候翻译不贴切也是难怪的。我感觉对于一些英文软件的汉化如果实在找不到好的对应词汇还不如不翻译来得更强。不过Clementine12.0中文版给我们提供了几本非常好的中文自学Bible:分别是ClementineUsersGuideClementineModelingNodesClementineSourceProcessOutputNodesTutorial。其中用户手册主要可以用来作为Clem表达式的函数备查手册,建模节点介绍了各种算法的适用情形和建模节点调节设置含义,源/过程/输出节点介绍了其他面板的节点含义,而Tutorial应用程序示例就更不能不提了,真的是很好的教科书了,这里面都是Demos文件夹中的经典挖掘案例,step by step的讲解每个流构建的思路,而且做成了help动画形式,12.0才有的新算法基本都有相应的应用案例(例如将cox回归用于客户流失时间模型就是电信业的案例),建议全部掌握。

 

 

 

所以说Clementine12是里程碑,因为它在人机互动、自动建模、可视化评估、更多算法做得比以前更好了。

 

1、人机互动:很多自动生成节点或超节点的功能都已经集成在类似Distribution(用来做建模前样本平衡)、Feature Select(变量重要性过滤)、Transform(极端值校正)、各种生成模型节点里面,基本以前能想到的节点与节点之间的常用衔接都可以用人机互动实现,减轻了很多分析人员做流和设置参数的工作量。同时也衍生出很多算法之间的所谓“经典配合”,例如先做C5.0的变量筛选把宽表变窄再做神经网络预测,先做K-Mean聚类分群再做Apriori的关联分析,先做神经网络的黑匣子预测然后再用决策树描述分类规则,先做K-Mean聚类再用决策树寻找聚类的聪明变量把宽表变窄。算法的搭配使用都是在现实中摸索的经验,当你具备这种能力的时候你就会发现数据挖掘,当你掌握以后你才会发现很多原来没有想到的用途,这时你就不知不觉成为专家了,学其神而不只是学其形。

 

 

2、自动建模:这里主要是指二元分类器和数值预测器这两个节点,例如二元分类器会把适合因变量是类别变量的算法都集成在一起,能一步创建和评估多个模型。对于数据挖掘的初入门者来说,让他们对建模节点做专家调优是不太实际的,还不如尝试使用多种适用的算法,然后比较不同算法的AUCArea under ROC Curve)值,从而择优录取更实际点。

 

 

3、可视化评估:现在预测算法都同时具备以前KXEN软件才有的变量重要性输出,同时还能利用算法来做变量筛选也很方便,同样支持人机互动自动生成过滤节点。同时,建模以后,评估节点、分析节点和矩阵节点都能比较好的实现可视化图表评估,略显不足的是Clementine不喜欢公开自己的评估指标算法,虽然对于DM专家而言这些指标算法已经可以说是公开的秘密,但对于入门者而言公开这些指标算法对于理解这些评估图、指标值和指明模型调优方向都是很有必要的。

 

 

4、更多算法:前2个版本更多的是把SPSS的统计算法往里面搬,例如什么主成份/因子分析、判别分析、DecisonTree里面的另外两种算法QuestCHAID等。但12.0的确让人有了一点惊喜,例如在电信业可以用来做过网客户价值分析(策反用)的RFM建模节点,可以用来预测未来不同时间的流失概率做生存分析的Cox节点,只有Clementine才有的Carma关联规则算法(单条规则可以支持多个后项),支持分类预测的贝叶斯算法和SVM支持向量机算法。对于不同算法的个人理解我将另文介绍,可以届时留意。

 

更详细的可以看12.0ClementineUsersGuide我不太喜欢照本宣科,都是凭自己的理解说软件体验。

 

尽管对于Clementine12.0我还是能提出一大堆可以改进的地方,但是一直看到这个DM Tool的进步还是很让人期待的。

1、期待有更多主流和通用的模型评估指标。例如预测模型用到的AUC值(现在只有在二元分类器输出有)、Lorenz CurveKS-Chart(如KXEN提供的衡量模型精确度的KI值、GINI值和衡量稳定性的KR值),信用评分建模Logistic连续变量切割检定时用到的WOE值和IV值。

2、期待公开一些常用模型的算法。

3、期待预测算法和关联规则算法能整合自动生成目标客户和推荐产品名单功能,这里不懂的人其实很容易出错。

4、期待模型调优有自动化尝试和比较评估(国外已经有人用Script实现神经网络的自动化参数调优建模和比较评估,最后建议使用哪个模型),这样就更节省模型调优的时间了

5、期待对于响应模型不但提供Patition支持样本内切割验证,最好还提供时窗样本验证的支持

6、还有……今天累了,暂时写到这里了

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值