clementine软件里面dome的演示实验的分析和说明

该博客介绍了如何利用Clementine软件进行数据挖掘,通过异常检测预筛选并用神经网络深入分析异常记录,特别是针对农业补贴申请的异常情况。案例涵盖了从预处理到模型构建的步骤,包括电信客户流失分析、时间序列预测、贷款违约预测等场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

说明:软件里面的帮助---》应用程序实例,按照这里面的顺序来的。

毛华望 QQ849886241。技术博客http://blog.youkuaiyun.com/my_share 
1, 准备分析数据(数据审核)

按照应用程序实例文本的指示,打开 telco_dataaudit.str数据流。我在这个放入了一个表 ,目的就是查看过程中的数据是怎么样的。点表模块,执行(会报错,只要telco的文件重新导出一下就行了,这样软件就能找到文件啦).

这就是初始化数据的内容,第一列大概是注册地,还有年龄,婚否,收入,学历,等信息。最后一列,应该是他是否购买了商品。
这个小笔,你点击以下,表里面的英文就数字化了。怎么数字化,应该能看出来。比如说:区域,深圳也就南山,宝安,福田,龙岗,一个地点配个数据就好了。教育程度,大学1,研究生2,博士3,其他4,这样就能数字化了。
圈2  type,双击,这里都是数据类型和属性的设置,最后一个设置成输出,其他的自动读取就可以啦。哪些是范围,离散。如果选的不合适,电脑处理起来就会比较慢。
圈3,是图标类,输出的数据分析,

这个是数据审核(圈3模块)可以统计分析数据表格的内容。
圈4,是一个模块组,里面包含很多模块,在工程流那边可以看到,
这个模块的功能就是缺失值的处理,

内部结构。两个黄色的是决策树。
填充,然后在填充,可能一次只填充一个吧。在过滤,就是几个属性,整行删除。比如,我不需要日期这个属性,就可以用filter temp删除。
圈5,功能一样的。
圈6,异常点检测模型。
圈7,特征选择算法。
整体的内容了解后,现在开始细节内容。首先是数据的特点。
圈1,telco.sav是电话使用客户的情况,超市,办理会员卡,类型的数据,里面有很多的空值,还有很多不应该是0的地方写了0,longmath这一列的数据就是根据其他列算出来的。loglong也是。其他特点没有看出来。
圈2,是类型的设定,设定本身对数据是没有影响的。但是对后面的监督学习有影响。没有任何的过滤功能。
圈3

最大值,最小值,范围,平均值,因为是集合嘛,自然没有这些属性。如果类型是范围就有啦。
这里涉及到偏度,最上面正偏度,中间不偏,下面负偏度。
平均值和标准差,应该不需要解释。唯一(就是里面有几个数字),有效,就是用到的数据除以总数据量。
这个模块也可以设计离群值(可能离群了就不做计算了)。大于多少,就认为是误差点啦。为了计算更准确。
圈4.要开始进行决策树,看看每个属性的人有多大程度会继续选购产品。
两个决策树,其中一个是equipmon,一个是loglong。为何是两个。是两个不同的初始点,两个都比较合适作为初始点,然后看两种分类的性能。
剩下的三个就没什么好说的了。重要的字段过滤,填充(看模块名就知道啦)的事情。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值