
数据挖掘
iteye_10344
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spss 关联关系挖掘算法
广义规则归纳(GRI) 节点会发现数据中的关联规则。例如,购买了剔须刀和客户在购买须后水之后,还可能会购买剔须霜。GRI 基于某项指数抽取了信息量最大的规则,此指数考虑了规则的普遍性(支持度)和准确性(置信度)。GRI 可以处理数值型和分类型输入,但目标必须是分类型。Apriori 节点从数据抽取一组规则,即抽取信息内容最多的规则。Apriori 节点提供五种选择规则的方法并使用复杂的索引...原创 2011-12-09 16:50:05 · 1502 阅读 · 0 评论 -
数据挖掘分类及常用算法
基于学习策略的分类机械学习传授学习类比学习归纳学习基于解释的学习基于学习方式的分类(1)有导师学习(监督学习):输入数据中有导师信号,以概率函数、代数函数或人工神经网络为基函数模型,采用迭代计算方法,学习结果为函数。(2)无导师学习(非监督学习):输入数据中无导师信号,采用聚类方法,学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。(3)强化学习...原创 2011-12-02 11:05:14 · 354 阅读 · 0 评论 -
三种常见的决策树:CART,C5,CHAID
决策树需要计算结点的纯度来选择最具显著性的切分(split)。通常,CART以Gini,C5以信息增益(熵),CHAID以卡方。虽然存在这样的差别,但他们树形状的不同更为重要一些。卡方:http://wenku.baidu.com/view/7c8962eeaeaad1f346933f5f.html C5起源于计算科学领域,讲究小样本上的重复测试比较(cross validation),进...原创 2011-12-01 11:08:48 · 1209 阅读 · 0 评论 -
数据挖掘步骤
图1为知识挖掘的步骤数据处理: 标准化处理 离散化 (Discretization) 连续值->离散值,分类中常用 取样 (Sampling) 维度缩减 (Dimensionality Reduction) 维度灾难 (Curse of Dimensionality) 维度过高造成过学习等一系列问题,不利于数据挖掘处理。 特征选取 ...原创 2011-11-09 13:27:00 · 248 阅读 · 0 评论 -
向量空间的距离
在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1<=k<=N。例如一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c,d)。对含有n个特征项的文...原创 2011-11-01 15:06:47 · 229 阅读 · 0 评论 -
spss中各常用节点及算法
主成分分析法 [url]http://baike.baidu.com/view/45376.htm[/url]时间序列分析 [url]http://baike.baidu.com/view/479624.htm?func=retitle[/url]回归分析 [url]http://baike.baidu.com/view/145440.htm[/url]...原创 2012-01-04 10:09:51 · 2002 阅读 · 0 评论 -
数据挖掘易犯错误(转)
数据挖掘中的易犯错误• 按照Elder博士的总结,这10大易犯错误包括:0. 缺乏数据(Lack Data)1. 太关注训练(Focus on Training)2. 只依赖一项技术(Rely on One Technique)3. 提错了问题(Ask the Wrong Question)4. 只靠数据来说话(Listen (only) to the Data)5. 使用了未来的信息(Accep...原创 2011-12-30 09:36:57 · 257 阅读 · 0 评论 -
clementine中关联的提升指数含义
再说说提升水平lift这个参数。假定设定规则的最小阀值为支持度30%,置信度为60%,然后你得到了很多的强关联规则。比如有这么一条,总数据10000个,A商品6000个,B商品7500个,然后同时购买A和B的4000个。我们发现A-B(即购买了a的同时购买b)这条规则也是一条强关联规则。支持度为=4000/1000o=40%,置信度=4000/6000=66.7%.但是我们发现原总...原创 2011-12-29 15:19:18 · 391 阅读 · 0 评论 -
sas em模块安装
1 下载:sas 9.2 安装介质dvd1:ed2k://|file|%5BSAS.9.2%E5%A4%9A%E5%9B%BD%E8%AF%AD%E8%A8%80%E7%89%88%EF%BC%88%E6%9B%B4%E6%96%B09.21.TS2M2%E7%89%88%EF%BC%89%5D.SAS9_2_Disk1.iso|4315152384|3b745cacd89fb908859...原创 2011-12-17 16:01:10 · 1765 阅读 · 0 评论 -
clementine VS sas em
1.SAS EM 在所有的数据挖掘产品中唯一一家能够将数据分为训练、验证、测试三部分并能自动地在训练数据上建模,在验证数据上进行模型调整优化,在测试数据上进行模型评估而不影响模型建立,同时还能将各种模型的提升图,ROC图等在一个 页面中显示,进而很直观地进行比较,模型哪个更好一目了然;而SPSS Clementine需要用户手动去分别创建训练、验证、测试等数据然后分别学习,相互之间无法协调,各种模...原创 2011-12-09 21:22:33 · 222 阅读 · 0 评论 -
[模型评估]五种评估图表(Clementine)
预测值和置信度: $R-表示预测值,$RC表示置信度,置信度在0-1之间,说明预测值的精准度。评估图表的工作原理:根据预测值及预测的置信度排序记录、将记录分割为大小相等的组(分位数)并按由高到低顺序为每个分位数绘制业务标准值。收益(增益)图表:收益的定义是相对于全部匹配,发生于每个分位数中的匹配的百分比。其计算方法为(分位数中的匹配数量/全部匹配数量) × 10...原创 2011-12-05 13:45:37 · 2002 阅读 · 1 评论