
数据挖掘
Gambler
这个作者很懒,什么都没留下…
展开
-
【转】数据挖掘与应用基本知识与概念汇总
摘要: 顾名思义, 数据挖掘就是从大量的数据中挖掘出有用的信息。它是根据人们的特定要求,从浩如烟海的数据中找出所需的信息来,供人们的特定需求使用。 2000年7月,IDC发布了有关信息存取工具市场的报告。1999年,数据挖掘市场大概约为7.5亿美元,估计在下个5年内市场的年转载 2011-10-04 11:32:39 · 3728 阅读 · 0 评论 -
【转】用户行为分析-构想和资料
http://u.028life.com/space-1-do-thread-id-1376.html一、什么是搜索行为分析用户在使用搜索引擎时,动辄返回上千条返回记录,但里面却充斥着大量与用户需求无关的网页,这对用户从搜索引擎中获取知识带来极大的不变。因此有必要转载 2011-10-06 11:11:54 · 802 阅读 · 0 评论 -
【转】zt'Eclipse部署Nutch-1.0
在wiki上的nutch板块找到的解决方案(http://wiki.apache.org/nutch/RunNutchInEclipse1.0),虽然是e文,不过还好不难,照着做了,却发现以前照着网上配置不成功的原因,原来nutch-1.0如果不修改代码,导入进去是有两处错误的,转载 2011-10-06 11:12:55 · 628 阅读 · 0 评论 -
【转】交叉验证
交叉验证(Cross-validation)主要用于建模应用中,例如PCR 、PLS 回归建模中。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。这个过程一直进行,直到所有的样本都被预报了一次而且仅转载 2011-10-06 11:05:51 · 887 阅读 · 0 评论 -
【转】LDA预备知识
LDA预备知识 如果牢固掌握这些预备知识,理解原文会更容易些。 - p(X|Y)的记法。注意|右边的Y既可以表示随机变量(已经取定了某具体值),也可以表示普通的非随机变量。这样我们可以在最大似然估计和 Bayes方法间方便的“切换”,而不会转载 2011-10-17 10:42:15 · 1169 阅读 · 0 评论 -
【转】WEKA 中用于学习方案的通用选项
表 3.1 WEKA中用于学习方案的通用选项 选项 功能-t转载 2011-10-06 15:47:15 · 490 阅读 · 0 评论 -
【转】数据挖掘网站
http://www.aaai.org/AITopics/html/mining.html http://www.web-datamining.net/forum/faq.asp#7 http://www.web-datamining.net/index.asp ht转载 2011-10-06 11:30:06 · 542 阅读 · 0 评论 -
【转】想开发搜索的人必读的文章(www.lucene.com.cn)
1 互联网搜索其实搜索的这个核心就是分词与PageRank算法,择日和大家讨论具体的实现,依靠PR算法,sogou 3.0的搜索结果相当不错,如果融入人工智能、数据挖掘自然语言理解等最新信息技术成果的搜索引擎,将会给用户带来了一种方便、易用、灵活的检索方式,为用户提供的是转载 2011-10-06 11:10:27 · 1286 阅读 · 0 评论 -
【转】几个常用的机器学习工具包
所谓机器学习,借用维基百科里的话说,是一种“用于创建数据集分析分析程序的方法”(具体的定义在此就不多说了)。借助这些方法我们可以对事件进行建模,常常可以达到通过对已有数据分析,对新数据作出迅速判断的效果。常见的机器学习模型(就我接触的而言)有CRF(条件随机场),SVM(支持向量转载 2011-10-06 11:08:31 · 1207 阅读 · 0 评论 -
【转】基本概念:过拟合、修剪、假正、假负
通常会把整个训练集分成两个部分:拿数据的约 60-80 % 放入我们的训练集,用来生成模型;然后拿剩下的数据放入一个测试集,在模型生成后,立即用其来测试我们模型的准确性。 那么这个额外的步骤为什么在此模型中如此重要呢?这个问题就是所谓的过拟合:如果我们提供过多 数据用于转载 2011-10-06 15:24:45 · 1086 阅读 · 0 评论 -
【转】决策树C4.5算法
Java代码 数据挖掘中决策树C4.5预测算法实现(半成品,还要写规则后煎支及对非离散数据信息增益计算),下一篇博客讲原理 数据挖掘中决策树C4.5预测算法实现(半成品,还要写规则后煎支及对非离散数据信息增益计算),下一篇博客讲原理Java代转载 2011-10-06 14:50:29 · 909 阅读 · 0 评论 -
【转】粗糙集理论介绍
粗糙集理论介绍面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的知识?我们如何将所学到的知识去粗取精?什么是对事物的粗线条描述什么是细线条描述? 粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想,我们先要了解一下什么叫做知识?假设有8个积木构成转载 2011-10-06 11:13:38 · 665 阅读 · 0 评论 -
【转】十大机器学习算法
1、C4.5机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决转载 2011-10-05 11:17:07 · 1077 阅读 · 0 评论 -
【转】主要空间数据挖掘方法
Source: http://jerry429.bokee.com/2993629.html 张新长 马林兵等,《地理信息系统数据库》[M],科学出版社,2005年2月 第二章第二节 空间数据转载 2011-10-07 10:52:57 · 2976 阅读 · 0 评论