- 该博客为数据挖掘系列博客的第一部分:走进数据挖掘。
- 该博客主要介绍数据挖掘的相关概念以及参考资料。
文章目录
DM Theory
缘何兴起
数据挖掘是在近些年才被人们提及的,并不断地被炒作升温,现在已经成为了炙手可热的领域。 了解一样东西,你必须首先知道它是怎么来的。有一句十分有趣的话:不要因为走得太远,而忘记了为什么出发,放在这里是恰当不过的了(虽说我们还没走(o°ω°o))。
- 数据量大:只有数据量足够大时,它才有挖掘的价值。如果数据就是三五行的记录,那基本上一眼扫过去就知道它所要表达的信息了,也就用不上所谓的数据挖掘技术了。人类社会工业化、信息化的快速发展以及物联网的普及等都加速了数据的产生。此外,数据开放运动以及数据开源计划都极大地丰富了数据资源。举个例子来说,你看到这篇博客时你就产生了许多数据,包括兴趣偏好、上网时间、网页浏览量、点击量、停留时长等等。我们已经置身于一个数据爆炸的时代。
- 数据存储:如果数据量足够大但没有相应的存储设备和技术时,我们也是无法加以挖掘利用的。恰如太阳每天都会释放出足够多的能量,但它并没有被充分利用。近些年来,数据库以及数据仓库技术的不断发展使得数据可以更好地被记录和保存。这也是数据挖掘兴起并不断升温的重要因素之一。
- 信息贫乏:我们有着大量的数据,却并没有从中提取有价值的信息。世界上绝大部分的数据都未能被有效地加以利用。概括下就是DRIP:Data Rich, Information Poor。因此,我们需要数据挖掘技术来帮助我们提取其中的有价值的信息。
正式提出
- 1989年8月在美国底特律召开的第11届国际联合人工智能学术会议(IJCAI-89)上,Gregory Piatesky -Shapiro组织了 “数据库中的知识发现“(“KDD:Knowledge Discovery in Database")专题讨论会,该讨论会的重点是强调发现(Discovery)的方法以及发现的是知识(Knowledge)两个方面。
- 随后的1991、1993和1994年都举行了KDD专题讨论会,来自各个领域的研究人员和应用开发者集中讨论了数据统计、海量数据分析算法、知识表示和知识运用等问题。
- 随着参与科研和开发人员的不断增加,国际KDD组委会于1995年把专题讨论会发展成为国际年会,并在加拿大的蒙特利尔市召开了第一届KDD国际学术会。会议名称全称为“ACM SIGKDD ( Special Interested Group On Knowledge Discovery in Database ) International Conference on Knowledge Discovery and Data Mining ”,在这次会议上数据挖掘 ( Data Mining ) 的概念第一次由 Usama Fayyad 提出。
如何定义
数据挖掘的定义并不统一,但大同小异,下面给出几个版本的定义,最后综合概括
- Usama Fayyad :数据挖掘指的是从大量的、不完全的、有噪声的、模糊

最低0.47元/天 解锁文章
69

被折叠的 条评论
为什么被折叠?



