数据挖掘原理、方法、实践笔记(一)

数据挖掘概论(参考书:数据挖掘原理、方法及Python应用实践教程)

1.数据挖掘含义

数据收集和存储技术的发展使得各组织机构能够积累海量的数据。但是,由于数据量太大,传统的数据分析工具和技术已经不再适用,因此,需要开发新的方法来对数据进行处理。
数据挖掘(data mining)就是利用一系列技术和方法从海量数据中找出隐藏于其中的潜在、有用的新知识的过程。在庞大的数据中找到有价值的知识,就好像在一堆沙子中淘金,因此被形象的称为data mining。

2.相关概念辨析

知识发现与数据挖掘:
数据挖掘是知识发现(knowledge discovery)的核心,是其中的一个步骤。完整的知识发现包含:①数据准备;②数据挖掘;③结果表达和解释
数据挖掘、机器学习和人工智能:
人工智能(artificial intelligence)指由人制造出来的机器所表现的智能。对于机器是否智能采用图灵测试进行判断。人工智能的核心是构建接近甚至超越人类的推理、知识、规划、学习、交流、感知、移物、使用工具和操控机械的能力等。
机器学习(machine learning)是人工智能发展到一定阶段的必然产物,也是人工智能的一个分支。研究机器学习的目标就是让计算机系统拥有人的学习能力,从而实现人的“智能”。机器学习是数据挖掘的技术支撑之一,除此之外,数据挖掘还依靠数据库和数据仓库技术。

3.数据挖掘基本任务

数据挖掘的基本任务包括分类与预测、聚类分析、关联分析、异常检测等,大致可分为两类,即预测任务和描述任务。
预测任务:通过利用样本的属性和样本的值训练出的模型,结合某个特定样本属性来预测该样本对应的值

系统化地阐述了数据挖掘和知识发现技术的产生、发展、应用和相关概念、原理、算法。对数据挖掘中的主要技术分支,包括关联规则、分类、聚类、序列、空间以及Web挖掘等进行了理论剖析和算法描述。本书的许多工作是作者们在攻读博士学位期间的工作总结,方面,对于相关概念和技术的阐述尽量先从理论分析入手,在此基础上进行技术归纳。另方面,为了保证技术的系统性,所有的挖掘模型和算法描述都在统的技术归纳框架下进行。同时,为了避免抽象算法描述给读者带来的理解困难,本书的所有典型算法都通过具体跟踪执行实例来进步说明。本书共分8章,各章相对独立成篇,以利于读者选择性学习。在每章后面都设置专门节来对本章内容和文献引用情况进行归纳,它不仅可以帮助读者对相关内容进行整理,而且也起到对本内容相关文献的注释性索引功能。第1章是绪论,系统地介绍了数据挖掘产生的商业和技术背景,从不同侧面剖析了数据挖掘的概念和应用价值;第2章给出了知识发现的过程分析和应用体系结构设计;第3章对关联规则挖掘原理和算法进行全面阐述;第4章给出分类的主要理论和算法描述;第5章讨论聚类的常用技术和算法;第6章对时间序列分析技术和序列挖掘算法进行论述;第7章系统地介绍了Web挖掘的主要研究领域和相关技术及算法;第8章是对空间数据挖掘技术和算法的分析和讲述。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值