1. 基础概念:
- 数据挖掘:data mining,又称为KDD【数据库知识发现,knowledge discovery from databases】,它是一个从大量数据中抽取挖掘出未知的、有价值的模式和规律等知识的复杂过程;相关组成包括:
- 数据:原材料,描述发生了什么事;//不构成决策和行动;
- 信息:分析数据找出意义和关联;//也不作为判断、决策和行动依据;
- 知识:对信息更深入的归纳分析得到更有用的信息,从信息中理解其模式;(定义:信息块中的一组逻辑联系,其关系是通过上下文或过程的贴进度发现的);
- 智慧:大量知识积累基础上,总结原理和法则;
- 机器学习:machine learning,计算机模拟和实现人类的学习行为,以获取新知识和技能,重新组织已有知识结构使之
不断改善自身性能;结合机器学习的算法可以实现数据挖掘;同时机器学习也是人工智能的核心,是计算机具有智能的根本途径; - 深度学习:deep learning,是机器学习的一个分支,神经网络算法衍生出来;
2. 数据挖掘体系和流程
- 清理:清除噪声数据和不合规数据;
- 集成:将多个异构数据源集成到数据仓库,数据源包含:数据库数据,空间数据,多媒体数据,文档数据,图片数据,网页数据等;
- 选择和变换:数据的ETL(提取,转化和加载),根据指定的规则和要求清洗对应的数据格式;该过程可以占到整个过程的60~70%的工作量;
- 数据挖掘:通过机器学习的算法来建模,实现数据挖掘,挖掘出有用的信息;
- 模式评估:根据一定评估标准从挖掘结果筛选有意义的模式知识;
- 知识表示:可视化和知识表达展示;
3. 数据挖掘功能、目的、技术、应用、分类
- 功能:用户并不知道数据存在哪些有价值的信息,挖掘系统能发现多种模式和多种层次的知识,并容许用户指导挖掘有价值的模式知识;
- 目的:为企业决策提供正确依据,发挥机构活力和赢得竞争优势;
- 技术:数理统计、推理、机器学习、知识获取、模糊理论、神经网络、进化计算、模式识别、粗糙理论、信息检索、图像和信号处理、空间数据分析等;
- 应用:市场分析(客户群/广告点击率)、风险预测和改良(财务/竞争)、异常监测(反恐/洗钱)、文本挖掘(垃圾邮件/评论)、天文学、推荐系统、智能博弈(棋谱)、频繁模式挖掘(购物篮啤酒-尿布)、模式识别(语音/视觉/指纹/虹膜/人脸/小波)等;
- 分类:
- ①按数据模型分类:扩展关系、面向对象、事务、数据仓库等系统;
按处理数据类型分类:空间数据类型、时序数据类型、文本类型和多媒体类型等系统,以及互联网挖掘系统;异构数据挖掘系统、历史数据挖掘系统; - ②按挖掘知识分类:关联知识、分类知识、异类知识、演化分析知识等;
按知识细度分类:广义知识、基本层次知识和多层次知识等系统; - ③按使用技术分类:
按用户交互程度:完全自主、交互式探索、基于查询驱动等;
按数据分析方法分类:机器学习、模式识别、神经网络、可视化等; - ④按数据分析角度分类:描述性数据挖掘和预测性数据挖掘;
- ①按数据模型分类:扩展关系、面向对象、事务、数据仓库等系统;
4. KDD和报表、OLAP和OLTP和数据挖掘
- KDD和报表工具对比:
报表工具:抽取数据经过数学运算,以特定格式呈现给客户;
KDD:对数据背后隐藏的特性和趋势进行分析,最终给出总体特征和发展趋势; - OLAP和OLTP:
- 数据挖掘和OLAP区别:
OLAP:由分析人员预先设定假设,利用OLAP工具验证假设;
数据挖掘:通过对数据的分析来自动产生假设,在假设上更有效决策;