
数据挖掘与数据仓库
文章平均质量分 92
布丁的自我修养
这个作者很懒,什么都没留下…
展开
-
数据挖掘与数据仓库——数据挖掘概述
专题介绍该专题是数据挖掘与数据仓库专题,博主在复习过程中针对老师的PPT进行的整理,使得逻辑更加方便学习。对于初步入门数据挖掘与数据仓库是可以作为参考的,如果想深入了解,则需要看更全面的教材。不足之处请大家多多指教。数据挖掘概述什么是数据挖掘DB派:从海量数据中提取有兴趣的模式或知识;数据库中的知识发现(Knowledge Discovery in Databases, KDD)为...原创 2019-05-18 09:43:07 · 786 阅读 · 0 评论 -
数据挖掘与数据仓库——数据预处理
数据预处理为什么要进行预处理现实世界的数据很“脏”不完整的: 缺少属性值, 感兴趣的属性缺少属性值, 或仅包含聚集数据如, occupation=“ ”来源于:收集数据时,在不同的阶段具有不同的考虑;人/硬件/软件的问题等。含噪声的: 包含错误或存在孤立点如, Salary=“-10”来源于:收集阶段;数据传输阶段等。不一致的: 在名称或代码之间存在着差异如, Ag...原创 2019-05-18 09:47:31 · 1020 阅读 · 0 评论 -
数据挖掘与数据仓库——数据仓库、 OLAP及数据立方体计算
数据仓库、 OLAP及数据立方体计算什么是数据仓库有多种但并不严格的定义与操作数据库相隔离并单独维护的一个用来支持决策过程的数据库。一个用来对整理过的历史数据进行分析以便支持信息处理的固定平台。“数据仓库是面向主题的、集成的、时变的、非易失的数据集合,它用来支持管理部门的决策过程”—W. H. Inmon数据仓库的特征面向主题的:围绕主题组织, 如消费者(customer)、...原创 2019-05-18 09:49:47 · 1375 阅读 · 0 评论 -
数据挖掘与数据仓库——关联规则挖掘
关联规则挖掘基本概念Apriori算法Apriori裁剪原理: 对于任意项集,如果它不是频繁集,则它的任何超集不用产生/测试!算法流程:关于连接操作:一个例子:Apriori算法存在问题:多次扫描数据库产生大量的候选集合FP-Tree算法可以参考:https://blog.youkuaiyun.com/kisslotus/article/details/80328045...原创 2019-05-18 09:52:30 · 889 阅读 · 0 评论 -
数据挖掘与数据仓库——分类
分类算法什么是分类一些常见的概念:训练集(Training data):用于训练模型(的参数,如神经网络的各层权重和偏置,线性回归分析的系数);验证集(Validation data):用于调整超参数(Hyper-Parameters,如神经网络的宽度和深度、学习率等);测试集(Test data):用于评价模型本身的有效性(准确率等)训练误差(Training error):分类器...原创 2019-05-18 10:02:27 · 1274 阅读 · 0 评论 -
数据挖掘与数据仓库——聚类
聚类分析基本定义什么是聚类分析把一组对象分成若干个聚类(Cluster), 使得同一个聚类中的对象之间具有高的相似性(High intra-cluster similarity), 不同聚类中的对象之间具有低的相似性(Low inter-cluster similarity).怎样度量聚类方法聚类内对象的高度同质性(Homogeneity)聚类间对象的高度分离性 (Separation...原创 2019-05-18 10:03:49 · 839 阅读 · 0 评论