- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 高级模式挖掘
Frequent Itemset(频繁项集)称I={i1,i2,…,im} I={i_1, i_2, …, i_m}I={i1 ,i2 ,…,im }为项(Item)的集合,D={T1,T2,…,Tn} D={T_1, T_2, …,T_n}D={T1 ,T2 ,…,Tn },i∈[1,n] i∈[1,n]i∈[1,n]为事务数据集(Transac...
2020-04-05 20:33:44
235
原创 挖掘频繁模式、关联和相关性:基本概念和方法
1.频繁模式的概念频繁模式: 是频繁地出现在数据集中的模式(如项集、子序列或子结构),如果一个子结构频繁的出现,则称它为(频繁的)结构模式。例子购物篮分析:用户购买电脑同时购买杀毒软件关联规则:computer =>antivirus_software[support = 2%;confidence = 60%]规则的支持度(support) 和置信度(condidence) 是规则...
2020-04-02 00:23:41
722
原创 数据立方体技术
1.数据立方体的概念和计算。数据立方体: 数据立方体只是多维模型的一种形象的说法,它只有三维,但多维数据模型不仅限于三维,它可以是n维的。之所以这么叫是为了让用户更容易想象,方便解释和说明,同时也为了和传统的关系数据库中的二维表进行区分。...
2020-03-25 22:20:23
994
原创 数据仓库与联机分析处理
1.什么是数据仓库。数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策的过程。面向主题的: 数据仓库围绕一些重要的主题,如顾客、供应商、产品和销售组织,通常排除对于决策无用的数据,提供特定主题的简明视图。集成的: 构造数据仓库是将多个异构数据源,如关系数据库、一般文件和联机事物处理记录集成在一起。时变的: 数据仓库中的关键结构都隐式或显式地包含时间元素。非易失的...
2020-03-24 00:04:23
434
原创 数据预处理
1.数据预处理的步骤。数据预处理有四个步骤:数据清理、数据集成、数据规约、数据变换。数据清理: 现实世界的数据一般是不完整的、有噪声的盒不一致的。数据清理例程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。...
2020-03-05 12:01:46
9349
2
原创 数据挖掘第二章认识数据
1.五数概括的概念。由中位数(Q2)、四分位数 Q1 和 Q3、最小和最大观测值组成,按次序:Minimum,Q1,Median,Q3,Maximum写出。
2020-02-22 23:56:47
9777
3
转载 数据挖掘概念与技术第三版第一章答案
第一章答案该答案为本人转载 ,原著[Ma_Jack](https://blog.youkuaiyun.com/u013272948/article/details/71024949)1.1 什么是数据挖掘?在你的回答中,强调以下问题: (a)它是又一种广告宣传吗? (b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗? (c)我们提出了一种观点,说数据挖掘是数据库技...
2020-01-21 20:58:22
2958
原创 数据中的知识发现KDD和机器学习概念
数据中的知识发现的过程(1)数据清洗:消除噪声和删除不一致的数据。(2)数据集成:多种数据源可以组合在一起(3)数据选择:从数据库中提取与分析任务相关的数据(4)数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式(5)数据挖掘:基本步骤,使用智能方法提取数据模式。(6)模式评估:根据某总兴趣度度量,识别代表知识的真正有趣模式(7)知识表示:使用可视化和知识表示技术,向用户...
2020-01-20 18:16:11
1030
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人