
数据挖掘
文章平均质量分 91
阿洋太爱大数据
在校大学生
展开
-
数据挖掘部分整理(到关联规则挖掘)
属性类型:标称属性:值是一些符号或者事务的名称,每个值代表某种类别、编码或者状态,因此标称属性又被看做是分类的,值是无意义的序,并且不是定量的,因此找平均值和中位数是没有意义的,比如:hair_color(头发的颜色)就是。二元属性:是一种标称属性,只有两个类别状态:0或者1,0通常表示该属性不出现,而1表示出现。二元属性也有对称的二元属性和非对称的二元属性,如果状态的结果不是同等重要的,则称为非对称的二元属性。对称的二元属性 非对称的二元属性序数属性:其可能的值之间具有有意义的原创 2022-01-10 20:26:53 · 3078 阅读 · 1 评论 -
数据挖掘考试(大纲)
数据挖掘过程?数据清理(消除噪声和删除不一致数据) 数据集成(多种数据源可以组合在一起) 数据选择(从数据库中提取与分析任务相关的数据) 数据变换(通过汇总与聚集操作,把数据变换和统一成适合挖掘的形式) 数据挖掘(基本步骤,使用智能方法提取智能模式) 模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式) 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)数据挖掘常用模式?概念/类描述:特性化和区分 关联分析 (挖掘频繁模式、关联和相关) 分类和预测 聚类分析 离群.原创 2022-01-10 20:22:11 · 2953 阅读 · 0 评论 -
相似度与距离
邻近性:相似性和相异性统称为邻近性属性类型:标称属性:值是一些符号或者事务的名称,每个值代表某种类别、编码或者状态,因此标称属性又被看做是分类的,值是无意义的序,并且不是定量的,因此找平均值和中位数是没有意义的,比如:hair_color(头发的颜色)就是。二元属性:是一种标称属性,只有两个类别状态:0或者1,0通常表示该属性不出现,而1表示出现。二元属性也有对称的二元属性和非对称的二元属性,如果状态的结果不是同等重要的,则称为非对称的二元属性。序数属性:其可能的值之间具有有意义的量,例如:原创 2022-01-04 14:33:45 · 3335 阅读 · 0 评论 -
数据预处理
数据质量的要素:准确性、完整性、一致性、时效性、可信性、可解释性。数据清理:填写缺失值,光滑噪声数据,识别或删除离群点,并解决不一致性来“清理数据”数据集成:在分析中使用来自多个数据源的数据,这就涉及集成多个数据库、数据立方体或文件数据规约:得到数据集的简化表示,它小的多,但能够产生同样的(或几乎相同)分析结果。数据规约策略包括维规约和数值归约数据清理:偏差监测数据清洗工具ETL缺失值:忽视 去掉有缺失值的样本或属性 较小缺失率人工补全缺失值 重新...原创 2021-11-28 22:15:10 · 1106 阅读 · 1 评论