
数据挖掘
文章平均质量分 80
prajna2002
这个作者很懒,什么都没留下…
展开
-
数据挖掘期末4
③决策树形成过程中每个节点都要按照步骤2来分裂(很容易理解,如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,无须继续分裂了)。一直到不能够再分裂为止。②当每个样本有M个属性时,在决策树的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件m原创 2022-12-09 09:08:15 · 585 阅读 · 0 评论 -
数据挖掘期末5
局部异常因子即是用局部相对密度来定义的。重复第二步,直至类不发生变化,【或者可设置最大迭代次数,这样及时类中心点发生变化,但是达到最大迭代次数就会结束】将每个点分配到最近的类中心点,这样就形成了K个类,然后重新计算每个类的中心点【即更新簇的平均值】根据局部可达密度的定义,如果一个数据点跟其他点比较疏远的话,那么显然它的局部可达密度就小。离群点是一个数据对象,它显著不同于其它数据对象,好像它是被不同机制产生的一样。,异常数据通常作为噪音而忽略,但异常数据会带给我们新的视角。基于距离的孤立点的检测。原创 2022-12-09 09:02:08 · 470 阅读 · 0 评论 -
数据挖掘期末6
什么是Hadoop:Hadoop是一个软件框架,用于跨大型计算机集群对大型数据集进行分布式处理TB PB级别。原创 2022-12-09 09:00:12 · 492 阅读 · 0 评论 -
数据挖掘期末复习03
其次:将FP树划分为一组条件数据库(每个数据数据库关联一个频繁项或:模式段),挖掘每个条件数据库获取频繁项集。性质2:相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。性质1:如果一个项集是频繁的,则它的所有子集一定也是频繁的。首先:将代表频繁项集合数据库压缩到FP树上。提高Apriori算法的方法。不同于Apriori算法的“构建条件模式基(子数据库))”范型,而是使用一种被称作。原创 2022-12-05 16:22:08 · 731 阅读 · 0 评论 -
数据挖掘期末复习01-02
什么是大数据?大数据的特征什么是数据挖掘知识发现的流程是什么?核心?(KDD)数据挖掘的四大任务数据挖掘与其他学科好像没什么东西学科的交叉性:机器学习、数据库、统计学、拓扑学等具有紧密的联系挑战:高维,大数据、数据类型、参数、数据演化性和数据隐私/安全性常见工具包/期刊、会议。认识数据与数据预处理数据的属性:分类型和数值型数据的统计特征中心趋势:中位数:有序数据值的中间值。均值:总和/个数中列数:数据集的最大和最小值的平均值众数n对于非对称的单峰数据,有以下经验关系: mean-mode ~ 3*原创 2022-11-28 16:42:44 · 858 阅读 · 0 评论