
数据挖掘
文章平均质量分 61
admondchen
这个作者很懒,什么都没留下…
展开
-
Count-Min sketch算法
给定数据流< 4,1,3,5,1,3,2,6,7,0,9 >,若哈希函数形如h(x)= (ax + b) mod 8,其中a和b是任意给定的常数。假设给定如下哈希函数:(1) h(x) = (3x + 2) mod 8;(2) h(x) = (7x + 5) mod 8;(3) h(x) = (5x + 3) mod 8。请利用Count-Min sketch算法估计频繁项。程序'''CountMinSketch 实现 已完成'''import numpy as np原创 2021-12-03 11:25:07 · 3242 阅读 · 0 评论 -
期望相似度
邻近性度量二元数据的相似性度量两个仅包含二元属性的对象之间的相似性度量也成为相似系数(similarity coefficient),通常在0和1之间取值,值为1表明两个对象完全相似,而值为0表明对象一点也不相似。有许多理由表明在特定情形下,一种系数为何比另一种好。设x和y是两个对象,都由n个二元属性组成。这样的两个对象(即两个二元向量)的比较可生成如下四个量(频率):$$f_{00}=x取0并且y取0的属性个数f_{01}=x取0并且y取1的属性个数f_{10}=x取1并且y取0的属性个数原创 2021-12-01 19:10:26 · 1465 阅读 · 2 评论 -
Misra-Gries 算法
Misra-Gries 算法参考https://www.cnblogs.com/super-zhang-828/p/7353217.html前言Misra-Gries算法是频繁项挖掘中一个著名的算法。频繁项就是那些在数据流中出现频率最高的数据项。频繁项挖掘,这个看似简单的任务却是很多复杂算法的基础,同时也有着广泛的应用。对于频繁项挖掘而言,一个简单的想法是,为所有的数据项分配计数器,当一个数据项到达,我们即增加相应计数器的值。但当数据流的规模较大时,出于内存的限制,我们往往不可能为每个数据项分配计原创 2021-12-01 20:14:19 · 2216 阅读 · 0 评论