
数据算法
大数据算法
GatsbyNewton
这个作者很懒,什么都没留下…
展开
-
数据算法:Bloom Filter
Bloom Filter 是一种空间高效的概率型数据结构,不需要存储元素。同时,Bloom Filter 的缺陷也比较明显,它存在假阳性错误的误判,而且一般情况下无法删除元素。原创 2020-08-29 23:59:14 · 815 阅读 · 0 评论 -
数据算法: Bitmap
本文介绍了 Bitmap 的原理,和在大数据处理中的应用案例,如,判重、定基、排序、压缩。以及在位图图像和数码相机中的应用。最后,用位运算的方式实现了 Bitmap。原创 2020-03-14 21:49:17 · 698 阅读 · 0 评论 -
基于Spark实现的超大矩阵运算
由于标题强调了是在Spark平台实现的矩阵运算,所以本文会非常有针对性的介绍,甚至细节到Spark RDD的算子。1.算法描述思想其实很简单,就是矩阵分块计算,而分块矩阵就成了小矩阵,然后就借助于Breeze实现。而对于Spark平台而言,其处理流程如下图:2.矩阵分块依据这里仅仅提供一种思路,所以仅供参考。假设有两个矩阵A和B,其中A是m*k的矩阵,B是k*n的矩阵,CP原创 2015-11-10 21:27:02 · 13098 阅读 · 3 评论 -
Strassen算法笔记
1.算法推导矩阵通用的乘法如下面演示:即使对于方阵也是类似的计算过程:不过,好在有德国数学家Volker Strassen的研究,提出了Strassen算法。该算法的简单介绍如下:不妨设有矩阵A、B,矩阵C=A*B,如下:用矩阵乘法可以得出下面的式子:现在定义7个新矩阵(读者可以试着思考下它们的由来):最后,通过化原创 2015-11-01 12:55:15 · 2679 阅读 · 0 评论