
大数据
Datawhale
一个开源的学习组织
展开
-
大数据的相关技术(Technology)
本文主要展示解决海量数据问题的时候使用的技术,注意这是从技术角度进行分析,只是一种思想并不代表业界的技术策略。常用到的算法策略.分治:多层划分、MapReduce排序:快速排序、桶排序、堆排序数据结构:堆、位图、布隆过滤器、倒排索引、二叉树、Trie树、B树,红黑树Hash映射:hashMap、simhash、局部敏感哈希排序排序: 将一组无序的集合,根据某个给定的条件...原创 2019-07-29 09:38:22 · 686 阅读 · 0 评论 -
大数据方向面试题目
1. 相同URL题目: 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:估计每个文件的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍历文件a,对每个url求取 hash(url)%1000[比如ASCII码值求和], 然后根据所取得的值将ur...原创 2019-07-29 20:58:57 · 1159 阅读 · 0 评论 -
海量数据处理
常用技术概述如今互联网产生的数据量已经达到PB级别,如何在数据量不断增大的情况下,依然保证快速的检索或者更新数据,是我们面临的问题。所谓海量数据处理,是指基于海量数据的存储、处理和操作等。因为数据量太大无法在短时间迅速解决,或者不能一次性读入内存中。在解决海量数据的问题的时候,我们需要什么样的策略和技术,是每一个人都会关心的问题。今天我们就梳理一下在解决大数据问题的时候需要使用的技术,...原创 2019-07-28 18:14:36 · 589 阅读 · 0 评论