
海量数据
文章平均质量分 82
blue_jjw
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《海量数据处理常用思路和方法》
1.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。转载 2013-03-29 09:53:32 · 619 阅读 · 0 评论 -
Storm集群安装部署步骤【详细版】
转自:http://www.cnblogs.com/panfeng412/archive/2012/11/30/how-to-install-and-deploy-storm-cluster.html本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。1. Stor转载 2013-07-05 18:02:07 · 832 阅读 · 0 评论 -
Storm使用到的相关技术总结
转自:http://www.cnblogs.com/panfeng412/archive/2012/12/16/storm-related-technique-summary.htmlStorm作为一个开源的分布式实时流计算框架,其内部实现使用了一些常用的技术,这里是对这些技术及其在Storm中作用的概括介绍。以此为基础,后续再深入了解Storm的内部实现细节。1. Zooke转载 2013-07-05 15:58:08 · 783 阅读 · 0 评论 -
Twitter Storm源代码分析之ZooKeeper中的目录结构
转自:http://xumingming.sinaapp.com/466/twitter-storm-code-analysis-zookeeper-dirs/我们知道Twitter Storm的所有的状态信息都是保存在Zookeeper里面,nimbus通过在zookeeper上面写状态信息来分配任务,supervisor,task通过从zookeeper中读状态来领取任务,同时su转载 2013-07-05 15:53:28 · 1056 阅读 · 0 评论 -
开源实时流处理系统小结
转自:http://www.cnblogs.com/panfeng412/archive/2013/02/21/open-source-real-time-stream-processing-systems.html开源实时流处理系统小结作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息网址: http://www.cnblogs.com/p转载 2013-07-05 15:48:34 · 1054 阅读 · 0 评论 -
对互联网海量数据实时计算的理解
转自:http://www.cnblogs.com/panfeng412/archive/2011/10/28/realtime-computing-of-big-data.html对互联网海量数据实时计算的理解1. 实时计算的概念互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果转载 2013-07-05 15:30:37 · 1056 阅读 · 0 评论 -
Storm数据流模型的分析及讨论
转自:http://www.cnblogs.com/panfeng412/archive/2012/07/29/storm-stream-model-analysis-and-discussion.htmlStorm数据流模型的分析及讨论本文首先介绍了Storm的基本概念和数据流模型,然后结合一个典型应用场景来说明Storm支持Topology之间数据流订阅的必要性,最后对转载 2013-07-05 15:10:49 · 1001 阅读 · 0 评论 -
分布式消息系统Kafka初步
转自:http://my.oschina.net/ielts0909/blog/92972在我们大量使用分布式数据库、分布式计算集群的时候,是否会遇到这样的一些问题:l 我想分析一下用户行为(pageviews),以便我能设计出更好的广告位l 我想对用户的搜索关键词进行统计,分析出当前的流行趋势。这个很有意思,在经济学上有个长裙理论,就是说,如果长裙转载 2013-07-10 16:15:17 · 1822 阅读 · 0 评论 -
Kafka分布式环境搭建
转自:http://my.oschina.net/ielts0909/blog/93190这篇文章将介绍如何搭建kafka环境,我们会从单机版开始,然后逐渐往分布式扩展。单机版的搭建官网上就有,比较容易实现,这里我就简单介绍下即可,而分布式的搭建官网却没有描述,我们最终的目的还是用分布式来解决问题,所以这部分会是重点。Kafka的中文文档并不多,所以我们尽量详细点儿写。转载 2013-07-10 16:20:31 · 2012 阅读 · 0 评论 -
找出N个整数中最大的K个数
如题:给出N个整数(N可能很大,以致无法装入内存),找出前K个最大的整数【解法一】当学生们信笔写下 float array [10000000],他们往往没有想到这个数据结构要如何在电脑上实现,是从当前程序的栈(Stack)中分配,还是堆(Heap),还是电脑的内存也许放不下这么大的东西?我们先假设元素的数量不大,例如在几千个左右,在这种情况下,那我们就排序一下吧。转载 2013-06-03 22:33:51 · 1231 阅读 · 0 评论 -
海量数据存储
如何处理海量数据在实际的工作环境下,许多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有以下几个方面:一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处转载 2013-05-15 09:41:21 · 1262 阅读 · 0 评论 -
教你如何迅速秒杀掉:99%的海量数据处理面试题
教你如何迅速秒杀掉:99%的海量数据处理面试题作者:July出处:结构之法算法之道blog前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的转载 2013-05-10 22:55:53 · 776 阅读 · 0 评论 -
Hadoop集群之Hive安装配置
Hadoop集群之Hive安装配置转自:Hadoop集群之Hive安装配置Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据。其在Hadoop的架构体系中承担了一个SQL解析的过程,它提供了对外的入口来获取用户的指令然后对指令进行分析,解析出一个MapReduce程序组成可执行计划,并按照该计划生成对应的MapReduc转载 2016-01-07 21:59:39 · 22939 阅读 · 3 评论