
云计算
Vigor
微信
schrodingerman
展开
-
storm实时流式计算框架集群搭建过程
这几天在其他同事的帮助下,调研了twitter的开源流式计算框架storm的使用,下面分享一下storm集群的安装配置过程。以作备忘之用。我的实验机器为:195和196如果转载请注明出处:comaple的博客首先:安装依赖包1, ZeroMQ 2.1.72, JZMQ3, Java4, Python5, Unzip这里只需要安装1,转载 2012-10-13 16:22:41 · 1045 阅读 · 0 评论 -
Storm 本地模式运行WordCountTopology
Storm 本地模式运行WordCountTopology (2012-04-21 23:06:22)转载▼标签: storm maven 本地模式分类: storm 公司要求搭建Storm平台,用于对Storm平台的实时流处理做评估。任务交给了我。虽然说只是本地模式,但是却花了我好几天的转载 2012-12-25 11:05:02 · 10573 阅读 · 2 评论 -
storm简介
作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/109/twitter-storm简介/ 本文翻译自storm官方wiki: https://github.com/nathanmarz/storm/wiki/Rationale背景过去的十年是转载 2012-12-25 10:58:29 · 2243 阅读 · 0 评论 -
Storm源码浅析之topology的提交
原文:http://www.blogjava.net/killme2008/archive/2011/11/17/364112.html 作者:dennis (killme2008@gmail.com) 转载请注明出处。 最近一直在读twitter开源的这个分布式流计算框架——storm的源码,还是有必要记录下一些比较有意思的地方。我按照storm的主要概念进行组转载 2012-12-25 10:55:24 · 685 阅读 · 0 评论 -
一般随机抽样并不能保持统计特性
举一个具有启发性的例子如果根据一天内很多人的吃饭记录如:张三 早餐李四 中餐张三 晚餐。。。的数据,随机抽取10%进行统计假设本来数据有s个人吃了1顿,d个人吃了2顿那么吃两顿饭的人占全部人的比例应该是 d/(s +d)s在抽样样本中有s/10,而d只有d/100是两条吃饭记录都选中,18d/100是只选中一个记录所以样本结果变成了(d/100) / (d/原创 2012-12-04 21:16:34 · 686 阅读 · 0 评论 -
MapReduce:在大规模集群上的数据处理简化(下)
3.5任务粒度 我们把map阶段细分为M片,把reduce阶段细分为R片,正如上面描述的那样,理想情况下,M和R都必须比worker的数量要大。使得每一台机器执行很多不同任务容易做到动态负载均衡,而且当一个worker出现故障的话恢复的速度也会提高:很多已经完成的map任务已经被传输到所有其他的工作机器上了。 对于M和R究竟有多大在我们的实现中具有实际的边界翻译 2012-11-14 23:03:56 · 1002 阅读 · 0 评论 -
MapReduce:在大规模集群上的数据处理简化(上)
MapReduce:在大规模集群上的数据处理简化(上) 摘要:MapReduce是一种编程模型和一种处理和生成大数据集合的相关实现。用户可以特化一个map函数用来处理一个key/value对用来生成一个中间的key/value对,然后用一个reduce函数归并所有的key相同的相关联的value。很多现实世界的任务可以再这个模型中表现出来,正如在这篇论文中描述的这样。翻译 2012-11-12 20:54:03 · 2765 阅读 · 0 评论 -
Storm集群组成简介
以下资料均来自:https://github.com/nathanmarz/storm/wiki/TutorialStorm集群的组件一个Storm集群特别类似于Hadoop集群,正如在Hadoop上面你运行“MapReduce作业”,在Strom上你运行“拓扑结构”,作业和拓扑结构它们是非常不一样的,一个最关键的不同时一个MapReduce作业最终是会结束的,然而一个拓扑进程信息是永远的翻译 2012-11-05 17:40:05 · 1958 阅读 · 0 评论 -
流数据处理学习2-流数据处理和其他框架的比较
以下内容均来自:http://en.wikipedia.org/wiki/Stream_processing流数据与之前的并行框架之间的比较基本计算机开始从序列执行框架开始,传统的CPUs基于SISD的,这意味着从理论上看一次只能运行一个操作。当计算需要世界化时,需要管理的数据增长得非常快。显然序列编程模型不能处理处理能力的增长需求。不同的努力被花费在寻找可供选择的方法去实现大数据量的计算翻译 2012-11-05 15:22:32 · 662 阅读 · 0 评论 -
流数据处理学习1
以下资料均来自:http://en.wikipedia.org/wiki/Stream_processing流处理是一种计算机编程范例,与简单指令复杂数据相关,允许一些应用更容易地开发一种受限制的并行计算,这些应用能使用多种计算单元,比如在一个GPU(图像处理器)或者现场可编程门阵列(FPGAs)上的FPUs(浮点计算单元),而不需要显式地管理分配,永不以及这些单元之间的通信。流处理范翻译 2012-11-05 13:18:23 · 1286 阅读 · 1 评论 -
storm平台搭建中需要安装的软件和安装方法
Installing native dependencies Page History The native dependencies are only needed on actual Storm clusters. When running Storm in local mode, Storm uses a pure Java messagin转载 2012-10-16 20:39:24 · 1002 阅读 · 0 评论 -
开源的实时计算平台storm简介
场景 伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜子,今天想买一副转载 2012-10-13 18:01:02 · 1468 阅读 · 0 评论 -
centos的twitter storm安装和storm-start的本地运行
这里介绍一下storm的基本安装和不用lein的storm-starter运行方法。一. Storm及相关软件安装1. 安装python2.7.2============================# wget http://www.python.org/ftp/python/2.7.2/Python-2.7.2.tgz# tar zxvf Python-2.7.2转载 2012-12-25 15:42:12 · 1189 阅读 · 0 评论