
大数据&实时计算
文章平均质量分 85
蒙奇D路飞
中科大软件工程硕士,目前在百度工作,在电子商务搜索部,从事凤巢业务的研发工作。
展开
-
【Samza系列】实时计算Samza中文教程(四)—API概述
上一篇和大家一起宏观上学习了Samza平台的架构,重点讲了一下数据缓冲层和资源管理层,剩下的一块很重要的SamzaAPI层本节作为重点为大家展开介绍。 当你使用Samza来实现一个数据流处理逻辑时,你必须实现一个叫StreamTask的接口,如下所示:public class MyTaskClass implements StreamTask { public void翻译 2014-10-30 13:18:32 · 2681 阅读 · 1 评论 -
【samza系列】实时计算框架Samza学习指南-前言
Twitter的流处理系统Storm最近出现了一个“翻版”——Samza。Samza是近日由LinkedIn开源的一项技术,它是一个分布式流处理框架,专用于实时数据的处理,非常像Twitter的流处理系统Storm。不同的是Samza基于Hadoop,而且使用了LinkedIn自家的Kafka分布式消息系统。Storm和Samza极其相似,就像LinkedIn的Chris Riccomini在博客中阐述的那样:“[Samza]可以帮助你构建应用,处理消息队列——更新数据库、计数以及其他的聚合、转换消息等等。原创 2014-10-27 21:10:07 · 5120 阅读 · 1 评论 -
【Samza系列】实时计算Samza中文教程(一)背景
大家应该听我在前言篇里扯皮后,迫不及待要来一看Samza究竟是何物了吧?先了解一下Samza的Background是必不可少的(至少官网上是放在第一个的),我们需要从哪些技术背景去了解呢? 什么是消息(Messaging)? 消息系统是一种实现近实时异步计算的流行方案。消息产生时可以被放入一个消息队列(ActiveMQ,RabbitMQ)、发布-订阅系统(Kestrel翻译 2014-10-27 21:18:01 · 3334 阅读 · 0 评论 -
【Samza系列】实时计算Samza中文教程(二)——概念
希望上一篇背景篇让大家对流式计算有了宏观的认识,本篇根据官网是介绍概念,先让我们看看有哪些东西呢? 概念一:Streams Samza是处理流的。流则是由一系列不可变的一种相似类型的消息组成。举个例子,一个流可能是在一个网站上的所有点击,或者更新到一个特定数据库表的更新操作,或者是被一个服务或者事件数据生成所有日志信息。消息能够被加到另一个流之后或者从一个流中读取。一个翻译 2014-10-27 21:36:48 · 2457 阅读 · 0 评论 -
【Samza系列】实时计算Samza中文教程(三)——架构
本篇紧接着概念篇,从宏观角度上看一下Samza实时计算服务的架构是什么样的? Samza是由以下三层构成: 1. 数据流层(A streaming layer) 2. 执行层(An execution layer) 3. 处理层(A progressing layer) 那Samza是依靠哪些技术完成以上三层的组合呢翻译 2014-10-29 15:34:04 · 3031 阅读 · 0 评论