
数据平台-基础架构
文章平均质量分 79
小尼人00
人生一直在不断的探索中,才知道一些东西的真正含义,为了在探索的路途中少走弯路,早日达到心中的愿景,我认为没有什么比开阔眼界更重要的了。
展开
-
Storm及Hadoop比较 && Strom优点
一、 比较 Storm:分布式实时计算,强调实时性,常用于实时性要求较高的地方Hadoop:分布式批处理计算,强调批处理,常用于数据挖掘、分析二、 优点1. 简单编程在大数据处理方面相信大家对hadoop已经耳熟能详,基于Google Map/Reduce来实现的Hadoop为开发者提供了map、reduce原语,转载 2015-05-09 15:52:55 · 907 阅读 · 0 评论 -
flume-ng+Kafka+Storm+HDFS 实时系统组
http://www.aboutyun.com/thread-6855-1-1.htmlhttp://blog.youkuaiyun.com/zxcvg/article/details/18600335/转载 2015-05-28 00:17:28 · 702 阅读 · 0 评论 -
thrift的使用介绍
一、About thrift 二、什么是thrift,怎么工作? 三、Thrift IDL 四、Thrift Demo 五、Thrift 协议栈 以及各层的使用(java 为例) 六、与protocolbuffer的区别 一、About thrift thrift是一种可伸缩的跨语言服务的发展软件框架。它结合了功能强大的软件堆栈的转载 2015-05-28 23:13:51 · 735 阅读 · 0 评论 -
Kafka(二):环境搭建&测试
本文基于Kafka 0.8在一台机器上构建一个3个节点的kafka集群,并测试producer、consumer在正常情况下的行为,以及在lead broker/follow broker失效情况下的行为1.下载并解压kafka 0.8.0 release$ mkdir kafka$ wget http://apache.dataguru.cn/kafka/0.8.0/ka转载 2015-06-05 17:06:27 · 909 阅读 · 0 评论 -
消息订阅发布系统Apache Kafka分布式集群环境搭建和简单测试
一、什么是kafka? kafka是LinkedIn开发并开源的一个分布式MQ系统,现在是Apache的一个孵化项目。在它的主页描述kafka为一个高吞吐量的分布式(能将消息分散到不同的节点上)MQ。Kafka仅仅由7000行Scala编写,据了解,Kafka每秒可以生产约25万消息(50 MB),每秒处理55万消息(110 MB)二、kafka的官方网站在哪里?转载 2015-06-05 17:13:49 · 599 阅读 · 0 评论 -
Kafka(一):基础
本文基于Kafka 0.81. 引言互联网够公司的日志无处不在,web日志,js日志,搜索日志,监控日志等等。对于这些日志的离线分析(Hadoop),wget&rsync虽然人力维护成本较高,但可以满足功能行需求。但对于这些日志的实时分析需求(例如实时推荐,监控系统),则往往必须要引入一些“高大上”的系统。传统的企业消息系统(例如WebSphere)并不是非常适合大规模的日转载 2015-06-05 15:14:11 · 566 阅读 · 0 评论 -
Kafka集群partition replication自动分配分析
1. Kafka集群partition replication默认自动分配分析下面以一个Kafka集群中4个Broker举例,创建1个topic包含4个Partition,2 Replication;数据Producer流动如图所示:(1)(2)当集群中新增2节点,Partition增加到6个时分布情况如下:副本分配逻辑规则如下:转载 2015-06-28 17:11:10 · 2080 阅读 · 0 评论 -
sqoop2 调研
sqoop2 调研 日期 版本 说明 修改人员 确认人员 2015-12-16 2.0 第二版 bean beansqoop简介sqoop 即 SQL to Hadoop ,是一款方便的在传统关系数据库与 Hadoop 之间进行数据迁移的工具,充分利用 MapReduce 并行特点以批处理的方式加快数据传输,发展至今主要演化了二大版本,sqoop1和sqoop原创 2016-02-25 14:16:35 · 2103 阅读 · 0 评论