
分布式计算
文章平均质量分 81
长空飞鹰
互联网IT技术族
展开
-
再识Secondary Namenode
初次在Hadoop中看见SecondaryNamenode的时候,给我的第一感觉就是,SecondaryNamenode是Namenode的一个备份,以防止Namenode出现单点故障,现在才明白,Secondary Namenode的作用是和FSimage, Fseditlog分不开的。 FSimage中保存的是整个文件系统的目录结构,而Fseditlog中是一些操作的日志文件。转载 2011-11-25 15:18:23 · 895 阅读 · 0 评论 -
Impala与Hive的比较
1. Impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从转载 2016-04-18 17:31:02 · 1392 阅读 · 0 评论 -
SparkShell实战
1、Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor; l驱动程序(Driver Program):运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver Program; l执行单元(Execu转载 2016-03-27 20:34:21 · 5814 阅读 · 0 评论 -
Storm与Spark Streaming比较
Storm风暴和Spark Streaming火花流都是分布式流处理的开源框架。这里将它们进行比较并指出它们的重要的区别。 处理模型,延迟 虽然这两个框架都提供可扩展性和容错性,它们根本的区别在于他们的处理模型。而Storm处理的是每次传入的一个事件,而Spark Streaming是处理某个时间段窗口内的事件流。因此,Storm处理一个事件可以达到秒内的延迟,而Spark Streami转载 2016-03-13 13:35:19 · 4077 阅读 · 0 评论 -
流式大数据处理的三种框架:Storm,Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。 Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓转载 2016-03-12 16:23:49 · 794 阅读 · 0 评论 -
scribe、chukwa、kafka、flume日志系统对比
1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。 本文从设转载 2016-03-12 15:41:01 · 466 阅读 · 0 评论 -
YARN学习
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器。 YARN把Job Tracker的两个主要功能(资源管理和作业调度/监控)分成了两个独立的服务程序——全局的资源管理(RM)和针对每个应用的应用 Master(AM),这里说的应用要么是传统意义上的MapReduce任务,要么是任务原创 2015-12-09 15:55:07 · 1235 阅读 · 0 评论 -
大数据进行时:聚光灯后的四大推手
这是一篇来自留英信息工程博士周文哲(@Wennie文哲)的一篇投稿,她于去年创业成立幸福佩智公司,专注于提供 Hadoop 的大数据处理与分析解决方案,产品已被应用到互联网广告、物联网等行业。 “大数据”这一话题在国内从今年起受到投资者追捧,也不断有高技术人才选择这个方向创业;但实际上国外对于“大数据”,已经走过了概念炒作阶段,出现了实际的应用,产生了实际的效益。周文哲这篇投稿,为我们详细揭转载 2012-09-19 18:01:52 · 3262 阅读 · 0 评论 -
Hadoop Streaming 实战: 多路输出
streaming把reduce的输出作为一个任务的最终输出,输出文件形如: part-00000、part-00001…… 文件个数为reduce任务个数 但是,有的时候,我们有多路输出的需求,eg:一部分数据作为下一个mapreduce任务的输入,另一部分数据直接供下游任务抓取,此时,我们就需要使用reduce的多路输出。 在hadoop-v2-u7中转载 2012-03-29 14:55:24 · 946 阅读 · 0 评论 -
hadoop状态分析系统chukwa
Apache 的开源项目 hadoop, 作为一个分布式存储和计算系统,已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时,集群自身的相关信息如何收集和分析呢?针对这个问题, Apache 同样提出了相应的解决方案,那就是 chukwa。 概述 chukwa 的官方网站是这样描述自己的: chukwa 是转载 2012-02-29 22:32:55 · 689 阅读 · 0 评论 -
Hadoop:从初出茅庐的小象变身行业巨人
由于具备低成本和前所未有的高扩展性,Hadoop已被公认为是新一代的大数据处理平台。就像30年前SQL(Structured Query Language)出现一样,Hadoop正带来了新一轮的数据革命。如今Hadoop已从初出茅庐的小象变成了行业的巨人,但Hadoop仍需继续完善。 基于Java语言构建的Hadoop框架实际上一种分布式处理大数据平台,其包括软件和众多子项目。在近十年中Hado转载 2012-02-03 11:52:03 · 668 阅读 · 0 评论 -
Hadoop错误码速查
经常遇到的exception是:PipeMapRed.waitOutputThreads(): subprocess failed with code N "OS error code 1: Operation not permitted" "OS error code 2: No such file or directory" "OS error code 3: No such proce转载 2012-01-13 11:37:30 · 1032 阅读 · 0 评论 -
hadoop安装部署
1.下载hadoop-0.20.2 wget http://mirror.bjtu.edu.cn/apache/hadoop/core/stable/hadoop-0.20.2.tar.gz 2.修改/etc/hosts文件,添加所有节点的ip-host映射 192.168.221.174 h1 192.168.221.175 h2 192.168.221.176 h3原创 2011-12-05 21:12:12 · 1180 阅读 · 0 评论 -
Hadoop常见问题及解决办法
1:ShuffleError: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer: 程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit-a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。 修改办法: 修改2个文件。 /etc/security/limits.conf vi/e转载 2011-11-25 15:18:26 · 1446 阅读 · 0 评论