
hadoop
文章平均质量分 92
盛装吾步
这个作者很懒,什么都没留下…
展开
-
kafka入门:简介、使用场景、设计原理、主要配置及集群搭建
一、入门 1、简介 Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成,每...转载 2016-08-30 18:04:10 · 764 阅读 · 0 评论 -
HDFS源码分析
HDFS源代码分布在16个目录下,它们可以分为四类:1.基础包(包括工具包和安全包)包括工具和安全包。其中,hdfs.util包含了一些HDFS实现需要的辅助数据结构;hdfs.security.token.block和hdfs.security.token.delegation结合Hadoop的安全框架,提供了安全访问HDFS的机制。hdfs.util(一原创 2017-12-13 14:18:18 · 1637 阅读 · 0 评论 -
Hadoop2.7.3搭建单机、伪分布环境
1.下载jdk并安装去官网下就可以了,下完之后把文件移到/opt/Java下[plain] view plain copyguo@guo:~/下载$ mv ./hadoop-2.7.2-src.tar.gz /opt/Hadoop/ mv: 无法创建普通文件"/opt/Hadoop/hadoop-2.7.2.tar.gz": 权限不够 guo@guo:~/下载$ su root #你用sudo...原创 2017-12-05 10:45:16 · 1428 阅读 · 0 评论 -
hadoop集群配置文件详解
首先hadoop包放到一个程序目录下,例如我放到/usr/local下 完整路径为/usr/loca./hadoop-2.4.1然后配环境变量,前提是jdk1.7已经安装好了。环境变量配置:export JAVA_HOME=/usr/local/jdk1.7export JRE_HOME=/usr/local/jdk1.7/jreexport CLASSPATH=.:$转载 2017-12-15 16:46:04 · 8647 阅读 · 1 评论 -
kafka官网示例说明--KafkaProducer
The producer is thread safe and sharing a single producer instance across threads will generally be faster than having multiple instances.producere是线程安全的。所以多线程调用的时候,使用单个producer实例即可。翻译 2017-12-18 17:49:25 · 2972 阅读 · 0 评论 -
kafka官网示例说明--KafkaConsumer
Kafka client会消费kafka cluster中的记录。它将透明地处理Kafka集群中的服务器故障,并透明地适应它在集群内迁移的数据分区。该客户机还与服务器交互,以允许用户组使用消费者组来负载平衡消费(如下所述)。消费者维护TCP连接到必要的代理来获取数据。使用后未能关闭消费者会泄漏这些连接。消费者不是线程安全的。更多细节见多线程处理。偏移量Kafka为分翻译 2017-12-18 18:17:52 · 16132 阅读 · 0 评论 -
kafka+zookeeper安装配置
1、安装zookeeper步骤1:下载并解压zookeeper安装包tar -zxvf zookeeper-3.4.11.tar.gz 步骤2:配置环境变量 export ZOOK=/opt/hadoop/zookeeper-3.4.11 步骤3:配置文件 zoo.cfgcd conf/复制配置文件:cp zoo_sample.cfg zoo.cfg修改配置文件:#数据目录dataDir...原创 2018-02-26 14:55:30 · 13119 阅读 · 0 评论 -
redis安装配置
REmote DIctionary Server(Redis) 是一个由Salvatore Sanfilippo写的key-value存储系统。1、先到Redis官网(redis.io)下载redis安装包 2、解压并进入其目录 3、编译源程序。由于redis是C语言编写,因此需要编译。如果执行make报错,则Linux系统先安装GCC。 make 修改安装目录 make ins...原创 2018-02-28 16:09:45 · 498 阅读 · 0 评论 -
Apache 流框架 Flink,Spark Streaming,Storm对比分析
1.Flink架构及特性分析Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提供high level的API。Flink也提供 API来像Spark一样进行批处理,但两者处理的基础是完全不同的。Flink把批处理当作流处理中的一种特殊情况。在Flink中,所有 的数据都看作流,是一种很好的抽象,因为这更接近于现实世界。 1.1 基本架构...转载 2018-12-06 12:13:02 · 559 阅读 · 0 评论 -
Impala-大数据时代快速SQL引擎
背景随着大数据时代的到来,Hadoop在过去几年以接近统治性的方式包揽的ETL和数据分析查询的工作,大家也无意间的想往大数据方向靠拢,即使每天数据也就几十、几百M也要放到Hadoop上作分析,只会适得其反,但是当面对真正的Big Data的时候,Hadoop就会暴露出它对于数据分析查询支持的弱点。甚至出现《MapReduce: 一个巨大的倒退》此类极端的吐槽,这也怪不得Hadoop,毕原创 2017-11-28 15:03:30 · 7217 阅读 · 3 评论 -
Google Dremel数据模型详解
转载自:http://blog.youkuaiyun.com/dc_726/article/details/41627613首先简单介绍一下Dremel是什么,能解决什么问题。第二部分着重讲Dremel的数据模型,即数据结构。第三部分将谈一下在此数据结构上设计的算法。1 起源Dremel的数据模型起源于分布式系统的应用环境(Protocol Buffers,一种在Google内原创 2017-11-28 16:59:03 · 3138 阅读 · 1 评论 -
Hadoop与MPP
1. Hadoop是分布式计算平台,以hive应用为例,它的存储结构是HDFS,计算框架是MapReduce;MPP代表大规模并行处理,一个优点是可扩展性,数据在节点(分片)之间分割,每个节点只处理其本地数据。2. hive跟mpp的存储模型不一样,hive用的hdfs,而mpp需要自己做切分,自己做切分就带来动态调整的问题,hdfs的扩展是通过元数据来做的,他有中心节点用来存元数据,在加入新的节...原创 2016-08-24 17:54:58 · 3371 阅读 · 0 评论 -
java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray
在eclipse上运行hadoop报错:Exceptionin thread "main" java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BIILjav,这个问题折腾了我很久,后来找到方法解决。描述一下:电脑是win7的64位原创 2017-02-10 15:09:11 · 4146 阅读 · 1 评论 -
非结构化数据的存储与查询
当今信息化时代充斥着大量的数据。海量数据存储是一个必然的趋势。然而数据如何的存储和查询,尤其是当今非结构化数据的快速增长,对其数据的存储,处理,查询。使得如今的 关系数据库存储带来了巨大的挑战。分布存储技巧是云计算的根基,主要研究如何存储、组织和管理数据中心上的大规模海量数据.由于面临的数据规模和用户规模更加庞大,在可扩展性、容错性以及成本控制方面面临着更加严峻的挑战[1]。原创 2017-03-06 14:16:22 · 19949 阅读 · 0 评论 -
MapReduce架构
1.MapReduce架构(MRv1)MapReduce 也采用了 Master/Slave(M/S)架构。它主要由以下几个组件组成 :Client、JobTracker、 TaskTracker 和 Task。下面分别对 这几个组件进行介绍。 (1)Client 用户编写的MapReduce程序通过Client提交到JobTracker端 ;同时,用户可通过Clien原创 2017-09-30 14:09:47 · 2053 阅读 · 0 评论 -
Storm原理
1.Storm框架1、一个Storm集群的基本组件2、Tuple(元组)3、Streams (流)4、Spouts5、Bolts6、Topologies(拓扑)7、Stream groupings 流分组2.守护进程Storm ClusterStorm是基于数据流的实时处理系统,提供了大吞吐量的实时计算能力。通过数据入口获取每条到原创 2017-09-28 09:38:13 · 988 阅读 · 0 评论 -
Hadoop HA高可用集群配置详解
1 Hadoop HA架构详解1.1 HDFS HA背景HDFS集群中NameNode 存在单点故障(SPOF)。对于只有一个NameNode的集群,如果NameNode机器出现意外情况,将导致整个集群无法使用,直到NameNode 重新启动。影响HDFS集群不可用主要包括以下两种情况:一是NameNode机器宕机,将导致集群不可用,重启NameNode之后才可使用;二是计划内原创 2017-11-09 09:48:26 · 1571 阅读 · 0 评论 -
eclipse 中运行 Hadoop2.7.3 map reduce程序 出现错误(null) entry in command string: null chmod 0700
环境:windowsHadoop版本:hadoop2.7.3开发工具:eclispe-hadoop-plugin运行map reduce任务报错:(null) entry in command string: null chmod 0700解决办法:在https://github.com/SweetInk/hadoop-c转载 2017-11-09 16:34:17 · 2620 阅读 · 0 评论 -
Hadoop HA高可用集群搭建及常见问题处理
最近研究了下公司的hadoop集群并模仿搭建了一个在本地测试使用的hadoop集群。本文介绍下详细的搭建过程以及各种常见问题的处理解决。 1 , 前期准备1.1 , 准备Linux环境,配置虚拟机网络环境,修改虚拟机IP地址(最好使用第一种配置,简单且不容易出错) 注意,修改之前建议使用 root 管理员权限登陆,这样会避免特别多问题,等集群搭建好之后在用普通用户登...原创 2019-02-13 18:58:57 · 1296 阅读 · 0 评论