
大数据
积跬步,积小流
这个作者很懒,什么都没留下…
展开
-
Hadoop从入门到放弃系列------Hive
有位大佬的博客HIVE讲得不错,出门左转https://www.cnblogs.com/qingyunzong/p/8707885.html#_labelTop全文的目录如下:Hive简介 什么是Hive 为什么使用Hive Hive特点 Hive和RDBMS的对比 Hive的架构 1、用户接口: shell/CLI, jdbc/odbc, webui Comma...转载 2018-09-11 16:39:35 · 541 阅读 · 0 评论 -
Hadoop从入门到放弃系列------HDFS
话不多说直接上学习成果,基本涵盖了HDFS的所有重点,能比较清晰的理清大致的脉络,这图能看明白,HDFS算是入坑了。Hadoop v1.x和Hadoop v2.x的架构存在区别,其他基础组件中也会有相应的区别...原创 2018-09-09 21:59:11 · 384 阅读 · 0 评论 -
Hadoop从入门到放弃系列------ZooKeeper
一、ZooKeeper的由来 ZooKeeper最早起源于雅虎研究院的一个研究小组,其宗旨就是解决分布式系统中的协调问题,并且自身无单点风险。再说下“ZooKeeper”这个名字由来的趣闻,在立项初期,考虑到之前内部很多项目都是使用动物的名字来命名的(例如Pig,Hive等),雅虎的工程师希望给这个项目也取一个动物的名字。时任研究院的首席科学家RaghuRamakrishnan开玩笑地...原创 2018-09-12 16:55:35 · 1402 阅读 · 0 评论 -
Hadoop从入门到放弃系列------Hadoop EcoSystem
下图展示了Hadoop生态的全貌,根据不同的应用场景选择不同的工具。其中最基础的就是HDFS,YARN和MapReduce图片来源:https://www.edureka.co/blog/hadoop-ecosystem整理的思维导图,每一个都是一个专题,后面慢慢啃...原创 2018-09-10 11:32:39 · 1860 阅读 · 0 评论 -
Hadoop从入门到放弃系列------MapReduce
一、MapReduce简介1.1 MapReduce是什么 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词一是软件框架,二是并行处理,三是可靠且容错,四是大规模集群,五是海量数据集。1.2 Ma...转载 2018-09-10 15:55:11 · 666 阅读 · 0 评论 -
Hadoop从入门到放弃系列------YARN
1、什么是YARN?YARN是"Yet Another Resource Negotiator"的缩写,顾名思义YARN是资源管理的工具,属于Hadoop生态中的基础组件之一。2、为什么引入YARN? 在Hadoop v1.0时代,作业调度全由MapReduce来完成,方式如下图:刚开始没什么问题,但随着Hadoop集群的规模扩大和作业量的极具上升,这种模式中Job Track...翻译 2018-09-10 22:44:39 · 868 阅读 · 0 评论