
Hadoop
a坤
这个作者很懒,什么都没留下…
展开
-
Hadoop-HDFS工作机制
转自:https://www.cnblogs.com/laov/p/3434917.html简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ①保存多个副本,且提供容错机制...转载 2019-03-01 15:39:10 · 340 阅读 · 0 评论 -
Hadoop—MapReduce
转自:https://www.cnblogs.com/edisonchou/p/4287784.htmlhttp://blog.jobbole.com/1321/1.3 MapReduce工作机制MapReduce的整个工作过程如上图所示,它包含如下4个独立的实体: 实体一:客户端,用来提交MapReduce作业。 实体二:JobTracker,用来协调作...转载 2019-03-05 17:58:38 · 147 阅读 · 0 评论 -
Zookeeper简介以及其在Cloureda中的作用
一. Zookeeper是什么 Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目, 它主要是用来解决分布式应用中常常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。这个是官方的说法,其实就可以简单的认为ZooKeeper 是为分布式应用程序提供高性能协调服务的工具集合。二. Zookeeper的数据结构...原创 2019-03-09 15:43:13 · 257 阅读 · 0 评论 -
Zookeeper在Cloureda中的作用
一.Hadoop简单介绍Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户能够在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行快速运算和存储。Hadoop主要包括两部分:HDFS,YARN。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;并且它提供高吞吐量(high throughput)来訪问应用程序的数据,适...转载 2019-03-09 16:11:32 · 190 阅读 · 0 评论 -
RDD原理(Spark)
/ 什么是 RDD? / 传统的 MapReduce 虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是在迭代计算式的时候,要进行大量的磁盘 IO 操作,而 RDD 正是解决这一缺点的抽象方法。RDD(Resilient Distributed Datasets)即弹性分布式数据集,从名字说起:弹性当计算过程中内存不足时可刷写到磁盘等外存上,可与外存做灵活的数据交换;RD...转载 2019-03-09 22:34:46 · 254 阅读 · 0 评论 -
Spark的误解-不仅spark是内存计算,hadoop也是内存计算
1. 不仅spark是内存计算,hadoop也是内存计算:市面上有一些初学者的误解,他们拿spark和hadoop比较时就会说,Spark是内存计算,内存计算是spark的特性。请问在计算机领域,mysql,redis,ssh框架等等他们不是内存计算吗?依据冯诺依曼体系结构,有什么技术的程序不是在内存中运行,需要数据从硬盘中拉取,然后供cpu进行执行?所有说sprk的特点是内存计算相当于什么都...转载 2019-03-11 10:38:27 · 456 阅读 · 0 评论