
Hadoop
食梦鱼儿
只要一颗肯奋斗的心,上帝会眷恋每一个人~~~~
展开
-
Hadoop分布式文件系统HDFS的工作原理
Hadoop分布式文件系统HDFS的工作原理 Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。它能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。要理解HDFS的内部工作原理,首先要理解什么是分布式文件系统。 1、分布式文件系统 多台计算机联网协同工作(有时也称为一个集转载 2015-11-03 09:56:02 · 808 阅读 · 0 评论 -
想学习大数据技术,需要学习哪些技术
想学习大数据技术,需要学习哪些技术?大数据技术作为决策神器,日益在社会治理和企业管理中起到不容忽视的作用,美国,欧盟都已经将大数据研究和使用列入国家发展的战略,类似谷歌,微软,百度,亚马逊等巨型企业也同样把大数据技术视为生命线以及未来发展的关键筹码。这个系列的教程将从技术和应用的角度解读大数据与云计算里的具体内容,和你一起拔高人生的视野。首先,大数据技术是什么?原创 2015-11-03 10:30:16 · 1054 阅读 · 0 评论 -
深入理解Hadoop集群和网络
本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。AD:云计算和Hadoop中网络是讨论得相对比较少的领域。本文原文由Dell企业技术专家Brad Hedlund撰写,他曾在思科工作多年,专长是数据中心、云网络等。文章素材基于作者自己的研究、实验和Cloudera的培训转载 2015-12-01 11:08:35 · 482 阅读 · 0 评论 -
Hadoop框架发展史概述
每一个知道大数据的人都听说过Hadoop,作为基础框架,其凭借着低成本、高可靠、高扩展、高有效、高容错等特性成为最流行的大数据分析系统。要入门大数据,最好的办法就是理清Hadoop的生态系统。Hadoop是Apache软件基金会的顶级开源项目,是由原雅虎公司Doug Cutting根据Google发布的学术论文而创建的开源项目。Doug Cutting被称为Hadoop之父,他打造了目前在转载 2016-01-20 09:57:52 · 881 阅读 · 0 评论 -
Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to use Hbase and when to use Hive?....请教了^_^没关系这里我帮大家理清每个技术的原理和思路。Pig一种操作hadoop的轻量级脚本语言,最初又雅转载 2016-01-20 10:12:47 · 425 阅读 · 0 评论 -
大数据生态系统 - Hive详解
大数据生态系统 - Hive详解构建在Hadoop之上的数据仓库,数据计算使用MR,数据存储使用HDFS 因为数据计算使用mapreduce,因此通常用于进行离线数据处理Hive 定义了一种类 SQL 查询语言——HQL 类似SQL,但不完全相同可认为是一个HQL-->MR的语言翻译器。简单,容易上手转载 2016-01-20 10:15:33 · 814 阅读 · 0 评论 -
下一代 Hadoop YARN :相比于MRv1,YARN的优势
最近一段时间,经常看到有人在微博上说,“很多公司暂时用不到YARN,因为一般公司的集群规模并未像Yahoo、Facebook那样达到几千台,甚至将来几万台”。这完全是一种错误的观念,在Hadoop高速发展的时代,必须更正。实际上,上述观念只看到了YARN的扩展性(Scalability),扩展性是可用可不用的特性,中小型公司将YARN部署到小集群(按照IBM观点,集群规模小于200台的称为转载 2015-12-02 10:22:11 · 700 阅读 · 0 评论