
Hadoop
csdn_今日有雨
不积跬步,无以至千里;不积小流,无以成江海!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一、初识Hadoop
Hadoop是什么? Hadoop是由Apache基金会所开发的分布式基础架构。Hadoop是一种分布式存储数据和计算的框架,擅长存储大量的半结构化数据集,擅长分布式计算-快速的跨多台机器处理大型数据集合。Hadoop也泛指一组相关的项目,这些项目都使用这个基础平台进行分布式计算和海量数据处理。并构成了Hadoop生态系统。Hadoop的发行版本:1.x、0.22和2.x。 Had原创 2016-07-07 00:28:03 · 641 阅读 · 0 评论 -
二、大数据相关的几个名词解释
MapReduce编程模型 MapReduce是一套从海量源数据提取分析元素最后返回结果集的编程模型。编程模型是处理并结构化特定问题的方式。MapReduce程序本质上是并行运行的,由JobTrackers和TaskTrackers组成。其优势在于处理大规模数据集。 将查询表示成MapReduce作业,过程分为两个处理阶段:map阶段和reduce阶段。 HDFS原创 2016-07-08 22:05:49 · 3584 阅读 · 0 评论 -
Hadoop 任务优先级设置(MapReduce)
作业提交到的队列:mapreduce.job.queuename 作业优先级:mapreduce.job.priority Pig版本: SET mapreduce.job.queuename root.etl.distcp; SET mapreduce.job.priority HIGH; Hive版本: SET mapreduce.job.q转载 2017-04-01 11:03:33 · 3237 阅读 · 1 评论