
hadoop
CoffeeAndIce
提前预备解决方案虽然耗时,但为了更好的摸鱼学习,这些时间是值得花费的
展开
-
(防坑笔记)hadoop3.0 (二) HDFS结构及对接操作
防坑留言: 不但要能简单写出伪分布式,还要对其配置文件为什么这么写有一定理解才容易找出bug,分析原因,解决问题其实详细api官网是提供的,我这里简单介绍一下我用的HDFS结构NameNode:名字节点 1、 整个文件系统的管理节点。文件系统的文件目录树。 2、接收用户的操作请求 包括 hdfs-site.xml 文原创 2017-12-26 14:52:13 · 2286 阅读 · 0 评论 -
(防坑笔记)hadoop3.0 (五) Hive的入门与数据类型
简单提提:Hive是一个仓储结构的工具,能对hadoop中的文件以类 sql的方式查询出来,也可以让熟悉mapper/reduce的开发者进行自定义操作,单总归而言,它只是一个解析引擎,将HiveQL语句解析成job任务让hadoop执行操作;HDFS的目录/文件,按表名把文件夹分开。如果是分区表,则分区值是子文件夹,可以直接在M/R Job里使用这些数据 特别注意:包含 *原创 2018-01-03 16:32:19 · 1679 阅读 · 0 评论 -
(防坑笔记)hadoop3.0 (一) 环境部署与伪分布式(hdfs)
防坑留名:为了避免以后自己遇到什么坑爹的东西,先留脚印给自己。这个hadoop呢,主要是可以让用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。这点比较厉害了。它主要是用来做数据分析,支持低端服务器集群(这点美滋滋- - ),先抓取大量数据,利用数据运算分析,获取日志,显示报表~~~~~;原创 2017-12-23 11:57:31 · 13869 阅读 · 13 评论 -
(防坑笔记)hadoop3.0 (三) MapReduce流程及序列化、偏移值(MapReduce)
防坑留言:一种将数据量分成小块计算后再汇总的一种方式吧,基本理解 一张图简单构建MapReduce的基本思路map():相当于分解任务的集合吧reduce(): 相当于对分解任务运算结果的汇总 以上的两种函数的形参都是K/V结构Mapper的任务过程(其中的mappe任务是一个java进程)原创 2017-12-28 12:20:47 · 2508 阅读 · 0 评论 -
(防坑笔记)hadoop3.0 (四)MapReduce的输入输出解析及常用数据切分方式(附带压缩)
防坑留言: 主要是对MapReduce的输入与输出进行 分析,并且能够自定义方法,同时了解其他数据切分方式MapReduce的输入输出输入处理类:上图的类中为输入处理类(仅以这个为例) InputFormat | FileInputFormat |原创 2017-12-29 11:23:13 · 1145 阅读 · 0 评论