
hadoop
那怪大尾巴狼咯
这个作者很懒,什么都没留下…
展开
-
Hadoop(四)hdfs基本操作
HDFS是Hadoop的分布式文件系统,存储海量数据,通过多HDFS操作的了解,进一步了解HDFS。HDFS上的操作,通过两个方面来了解,1:shell客户端,2:Java客户端。一,shell客户端shell命令操作hdfs的一般格式为hadoop fs [option] [command]或者hdfs dfs [option] [command]1.1,opti...原创 2019-07-29 10:07:38 · 438 阅读 · 0 评论 -
Hadoop(五)HBase基础
Apache HBase是Hadoop的数据库,一个分布式的,可扩展的,大数据存储组件。Apache HBase适合随机的、实时的读写你的大数据场景,HBase的目标是管理非常大的表,在商业硬件集群上管理10亿行级别和500W列级别的数据。HBase是一个开源的,分布式的,版本化的非关系数据库,模仿Google的Bigtable,BigTable是结构化数据分布式存储系统。正如Bigtable...原创 2019-07-29 11:14:13 · 326 阅读 · 0 评论 -
Hadoop(六)搭建分布式HBase集群
接上一章节,在单机版的HBase中,HMaster,HRegionServer,Zookeeper都在一个JVM进程中运行,通过两个阶段来搭建、学习分布式的HBase,伪分布式和分布式。一,伪分布式HBaseHBase仍然在单个主机上运行,但是每个HBase的守护进程(HMaster,HRegionServer,Zookeeper)作为一个单独的进程运行。分布式,伪分布式的HBase对于生...原创 2019-07-29 11:31:20 · 426 阅读 · 0 评论 -
Hadoop(一)基础概念
hadoop是一个大数据分布式存储和计算平台。hadoop1包括hdfs和mapreduce两部分核心hadoop2包括hdfs,yarn,mapreduce三部分核心,其中hdfs,hadoop分布式文件系统,可扩展,容错,高性能分布式文件系统,异步复制,一次写入多次读取,负责数据存储。包括namenode,datanode等部分。 yarn,资源调度,管理调度任务,支持其他计算框...原创 2019-07-25 16:42:33 · 241 阅读 · 0 评论 -
Hadoop(七)Hive基础
Hive是基于Hadoop的数据仓库工具,提供了在Hadoop分布式存储上对大数据集使用SQL进行查询、修改、管理数据的功能。Hive提供标准SQL功能,包括SQL:2003,SQL:2011和SQL:2016分析功能。Hive的SQL也可以通过用户自定义的函数(UDF),用户自定义聚合(UDAF)和用户自定义的表函数(UDTF)使用用户代码进行扩展。Hive不要求数据存储为某种特定的格式...原创 2019-07-31 11:42:47 · 486 阅读 · 0 评论 -
Hadoop(三)MapReduce
一,概述Hadoop MapReduce是一个可以轻松编写应用程序的软件框架,可靠,容错,在大型集群(数千节点)的商用硬件上并行处理大量数据(多TB级别的数据)。MapReduce是Hadoop的计算核心。MapReduce通常将输入数据集拆分为独立的块,这些块由Map任务以完全并行的方式处理。框架对Map的输出进行排序,然后输入到reduce任务。通常,作业的输入和输出都存储在文件系...原创 2019-07-26 16:16:12 · 430 阅读 · 0 评论 -
Hadoop(二)搭建Hadoop集群
在了解Hadoo基础之后,借助于docker快速实现虚拟化,搭建Hadoop集群,进一步了解Hadoop,实地测试,实地操作,更进一步的了解Hadoop。首先需要了解Hadoop的各个模块概念已经功能,确定搭建怎么样集群。本文选择搭建一个如下的集群。 容器 NameNode DataNode ResourceManager ...原创 2019-07-26 17:03:15 · 480 阅读 · 0 评论