
从零开始学习hadoop
从零开始学习hadoop
码太狼
这个作者很懒,什么都没留下…
展开
-
Centos7离线安装CDH5.13.1-Hadoop集群
1.软件准备 安装之前需要准备以下安装包或者安装必要环境 1.jdk1.8 (不要安装openjdk,要安装oracle官网的jdk1.8) 2.mysql(这里我使用docker运行,因为docker方便,当然你也可以自己部署mysql) 3.Cloudera Manager, http://archive.cloudera.com/cm5/cm/5/ 下载对应操作系统版本的cm,原创 2018-01-24 11:10:10 · 5827 阅读 · 0 评论 -
hadoop(八)-hdfs原理及架构设计
HDFS 是一个能够面向大规模数据使用的,可进行扩展的文件存储与传递系统。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和 存储空间。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。即使系统中有某些节点脱机,整体来说系统仍然可以持续运作 而不会有数据损失。 一、HDFS体系结构 1.1 Namenode Nameno原创 2018-01-25 16:38:50 · 3903 阅读 · 0 评论 -
hadoop(七)-hadoop参数配置
1. hdfs-site.xml dfs.name.dir NameNode 元数据存放位置 默认值:使用core-site.xml中的hadoop.tmp.dir/dfs/name dfs.block.size 对于新文件切分的大小,单位byte。默认是64M,建议是128M。每一个节点都要指定,包括客户端。 默认值:128M dfs.data.dir DataNode在本地磁盘存原创 2018-01-25 16:20:53 · 4200 阅读 · 0 评论 -
hadoop(六)-Java读写hdfs文件
HDFS是存取数据的分布式文件系统,HDFS文件操作常有两种方式,一种是命令行方式,另一种是JavaAPI。 要在java工程中操作hdfs,需要引入一下jar包,我的maven工程中的pom.xml文件中增加如下几个依赖: dependency> groupId>org.apache.hbasegroupId> artifactId>hb原创 2018-01-25 16:00:50 · 4647 阅读 · 0 评论 -
hadoop(五)-hdfs命令行基本命令
HDFS是存取数据的分布式文件系统,那么对HDFS的操作,就是文件系统的基本操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的shell对文件的操作,如ls、mkdir、rm等。 调用文件系统(FS)Shell命令应使用bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme:原创 2018-01-25 15:55:31 · 4986 阅读 · 0 评论 -
hadoop(四)-hadoop的 inputformat、outputformat、recordreader、recordwriter
InputFormat和RecordReader Hadoop提出了InputFormat的概念 org.apache.hadoop.mapreduce包里的InputFormat抽象类提供了如下列代码所示的两个方法 public abstract class InputFormatK, V> { public abstract List getSplits(JobContext原创 2018-01-03 14:04:58 · 3691 阅读 · 0 评论 -
hadoop(三)-编译hadoop2.x
编译hadoop,hadoop是用java写的,虽然很多功能都可以完全依靠jvm而不依赖操作系统可以实现,但有些功能必须要依赖操作系统系统来实现,比如(bzip2, lz4, snappy, zlib压缩) 这时就需要对hadoop进行编译,生成本操作系统的native文件。 编译环境 maven3(配置国内镜像) jdk1.8 hadoop2.7.5 编译 安装proto原创 2017-12-20 17:15:57 · 3627 阅读 · 0 评论 -
hadoop(二)-hadoop原理及架构
Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。 1.HDFS HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性原创 2018-01-25 15:29:26 · 4470 阅读 · 0 评论 -
hadoop(一)-hadoop2.x centos安装
简介 hadoop入门之搭建hadoop集群环境,想要学习hadoop的朋友可以先从搭建hadoop集群开始慢慢理解和使用hadoop。 一.环境 机器 192.168.1.21(namenode,sesondarynode) 192.168.1.22(data) 192.168.1.23(data) 软件 hadoop-2.6.4-tar.gz jdk1.7.tar.g原创 2017-02-09 09:34:29 · 4400 阅读 · 0 评论