hadoop与hdfs随笔

最新推荐文章于 2025-12-18 08:47:14 发布

原创最新推荐文章于 2025-12-18 08:47:14 发布 · 172 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop

大数据专栏收录该内容

3 篇文章

订阅专栏

本文介绍Hadoop生态圈中的关键组件，如Flume、Sqoop、Hive、Pig、Oozie、Zookeeper和HBase，并对比了Apache Hadoop、CDH和HDP的不同。同时，详细阐述了Hadoop伪分布式环境下的安装步骤，包括JDK安装、SSH配置、Hadoop下载与解压、配置文件修改、HDFS启动与验证。

hadoop生态常见组件：

1、flume：日志统一到hdfs处理；

2. sqoop：关系型数据到hdfs相互转换；

3. hive：hsql转换成mapreduce；

4. pig：脚本转换成MapReduce；

5. oozie：工作流管理；

6. zookeeper：管理员，负责hbase等单点问题；

7. hbase：基于bigtable的数据库

以上加上狭义的hadoop构成了hadoop生态圈，狭义的hadoop：

GFS-BIgTable-分布式计算 ==hdfs-hbase-mapreduce

hadoop生态圈选型：

1.apache hadoop：单个组件做的很好，但是存在不同版本兼容问题，不建议生产环境直接使用

2.CDH：Cloudera Distributed Hadoop 可以web化安装，解决了常见版本冲突，文档详细

3.HDP： Hortonworks Data Platform 操作比如说节点新增删除比cdh简单

hdfs设计目标：

1.巨大的分布式文件系统；

2.运行在普通的廉价机器上；

3.易扩展，为用户提供较高的容错性

Hadoop伪分布式安装步骤

1）jdk安装
   解压：tar -zxvf jdk-7u79-linux-x64.tar.gz -C ~/app
   添加到系统环境变量： ~/.bash_profile
       export JAVA_HOME=/home/hadoop/app/jdk1.7.0_79
       export PATH=$JAVA_HOME/bin:$PATH
   使得环境变量生效： source ~/.bash_profile
   验证java是否配置成功： java -v

2）安装ssh
   sudo yum install ssh
   ssh-keygen -t rsa
   cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

3）下载并解压hadoop
下载：直接去cdh网站下载
解压：tar -zxvf hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app

4）hadoop配置文件的修改(hadoop_home/etc/hadoop)
hadoop-env.sh
export JAVA_HOME=/home/hadoop/app/jdk1.7.0_79

   core-site.xml
       <property>
   <name>fs.defaultFS</name>
   <value>hdfs://hadoop000:8020</value>
   </property>

   <property>
   <name>hadoop.tmp.dir</name>
   <value>/home/hadoop/app/tmp</value>
   </property>

   hdfs-site.xml
       <property>
   <name>dfs.replication</name>
   <value>1</value>
   </property>

slaves

5）启动hdfs
   格式化文件系统（仅第一次执行即可，不要重复执行）：hdfs/hadoop namenode -format
   启动hdfs: sbin/start-dfs.sh
   验证是否启动成功：
       jps
           DataNode
           SecondaryNameNode
           NameNode

浏览器访问方式： http://hadoop000:50070

6）停止hdfs
sbin/stop-dfs.sh

Hadoop shell的基本使用
hdfs dfs
hadoop fs

问题：我们已经在hdfs-site.xml中设置了副本系数为1，为什么此时查询文件看到的3呢？
如果你是通过hdfs shell的方式put的上去的那么，才采用默认的副本系数1
如果我们是java api上传上去的，在本地我们并没有手工设置副本系数，所以否则采用的是hadoop自己的副本系数