hadoop数据分析

本文详细介绍了在Linux环境下安装单机版本的Hadoop2.6.4,包括配置环境变量、修改配置文件、启动服务及格式化HDFS,同时指导如何通过Java代码远程调用Hadoop进行MapReduce操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、 在linux下安装单机版本的hadoop2.6.4:
在解压后的文件 /etc/hadoop 下修改
* vi hadoop-env.sh
增加
export JAVA_HOME
如果已经配置了系统的环境变量,就不需要此步骤

  • vi core-site.xml


hadoop.tmp.dir
/hadoop/tmp


fs.default.name
hdfs://10.100.82.241:9000

  • vi mapred-site.xml


    mapred.job.tracker
    10.100.82.241:9001

  • vi yarn-site.xml



mapreduce.framework.name
yarn


yarn.nodemanager.aux-services
mapreduce_shuffle

  • vi hdfs-site.xml


    dfs.replication
    1


dfs.namenode.name.dir
/hadoop/hadoop-2.6.0/dfs/name


dfs.datannode.data.dir
/hadoop/hadoop-2.6.0/dfs/data

  • 启动
    格式化Hadoop的文件系统HDFS
    bin/hadoop namenode -format
    格式化完毕后再启动hadoop
    sbin/start-all.sh

验证hadoop是否安装成功
http://localhost:50030 (MapReduce的web页面)
http://localhost:50070 (HDFS的WEB页面)
如果都能查看,说明hadoop已经安装成功
(注意防火墙开放着2个端口)
* 查看 jps
[root@localhost hadoop]# jps
5081 NodeManager
4885 SecondaryNameNode
5208 Jps
4255 ResourceManager
4753 DataNode
[root@localhost hadoop]#

  • 查看report的信息
    [root@localhost bin]# ./hadoop dfsadmin -report
    DEPRECATED: Use of this script to execute hdfs command is deprecated.
    Instead use the hdfs command for it.

Configured Capacity: 18746441728 (17.46 GB)
Present Capacity: 15697825792 (14.62 GB)
DFS Remaining: 15697821696 (14.62 GB)
DFS Used: 4096 (4 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0


Live datanodes (1):

Name: 127.0.0.1:50010 (localhost)
Hostname: localhost
Decommission Status : Normal
Configured Capacity: 18746441728 (17.46 GB)
DFS Used: 4096 (4 KB)
Non DFS Used: 3048615936 (2.84 GB)
DFS Remaining: 15697821696 (14.62 GB)
DFS Used%: 0.00%
DFS Remaining%: 83.74%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Thu Mar 03 17:14:01 CST 2016

  • 记得防火墙开发配置的2个端口,如果防火墙采用的是IPTABLES的话如下:
    vi /etc/sysconfig/iptables #编辑防火墙配置文件

加上要开放的端口:

-A INPUT -m state –state NEW -m tcp -p tcp –dport 22 -j ACCEPT

-A INPUT -m state –state NEW -m tcp -p tcp –dport 80 -j ACCEPT

-A INPUT -m state –state NEW -m tcp -p tcp –dport 8080 -j ACCEPT

systemctl restart iptables.service #最后重启防火墙使配置生效

systemctl enable iptables.service #设置防火墙开机启动

service iptables stop #停止

chkconfig iptables off #禁用

2、JAVA代码里面远程调用hadoop,进行MapReduce操作

在Hadoop上运行MapReduce任务的标准做法是把代码打包到jar里面,上传到服务器,然后用命令行启动。如果你是从一个Java应用中想要启动一个MapReduce,那么这个方法真是又土又麻烦。

其实YARN是可以通过Java程序向Hadoop集群提交MapReduce任务的。与普通的任务不同的是,远程提交的Job由于读不到服务器上的mapred-site.xml和yarn-site.xml,所以在Job的Configuration里面需要添加一些设置,然后再提交就可以了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值