hadoop初体验

最新推荐文章于 2025-03-06 23:30:00 发布

织呜猪

最新推荐文章于 2025-03-06 23:30:00 发布

阅读量269

点赞数

分类专栏：大数据文章标签： hadoop 大数据

本文链接：https://blog.youkuaiyun.com/qq_41837332/article/details/107382519

版权

大数据专栏收录该内容

1 篇文章

订阅专栏

本文档详细介绍了在Ubuntu 18.04上安装Hadoop的步骤，包括配置JDK、设置环境变量、下载及解压Hadoop、配置环境。接着讲解了Hadoop的基本命令，如查看目录、创建/删除目录、读取文件内容等。最后，通过一个简单的WordCount Java程序展示了如何进行分词处理，并指导了如何运行和查看结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

安装搭建环境

基本命令

简单分词处理

1.安装搭建
（环境：ubuntu 18.04 LTS）

安装 jdk8
- sudo apt update #更新软件源的metadata
- sudo apt install openjdk-8-jdk-headless
- sudo apt install net-tools openssh-server
配置环境变量
- gedit ~/.bashrc
- 在文件末另起一行添加如下内容，并保存export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64/
- 运行命令 source ~/.bashrc 使之生效
下载hadoop
- cd ~/Downloads
- wget "https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz"
解压
- sudo mkdir /usr/local/hadoop
- sudo tar xzf hadoop-2.7.7.tar.gz -C /usr/local/hadoop
修改权限
- sudo chmod -R 755 /usr/local/hadoop/hadoop-2.7.7
- sudo chown -R fosia:fosia /usr/local/hadoop/hadoop-2.7.7
fosia是我的用户名
查看hadoop版本信息：/usr/local/hadoop/hadoop-2.7.7/bin/hadoop version
(配置了环境之后我们可以直接运行hadoop version来查看版本信息）
配置一下环境变量，在~/.bashrc文件末加上如下内容并保存
- export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.7
- export PATH=$PATH:$HADOOP_HOME/sbin
- export PATH=$PATH:$HADOOP_HOME/bin
运行命令 source ~/.bashrc 使之生效
这样我们在运行hadoop的时候就不用写/usr/local/hadoop/hadoop-2.7.7/bin这么长的绝对路径

（Hadoop默认的是单机版本，不影响后续的简单操作，分布式版本网上也有搭建教程）

2.基本命令

查看目录
- 直接运行hdfs dfs -ls是查看根目录
- 查看特定目录时运行hdfs dfs -ls 路径例如hdfs dfs -ls /test
创建目录
- hdfs dfs -mkdir 路径
- 例如hdfs dfs -mkdir /test/test1
目录包含的文件大小
- hdfs dfs -du 路径
- 例如hdfs dfs -du /test/test1
查看文件内容
- hdfs dfs -cat 文件
- 例如hdfs dfs -cat output
删除
- 删除目标目录：hdfs dfs -rm
- 删除目标目录下的所有目录：hdfs dfs -rm -r
把本地文件复制到hdfs的文件
- hdfs dfs -put 本地文件 hdfs中的文件
- 例如hdfs dfs -put /Desktop/test.txt input
复制文件到目标文件
- hdfs dfs -cp output /test/test1
移动文件
- hdfs dfs -mv /output /test/test1

3.简单的分词处理

下载eclipse
- 下载：可以在虚拟机内下载也可以下载之后把tar文件拖入虚拟机
- 添加jar：分别建立用户hadoop_commom,hadoop_hdfs,hadoop_mapreduce并且添加相应的jar
创建java工程WordCount
- 创建过程中加入我们刚才创建的用户
- 在src新建类WordCount
- 粘贴代码下面代码保存

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordCount {  
  public static class TokenizerMapper       
        extends Mapper<Object, Text, Text, IntWritable>{    
      private final static IntWritable one = new IntWritable(1);   
      private Text word = new Text();    
      public void map(
      Object key, Text value, Context context) 
      throws IOException, InterruptedException {            
        StringTokenizer itr = new 
        StringTokenizer(value.toString());      
      while (itr.hasMoreTokens()) {
              word.set(itr.nextToken());
              context.write(word, one);      
        }
      }  
    }  
   public static class IntSumReducer        
     extends Reducer<Text,IntWritable,Text,IntWritable> {    
        private IntWritable result = new IntWritable();    
        public void reduce(Text key, Iterable<IntWritable> values,Context context ) 
        throws IOException, InterruptedException {      
        int sum = 0;      
        for (IntWritable val : values) {       
         sum += val.get();      
        }      
        result.set(sum);     
         context.write(key, result);   
          }  
        }  
        public static void main(String[] args) throws Exception {    
        if(args.length!=2){        
        System.err.println("Uage: wordcount <in> <out>");        System.exit(2);    
        }    
        Configuration conf = new Configuration();    
        Job job = Job.getInstance(conf, "word count");    
        job.setJarByClass(WordCount.class);    
        job.setMapperClass(TokenizerMapper.class);    
        job.setCombinerClass(IntSumReducer.class);    
        job.setReducerClass(IntSumReducer.class);    
        job.setOutputKeyClass(Text.class);    
        job.setOutputValueClass(IntWritable.class);    
        FileInputFormat.addInputPath(job, new Path(args[0]));    
        FileOutputFormat.setOutputPath(job, new Path(args[1]));    
        System.exit(job.waitForCompletion(true) ? 0 : 1);     
        }
      }