Hadoop Java 常用Api

最新推荐文章于 2024-12-22 12:20:36 发布
原创最新推荐文章于 2024-12-22 12:20:36 发布 · 869 阅读
4 ·
CC 4.0 BY-SA版权
hadoop 专栏收录该内容
20 篇文章
订阅专栏
本文介绍HDFS通过Java API进行文件操作的方法，包括文件的增删查改、移动、复制等功能，并演示了如何读写文件及获取文件元数据。
package com.ws;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.Before;
import org.junit.Test;

import java.io.BufferedInputStream;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.nio.charset.StandardCharsets;
import java.util.Arrays;
import java.util.HashMap;

public class JavaApi {
    FileSystem fs;
    String temp = "C:/Users/Wsong/Desktop/test/";

    private Path path(String path){
        return new Path(path);
    }
    @Before
    public void init() throws IOException {
        System.setProperty("HADOOP_USER_NAME","root");
        Configuration entries = new Configuration();
        entries.set("fs.defaultFS","hdfs://dream1:9000");
        fs = FileSystem.get(entries);
    }
    @Test
    public void testDelete() throws IOException {
        // 第二个参数是否递归
        fs.delete(path("/app1"),true);
    }
    // 创建目录
    @Test
    public void testMkdir() throws IOException {
        fs.mkdirs(path("/webapp/log"));
        fs.close();
    }
    // 移动，改名
    @Test
    public void testMvRename() throws IOException {
        // 只是针对最后一级目录
        fs.rename(path("/app/1"),new Path("/app1"));
        fs.close();
    }
    @Test
    public void testCopyFromLocal() throws IOException {
        // 不存在也不会报错
        // 从本地复制到hdfs上,注意 一定要写完整目录， 这样是复制到app1里
        fs.copyFromLocalFile(path(temp+"copy.txt"),path("/app1/copy.txt"));
        fs.close();
    }
    @Test
    public void testCopyFromLocalErro1() throws IOException {
        // 不存在也不会报错
        // 下面这种写法是复制并改名为app1文件 不管带不带/都是直接变成文件而不是目录
        fs.copyFromLocalFile(path(temp+"copy.txt"),path("/app1/"));
        fs.close();
    }
    @Test
    public void testCopyFromLocalErro2() throws IOException {
        // 不存在也不会报错
        // 下面这种写法是复制并改名为app1文件 不管带不带/都是直接变成文件而不是目录
        fs.copyFromLocalFile(path(temp+"copy.txt"),path("/app1"));
        fs.close();
    }
    @Test
    public void testCopyFromLocalErro3() throws IOException {
        // 不存在也不会报错
        fs.copyFromLocalFile(path(temp+"copy.txt"),path("/app1/copy.txt"));
        // 第一个true 这是说删除本地文件并上传也就是剪切,第二个true是说如果有重复文件直接覆盖，否则重复文件就会报错,另外hdfs默认是覆盖的
        // 如果不overwrite 如果重复文件会报错
        fs.copyFromLocalFile(true,false,path(temp+"copy.txt"),path("/app1/copy.txt"));
        // 再次执行的时候就会报错，本地文件不存在
        fs.copyFromLocalFile(true,true,path(temp+"copy.txt"),path("/app1/copy.txt"));
        fs.close();
    }
    // 下载
    @Test
    public void testCopyToLocal() throws IOException {
//        fs.copyToLocalFile(src,dst);
//        fs.copyToLocalFile(deleteSrc,src,dst);
//        fs.copyToLocalFile(delSrc,src,dst,useRawLocalFileSystem);
        /*
        这里有个大坑。
        src 肯定是从hdfs读取，没有问题，
        dst写到本地（当前本地就是我们的windows） 写到windows的时候，hdfs就默认调用hadoop为windows写的C语言操作库来操作生成本地文件（用C语言写的，专门供hadoop操作windows系统用的一套程序）
        这套hadoop-windows程序 我们电脑肯定不会默认安装，所以需要我们安装好，并且配置好环境变量，主要是哪个bin目录
        如果我们实在是不想配置这个程序 我们可以采用第三个方法 fs.copyToLocalFile(delSrc,src,dst,useRawLocalFileSystem);
        useRawLocalFileSystem 是否采用JAVA_HADOOP_API生成文件,而不用hadoop操作windows写的原生程序 我们设置为true就可以
         */
        // java.lang.RuntimeException: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. -see
        fs.copyToLocalFile(path("/app1/copy.txt"),path(temp+"download_Hadoop_Windows.txt"));
        fs.copyToLocalFile(false,path("/app1/copy.txt"),path(temp+"download.txt"),true);
        fs.close();
    }

    @Test
    public void testListFile() throws IOException {
        /*
        返回元数据信息
         LocatedFileStatus{
             path=hdfs://dream1:9000/app1/copy.txt; 路径
             isDirectory=false;
             length=14; replication=3;
             blocksize=134217728; 大小
             modification_time=1607383763556; 最后修改时间
             access_time=1607383763394;
             owner=root; group=supergroup;
             permission=rw-r--r--;
             isSymlink=false
         }
        */
        // recursive 是否递归  只返回文件信息 不返回目录信息
        RemoteIterator<LocatedFileStatus> files = fs.listFiles(path("/app1/"), true);
        while (files.hasNext()){
            LocatedFileStatus meta = files.next();
            System.out.println(meta);
            BlockLocation[] blockLocations = meta.getBlockLocations();
            for (BlockLocation blockLocation : blockLocations) {
                System.out.println(Arrays.toString(blockLocation.getHosts()));
                System.out.println(Arrays.toString(blockLocation.getNames()));
                System.out.println("偏移量"+blockLocation.getOffset());
            }
        }
        fs.close();
    }
    @Test
    public void listFile2() throws IOException {
        FileStatus[] fileStatuses = fs.listStatus(path("/app1"));
        for (FileStatus fileStatus : fileStatuses) {
            System.out.println((fileStatus.isDirectory()?"文件夹":"文件")+fileStatus.getPath());
        }
        fs.close();
    }

    @Test
    public void testReadFile() throws IOException {
        FSDataInputStream in = fs.open(path("/app1/copy.txt"));
//        BufferedReader br = new BufferedReader(new InputStreamReader(in));
//        String line;
//        if((line = br.readLine())!= null){
//            System.out.println(line);
//        }
        byte[] a = new byte[1024];
        int num;
        while ((num =in.read(a))!=-1){
            System.out.print(new String(a,0,num));
        }
        in.close();
    }
    @Test
    public void testWriteFile() throws IOException {
        FSDataOutputStream out = fs.append(path("/app1/copy.txt"));
        out.write("\n hu shuo ba dao ge 哈哈\n".getBytes(StandardCharsets.UTF_8));
        out.flush();
        out.close();
    }
    @Test
    public void wordCount() throws IOException {
        FSDataInputStream in = fs.open(path("/app1/copy.txt"));
        BufferedReader br = new BufferedReader(new InputStreamReader(in));
        String line;
        HashMap<String, Integer> countMap = new HashMap<>();
        while((line=br.readLine())!= null){
            for (String s : line.split(" ")) {
                countMap.put(s,countMap.getOrDefault(s,0)+1);
            }
        }
        FSDataOutputStream out = fs.create(path("/app1/wordCount.txt"), true);
        for (String s : countMap.keySet()) {
            out.write((s+":"+countMap.get(s)+"\r\n").getBytes());
        }
        out.flush();
        out.close();
        br.close();
        in.close();
    }
    // 偏移量读
    @Test
    public void testSeek() throws IOException {
        FSDataInputStream in = fs.open(path("/app1/copy.txt"));
        in.seek(14);
        byte[] buf = new byte[3];
        int read = in.read(buf);
        String s = new String(buf, 0, read);
        System.out.println(s);
    }
}