【小白看的Java教程】第三十七章,Mr.R和Mr.W:Java中的IO【荐】

File类(掌握)

File课理解为文件和文件夹(目录),用于表示磁盘中某个文件或文件夹的路径。该类包含了文件的创建、删除、重命名、判断是否存在等方法。

只能设置和获取文件本身的信息(文件大小,是否可读),不能设置和获取文件里面的内容。

  • Unix: 严格区分大小写,使用”/”来表示路径分隔符。

  • Windows: 默认情况下是不区分大小写的,使用”\”来分割目录路径。但是在Java中一个”\”表示转义,所以在Windows系统中就得使用两个”\”。

操作File常见方法:

  • String getName():获取文件名称

  • String getPath():获取文件路径

  • String getAbsolutePath():获取绝对路径

  • File getParentFile():获取上级目录文件

  • boolean exists():判断文件是否存在

  • boolean isFile() :是否是文件

  • boolean isDirectory():判断是否是目录

  • boolean delete() :删除文件

  • boolean mkdirs():创建当前目录和上级目录

  • File[] listFiles() :列出所有文件对象

public class FileDemo {

    public static void main(String[] args) throws Exception {

        File f = new File("C:/test/123.txt");

        System.out.println(f.getName());//123.txt

        System.out.println(f.getPath());//C:/test/123.txt

        System.out.println(f.getAbsolutePath());//C:/test/123.txt

        System.out.println(f.getParentFile().getName());//test

        System.out.println(f.exists());//true

        System.out.println(f.isFile());//true

        System.out.println(f.isDirectory());//false

        //如果当前文件的父文件夹不存在,则创建

        if(!f.getParentFile().exists()) {

            f.getParentFile().mkdirs();

        }

        //列出当前文件夹中所有文件

        File[] fs = f.getParentFile().listFiles();

        for (File file : fs) {

            System.out.println(file);

        }

    }

}

列出给定目录中的全部文件的路径,包括给定目录下面的所有子目录。

public static void list(File file) {

    if (file.isDirectory()) {

        // 如果是文件夹,则继续列出

        File[] fs = file.listFiles();

        if (fs != null) {

            for (File f : fs) {

                list(f);

            }

        }

    }

    System.out.println(file);

}

字符编码

字符编码的发展历程(了解)

阶段一

计算机只认识数字,在计算机里一切数据都是以数字来表示,因为英文符号有限,所以规定使用的字节的最高位是0。每一个字节都是以0~127之间的数字来表示,比如A对应65,a对应97。此时把每一个字节按照顺序存放在一张表格中,这就是美国标准信息交换码——ASCII编码表。

阶段二

随着计算机在全球的普及,很多国家和地区都把自己的字符引入了计算机,比如汉字。此时发现一个字节(128个)能表示数字范围太小,而汉字太多,128个数字不能包含所有的中文汉字,那么此时就规定使用两个字节一起来表示一个汉字。

规定:原有的ASCII字符的编码保持不变,仍然使用一个字节表示,为了区别一个中文字符与两个ASCII码字符,中文字符的每个字节最高位(符号位)规定为1(中文的二进制是负数),该规范就是GB2312编码表。后来在GB2312码表的基础上增加了更多的中文汉字,也就出现了更强大的GBK码表。

阶段三

中国人是认识汉字的,现在需要和外国人通过网络交流,此时需要把把汉字信息传递给外国人,但外国的码表中没有收录汉字,此时就会把汉字显示为另一个符号甚至不能识别的乱码。为了解决各个国家因为本地化字符编码带来的影响,就干脆把全世界所有的符号统一收录进Unicode编码表。

如果使用Unicode码表,那么某一个字符在全世界任何地方都是固定的。比如’哥’这个字,在任何地方都是以十六进制的54E5来表示,因此说Unicode是国际统一编码。

常见的字符编码和操作(了解)

常见的字符集

  • ASCII:占一个字节,只能包含128个符号。不能表示汉字。

  • ISO-8859-1:也称之为latin-1,占一个字节,收录西欧语言,不能表示汉字。

  • GB2312/GBK/GB18030:占两个字节,支持中文。

  • ANSI:占两个字节,在简体中文的操作系统中ANSI 就指的是 GBK。

  • UTF-8:是一种针对Unicode的可变长度字符编码,是Unicode的实现方式之一,支持中文。在开发中建议使用。

  • UTF-8 BOM:是微软搞出来的一种编码,不要使用。

存储字母、数字、汉字:

存储字母和数字无论是什么字符集都占1个字节.

存储汉字,GBK家族占两个字节,UTF-8家族占3个字节。

不能使用单字节的字符集(ASCII、ISO-8859-1)来存储中文,否则会乱码。

字符的编码和解码操作(掌握)

数据在网络上传输是以二进制的格式,二进制格式就是byte数组,此时需要把信息做编码和解码处理。

  • 编码:把字符串转换为byte数组 String—>byte[]

  • 解码:把byte数组转换为字符串 byte[]—>String

注意:一定要保证编码和解码的字符相同,才能正确解码出信息。

经典案例:在表单中填写中文,为什么在服务端看到的是乱码问题。

情景分析,比如浏览器使用UTF-8编码,服务器使用ISO-8859-1编码。

此时编码和解码的字符类型不同,那么乱码就出现了。

先来分析乱码产生的原因:

image.png

乱码的解决方案:

image.png

public class CodeDemo {

    public static void main(String[] args) throws Exception {

        String input = "龙哥";//模拟用户输入的中文数据

        //编码操作:String -> byte[]

        byte[] data = input.getBytes("UTF-8");

        System.out.println(Arrays.toString(data));//[-23, -66, -103, -27, -109, -91]

        //解码操作:byte[] -> String

        //因为服务器时老外写的,老外在解码的时候使用ISO-8859-1,此时就乱码了

        String ret = new String(data, "ISO-8859-1");

        System.out.println(ret);//输出:龙哥

        //---------------------------------------------

        //解决方案:重新对乱码编码回到byte[],重新按照UTF-8解码

        data = ret.getBytes("ISO-8859-1");

        System.out.println(Arrays.toString(data));//[-23, -66, -103, -27, -109, -91]

        ret = new String(data,"UTF-8");

        //---------------------------------------------

        System.out.println(ret);//输出:龙哥

    }

}

IO流操作

IO概述(了解)

什么是IO,Input和Output,即输入和输出。

电脑相关的IO设备:和电脑通信的设备,此时要站在电脑的角度,把信息传递给电脑叫输入设备,把电脑信息传递出来的叫输出设备。

  • 输入设备:麦克风、扫描器、键盘、鼠标等

  • 输出设备:显示器、打印机、投影仪、耳机、音响等

为什么程序需要IO呢?

案例1:打游戏操作,需要存储游戏的信息。

  • 此时需要把游戏中的数据存储起来,数据只能存储在文件中。

案例2:打游戏操作,需求读取之前游戏的记录信息,数据存储在一个文件中的。

  • 此时游戏程序需要去读取文件中的数据,并显示在游戏中。

IO操作是一个相对的过程,一般的,我们在程序角度来思考(程序的内存)。

  • 程序需要读取数据:文件——>程序,输入操作

  • 程序需要保存数据:程序——>文件,输出操作

image.png

IO操作示意图(了解)

讲解IO知识点的时候,习惯和生活中的水流联系起来,一起来看看复古的水井和水缸。

image.png

此时站在水缸的角度,分析IO的操作方向:

输入操作:水井——>水缸

输出操作:水缸——>饭锅

注意:谁拥有数据,谁就是源,把数据流到哪里,哪里就是目标。那么,请问水缸是源还是目标。

流的分类(掌握)

根据流的不同特性,流的划分是不一样的,一般按照如下情况来考虑:

  • 按流动方向:分为输入流和输出流

  • 按数据传输单位:分为字节流和字符流,即每次传递一个字节(byte)或一个字符(char)

  • 按功能上划分:分为节点流和处理流,节点流功能单一,处理流功能更强

流的流向是相对的,我们一般站在程序的角度:

  • 程序需要数据 → 把数据读进来 → 输入操作(read):读进来

  • 程序保存数据 → 把数据写出去 → 输出操作(write):写出去

六字箴言:读进来,写出去(仔细揣摩这六个字有什么高深的含义)

四大基流

image.png

操作IO流的模板:

1):创建源或者目标对象(挖井).

 输入操作:    把文件中的数据流向到程序中,此时文件是源,程序是目标.

 输出操作:    把程序中的数据流向到文件中,此时文件是目标,程序是源.

2):创建IO流对象(水管).

 输入操作:     创建输入流对象.

 输出操作:     创建输出流对象.

3):具体的IO操作.

 输入操作:    输入流对象的read方法.

 输出操作:    输出流对象的write方法.

4):关闭资源(勿忘). 一旦资源关闭之后,就不能使用流对象了,否则报错.

 输入操作:    输入流对象.close();

 输出操作:    输出流对象.close();

注意:

  • 四大抽象流是不能创建对象的,一般的我们根据不同的需求创建他们不同的子类对象,比如操作文件时就使用文件流。
  • 不管是什么流,操作完毕都必须调用close方法,释放资源。

常见输入输出流

##InputStream(字节输入流)
类的声明为:

public abstract class InputStream extends Object implements Closeable

表示字节输入流的所有类的超类。

常用方法:

  • public void close() throws IOException:关闭此输入流并释放与该流关联的所有系统资源。 InputStream 的 close 方法不执行任何操作。

  • public abstract int read() throws IOException:从输入流中读取一个字节数据并返回该字节数据,如果到达流的末尾,则返回 -1。

  • public int read(byte[] buff) throws IOException:从输入流中读取多个字节数据,并存储在缓冲区数组 buff 中。返回已读取的字节数量,如果已到达流的末尾,则返回 -1。

##OutputStream(字节输出流)
类的声明为:public abstract class OutputStream extends Object implements Closeable, Flushable,表示字节输出流的所有类的超类。
常用方法:

  • public void close() throws IOException:关闭此输出流并释放与此流有关的所有系统资源。

  • public abstract void write(int b) throws IOException:将指定的一个字节数据b写入到输出流中。

  • public void write(byte[] buff) throws IOException:把数组buff中所有字节数据写入到输出流中。

  • public void write(byte[] b, int off,int len) throws IOException:把数组buff中从索引off 开始的len 个字节写入此输出流中。

##Reader(字符输入流)
类的声明为:

public abstract class Reader extends Object implements Readable, Closeable

表示字符输入流的所有类的超类。

常用方法:

  • public abstract void close() throws IOException:关闭此输入流并释放与该流关联的所有系统资源。
  • public int read() throws IOException:从输入流中读取一个字符数据并返回该字符数据,如果到达流的末尾,则返回 -1。
  • public int read(char[] cbuf) throws IOException:从输入流中读取多个字符,并存储在缓冲区数组 cbuf 中。返回已读取的字符数,如果已到达流的末尾,则返回 -1。

##Writer(字符输出流)

类的声明为:

public abstract class Writer extends Object implements Appendable, Closeable, Flushable

表示字符输出流的所有类的超类。

常用方法:

  • public abstract void flush() throws IOException:刷新此输出流并强制写出所有缓冲的输出字符。

  • public abstract void close() throws IOException:关闭此输入流并释放与该流关联的所有系统资源。

  • public void write(int c) throws IOException:将指定的一个字符数据c写入到输出流中。

  • public void write(char[] cbuf) throws IOException:把数组cbuf中cbuf.length 个字符数据写入到输出流中。

  • public abstract void write(char[] cbuf, int off,int len) throws IOException:把数组cbuf中从索引off 开始的len 个字符写入此输出流中。

  • public void write(String str) throws IOException:将str字符串数据写入到输出流中。

##文件流(重点)
当程序需要读取文件中的数据或者把数据保存到文件中去,此时就得使用文件流,但是注意只能操作纯文本文件(txt格式),不要使用Word、Excel。文件流比较常用。
需求1:使用文件字节输出流,把程序中数据保存到result1.txt文件,操作英文

private static void test1() throws Exception {
	//1):创建源或者目标对象
	File dest = new File("file/result1.txt");
	//2):创建IO流对象
	FileOutputStream out = new FileOutputStream(dest);
	//3):具体的IO操作
	out.write(65);//输出A
	out.write(66);//输出B
	out.write(67);//输出C
	String str = "to be or not to be";
	out.write(str.getBytes());//输出str字符串中所有内容
	//4):关闭资源(勿忘)
	out.close();
}

需求2:使用文件字节输入流,读取result1.txt文件中的数据

private static void test2() throws Exception {
	//1):创建源或者目标对象
	File src = new File("file/result1.txt");
	//2):创建IO流对象
	FileInputStream in = new FileInputStream(src);
	//3):具体的IO操作
	System.out.println((char)in.read());//读取A字节
	System.out.println((char)in.read());//读取B字节
	System.out.println((char)in.read());//读取C字节
	byte[] buff = new byte[5];//准备容量为5的缓冲区
	int len = in.read(buff);//读取5个字节数据,并存储到buff数组中
	System.out.println(Arrays.toString(buff));//[116, 111, 32, 98, 101]
	System.out.println(len);//返回读取了几个字节
	//4):关闭资源(勿忘)
	in.close();
}

需求3:使用文件字符输出流,把程序中数据保存到result2.txt文件,操作中文

private static void test3() throws Exception {
	//1):创建源或者目标对象
	File dest = new File("file/result2.txt");
	//2):创建IO流对象
	FileWriter out = new FileWriter(dest);
	//3):具体的IO操作
	out.write('辛');//输出A
	out.write('弃');//输出B
	out.write('疾');//输出C
	String str = "众里寻他千百度,蓦然回首,那人却在,灯火阑珊处。";
	out.write(str.toCharArray());
	out.write(str);//String的本质就是char[]
	//4):关闭资源(勿忘)
	out.close();
}

需求4:使用文件字符输入流,读取result2.txt文件中的数据

private static void test4() throws Exception {
	//1):创建源或者目标对象
	File src = new File("file/result2.txt");
	//2):创建IO流对象
	FileReader in = new FileReader(src);
	//3):具体的IO操作
	System.out.println(in.read());//读取辛字符
	System.out.println(in.read());//读取弃字符
	System.out.println(in.read());//读取疾字符
	char[] buff = new char[5];//准备容量为5的缓冲区
	int len = in.read(buff);//读取5个字符数据,并存储到buff数组中
	System.out.println(Arrays.toString(buff));//[众, 里, 寻, 他, 千]
	System.out.println(len);//返回读取了几个字节
	//4):关闭资源(勿忘)
	in.close();
}

##字节流和字符流选用问题
使用记事本打开某个文件,如果可以看到内容的就是文本文件,否则可以暂时认为是二进制格式的。
一般的,操作二进制文件(图片、音频、视频等)必须使用字节流。操作文本文件使用字符流,尤其是操作带有中文的文件,使用字符流不容易导致乱码,因为使用字节流可能出现读取半个汉字的尴尬(汉字由两个或三个字节组成)。当然,如果不清楚属于哪一类型文件,都可以使用字节流。

JavaIO流常见使用方式

文件拷贝操作

需求:把copy_before.txt文件中的数据拷贝到copy_after.txt文件中

private static void copy() throws Exception {

    //1):创建源或者目标对象

    File src = new File("file/copy_before.txt");

    File dest = new File("file/copy_after.txt");

    //2):创建IO流对象

    FileReader in = new FileReader(src);

    FileWriter out = new FileWriter(dest);

    //3):具体的IO操作

    int len = -1;//记录以及读取了多个字符

    char[] buff = new char[1024];//每次可以读取1024个字符

    len = in.read(buff);//先读取一次

    while(len > 0) {

        //边读边写

        out.write(buff, 0, len);

        len = in.read(buff);//再继续读取

    }
    
    //4):关闭资源(勿忘)

    out.close();

    in.close();

}

如何,正确处理异常:

private static void copy2() {

    //1):创建源或者目标对象

    File src = new File("file/copy_before.txt");

    File dest = new File("file/copy_after.txt");

    //把需要关闭的资源,声明在try之外

    FileReader in = null;

    FileWriter out = null;

    try {

        //可能出现异常的代码

        //2):创建IO流对象

        in = new FileReader(src);

        out = new FileWriter(dest);

        //3):具体的IO操作

        int len = -1;//记录以及读取了多个字符

        char[] buff = new char[1024];//每次可以读取1024个字符

        len = in.read(buff);//先读取一次

        while (len > 0) {

            out.write(buff, 0, len);

            len = in.read(buff);//再继续读取

        }

    } catch (Exception e) {

        e.printStackTrace();

    } finally {

        //4):关闭资源(勿忘)

        try {

            if (out != null) {

                out.close();
            }

        } catch (Exception e) {

            e.printStackTrace();

        }

        try {

            if (in != null) {

                in.close();

            }

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}

此时关闭资源的代码,又臭又长,在后续的学习中为了方便就直接使用throws抛出IO异常了,在实际开发中需要处理。

缓冲流

节点流的功能都比较单一,性能较低。处理流,也称之为包装流,相对于节点流更高级,这里存在一个设计模式——装饰设计模式,此时撇开不谈。

包装流如何区分?写代码的时候,发现创建流对象时,需要传递另一个流对象,类似:

   new  流类A(  new 流类B(..));  

那么流A就属于包装流,当然B可能属于节点流也可能属于包装流。

有了包装流之后,我们只关系包装流的操作即可,比如只需要关闭包装流即可,无需在关闭节点流。

非常重要的包装流——缓冲流,根据四大基流都有各自的包装流:

BufferedInputStream / BufferedOutputStream / BufferedReader / BufferedWriter

缓冲流内置了一个默认大小为8192个字节或字符的缓存区,缓冲区的作用用来减少磁盘的IO操作,拿字节缓冲流举例,比如一次性读取8192个字节到内存中,或者存满8192个字节再输出到磁盘中。

操作数据量比较大的流,都建议使用上对应的缓存流。

需求:把郭德纲-报菜名.mp3文件中的数据拷贝到郭德纲-报菜名2.mp3文件中

private static void copy3() throws Exception {

    //1):创建源或者目标对象

    File src = new File("file/郭德纲-报菜名.mp3");

    File dest = new File("file/郭德纲-报菜名2.mp3");

    //2):创建IO流对象

    BufferedInputStream bis =

        new BufferedInputStream(new FileInputStream(src), 8192);

    BufferedOutputStream bos =

        new BufferedOutputStream(new FileOutputStream(dest), 8192);

    //3):具体的IO操作

    int len = -1;//记录以及读取了多个字符

    byte[] buff = new byte[1024];//每次可以读取1024个字符

    len = bis.read(buff);//先读取一次

    while (len > 0) {

        //边读边写

        bos.write(buff, 0, len);

        len = bis.read(buff);//再继续读取

    }

    //4):关闭资源(勿忘)

    bos.close();

    bis.close();

}

对象序列化

序列化:指把Java堆内存中的对象数据,通过某种方式把对象数据存储到磁盘文件中或者传递给给网络上传输。序列化在分布式系统在应用非常广泛。

反序列化:把磁盘文件中的对象的数据或者把网络节点上的对象数据恢复成Java对象的过程。

需要做序列化的类必须实现序列化接口:java.io.Serializable(这是标志接口[没有抽象方法])

可以通过IO中的对象流来做序列化和反序列化操作。

  • ObjectOutputStream:通过writeObject方法做序列化操作的

  • ObjectInputStream:通过readObject方法做反序列化操作的

如果字段使用transient 修饰则不会被序列化。

class User implements **Serializable** {

    private String name;

    private transient String password;

    private int age;

    public User(String name, String password, int age) {

        this.name = name;

        this.password = password;

        this.age = age;

    }

    public String getName() {

        return name;

    }

    public String getPassword() {

        return password;

    }

    public int getAge() {

        return age;

    }

    public String toString() {

        return "User [name=" + name + ", password=" + password + ", age=" + age + "]";

    }

}

测试代码

public class ObjectStreamDemo {

    public static void main(String[] args) throws Exception {

        String file = "file/obj.txt";

        ObjectOutputStream out = new ObjectOutputStream(new FileOutputStream(file));

        User u = new User("Will", "1111", 17);

        out.writeObject(u);

        out.close();

        //--------------------------------------

        ObjectInputStream in = new ObjectInputStream(new FileInputStream(file));

        Object obj = in.readObject();

        in.close();

        System.out.println(obj);

    }

}

obj.txt文件

image.png

序列化的版本问题

当类实现Serializable接口后,在编译的时候就会根据字段生成一个缺省的serialVersionUID值,并在序列化操作时,写到序列化数据文件中。

但随着项目的升级系统的class文件也会升级(增加一个字段/删除一个字段),此时再重新编译,对象的serialVersionUID值又会改变。那么在反序列化时,JVM会把对象数据数据中的serialVersionUID与本地字节码中的serialVersionUID进行比较,如果值不相同(意味着类的版本不同),那么报异常InvalidCastException,即:类版本不对应,不能进行反序列化。如果版本号相同,则可以进行反序列化。

image.png

为了避免代码版本升级而造成反序列化因版本不兼容而失败的问题,在开发中我们可以故意在类中提供一个固定的serialVersionUID值。

class User implements Serializable {

    private static final long serialVersionUID = 1L;

    //TODO

}

查漏补缺

打印流

打印流是一种特殊是输出流,可以输出任意类型的数据,比一般的输出流更好用。可以作为处理流包装一个平台的节点流使用,平时我们使用的System.out.println其实就是使用的打印流。

  • PrintStream :字节打印流

  • PrintWriter :字符打印流

打印流中的方法:

  • 提供了print方法:打印不换行

  • 提供了println方法:先打印,再换行

private static void test5() throws Exception {

    //1):创建源或者目标对象

    File dest = new File("file/result3.txt");

    //2):创建IO流对象

    PrintStream ps = new PrintStream(new FileOutputStream(dest));

    //3):具体的IO操作

    ps.println("Will");

    ps.println(17);

    ps.println("众里寻他千百度,蓦然回首,那人却在,灯火阑珊处。");

    //4):关闭资源(勿忘),打印流可以不用关闭

}  

标准IO

标准的输入:通过键盘录入数据给程序

标准的输出:在屏幕上显示程序数据

在System类中有两个常量int和out分别就表示了标准流:

InputStream in  = System.in;

PrintStream out = System.out;

需求:做一个ECHO(回声)的小案例

public static void main(String[] args) throws Exception {

    Scanner sc = new Scanner(System.in);   //接受用户输入数据后敲回车

    while (sc.hasNextLine()) {  //判断用户是否输入一行数据

        String line = sc.nextLine();  //获取用户输入的数据

        System.out.println("ECHO:" + line);//显示用户输入的数据

    }

}

IO流小结

在开发中使用比较多的还是字节和字符流的读写操作,务必要非常熟练,再体会一下六字箴言(读进来,写出去),到底有何深意。

综合练习题:做一个统计代码行数的程序,扫描一个目录能统计出该目录中包括所有子目录中所有Java文件的行数,不统计空行。

若要获得最好的学习效果,需要配合对应教学视频一起学习。需要完整教学视频,请参看https://ke.qq.com/course/272077。

Query ID = root_20250610113434_c388a02f-b24b-4fb2-a37e-eb8619141174 Total jobs = 3 Launching Job 1 out of 3 Number of reduce tasks is set to 0 since there's no reduce operator java.net.ConnectException: Call From node1/192.168.142.129 to node2:8032 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused at sun.reflect.GeneratedConstructorAccessor59.newInstance(Unknown Source) at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45) at java.lang.reflect.Constructor.newInstance(Constructor.java:423) at org.apache.hadoop.net.NetUtils.wrapWithMessage(NetUtils.java:930) at org.apache.hadoop.net.NetUtils.wrapException(NetUtils.java:845) at org.apache.hadoop.ipc.Client.getRpcResponse(Client.java:1571) at org.apache.hadoop.ipc.Client.call(Client.java:1513) at org.apache.hadoop.ipc.Client.call(Client.java:1410) at org.apache.hadoop.ipc.ProtobufRpcEngine2$Invoker.invoke(ProtobufRpcEngine2.java:258) at org.apache.hadoop.ipc.ProtobufRpcEngine2$Invoker.invoke(ProtobufRpcEngine2.java:139) at com.sun.proxy.$Proxy77.getNewApplication(Unknown Source) at org.apache.hadoop.yarn.api.impl.pb.client.ApplicationClientProtocolPBClientImpl.getNewApplication(ApplicationClientProtocolPBClientImpl.java:286) at sun.reflect.GeneratedMethodAccessor4.invoke(Unknown Source) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:433) at org.apache.hadoop.io.retry.RetryInvocationHandler$Call.invokeMethod(RetryInvocationHandler.java:166) at org.apache.hadoop.io.retry.RetryInvocationHandler$Call.invoke(RetryInvocationHandler.java:158) at org.apache.hadoop.io.retry.RetryInvocationHandler$Call.invokeOnce(RetryInvocationHandler.java:96) at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:362) at com.sun.proxy.$Proxy78.getNewApplication(Unknown Source) at org.apache.hadoop.yarn.client.api.impl.YarnClientImpl.getNewApplication(YarnClientImpl.java:284) at org.apache.hadoop.yarn.client.api.impl.YarnClientImpl.createApplication(YarnClientImpl.java:292) at org.apache.hadoop.mapred.ResourceMgrDelegate.getNewJobID(ResourceMgrDelegate.java:201) at org.apache.hadoop.mapred.YARNRunner.getNewJobID(YARNRunner.java:272) at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:157) at org.apache.hadoop.mapreduce.Job$11.run(Job.java:1678) at org.apache.hadoop.mapreduce.Job$11.run(Job.java:1675) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1899) at org.apache.hadoop.mapreduce.Job.submit(Job.java:1675) at org.apache.hadoop.mapred.JobClient$1.run(JobClient.java:576) at org.apache.hadoop.mapred.JobClient$1.run(JobClient.java:571) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1899) at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:571) at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:562) at org.apache.hadoop.hive.ql.exec.mr.ExecDriver.execute(ExecDriver.java:423) at org.apache.hadoop.hive.ql.exec.mr.MapRedTask.execute(MapRedTask.java:149) at org.apache.hadoop.hive.ql.exec.Task.executeTask(Task.java:205) at org.apache.hadoop.hive.ql.exec.TaskRunner.runSequential(TaskRunner.java:97) at org.apache.hadoop.hive.ql.Driver.launchTask(Driver.java:2664) at org.apache.hadoop.hive.ql.Driver.execute(Driver.java:2335) at org.apache.hadoop.hive.ql.Driver.runInternal(Driver.java:2011) at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1709) at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1703) at org.apache.hadoop.hive.ql.reexec.ReExecDriver.run(ReExecDriver.java:157) at org.apache.hadoop.hive.ql.reexec.ReExecDriver.run(ReExecDriver.java:218) at org.apache.hadoop.hive.cli.CliDriver.processLocalCmd(CliDriver.java:239) at org.apache.hadoop.hive.cli.CliDriver.processCmd(CliDriver.java:188) at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:402) at org.apache.hadoop.hive.cli.CliDriver.executeDriver(CliDriver.java:821) at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:759) at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:683) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.hadoop.util.RunJar.run(RunJar.java:328) at org.apache.hadoop.util.RunJar.main(RunJar.java:241) Caused by: java.net.ConnectException: Connection refused at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method) at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:715) at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:205) at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:600) at org.apache.hadoop.ipc.Client$Connection.setupConnection(Client.java:652) at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:773) at org.apache.hadoop.ipc.Client$Connection.access$3800(Client.java:347) at org.apache.hadoop.ipc.Client.getConnection(Client.java:1632) at org.apache.hadoop.ipc.Client.call(Client.java:1457) ... 55 more Job Submission failed with exception 'java.net.ConnectException(Call From node1/192.168.142.129 to node2:8032 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused)' FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. Call From node1/192.168.142.129 to node2:8032 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused
最新发布
06-11
<think>我们正在解决HadoopYARN的Connectionrefused问题,具体错误是java.net.ConnectException。用户提到Hive的MapRedTask在node1尝试连接node2的8032端口时失败。根据之前的引用,问题出现在连接配置上,且没有启用Kerberos认证。8032端口是YARNResourceManager的scheduler服务的默认端口。我们需要系统性地检查网络、服务状态、配置等方面。以下为排查步骤:1.确认目标服务的端口是否监听:在node2上检查8032端口是否被监听(使用netstat或ss)2.检查防火墙设置(可能阻止了端口访问)3.确认ResourceManager服务是否在node2上正常运行4.检查Hadoop配置(yarn-site.xml)是否正确指定了ResourceManager的主机端口5.检查客户端配置(在node1上,即运行Hive的节点)是否指向正确的ResourceManager地址6.确认主机名解析正确(node2能否被node1正确解析)具体步骤:步骤1:在node2上检查8032端口sudonetstat-tuln|grep8032或sudoss-tuln|grep8032步骤2:检查防火墙(如果运行)CentOS/RHEL:sudofirewall-cmd--list-ports#如果没有开放8032,则添加规则并重载sudofirewall-cmd--add-port=8032/tcp--permanentsudofirewall-cmd--reloadUbuntu:sudoufwstatus#若需要,开放端口sudoufwallow8032/tcp步骤3:检查ResourceManager服务状态systemctlstatushadoop-yarn-resourcemanager#假设用systemd管理或者使用jps命令查看是否有ResourceManager进程步骤4:检查yarn-site.xml配置(在node2上)确保以下配置正确:<property><name>yarn.resourcemanager.hostname</name><value>node2</value><!--这里应该是node2的主机名--></property><property><name>yarn.resourcemanager.scheduler.address</name><value>${yarn.resourcemanager.hostname}:8030</value><!--注意:默认端口是8030,但是错误中连接的是8032?--></property>注意:用户错误中连接的端口是8032,但YARNResourceManager的服务端口有三个:-ResourceManager对客户端(Client)的端口:8032(yarn.resourcemanager.address)?实际上,不同版本端口不同。在Hadoop2中,默认是:-yarn.resourcemanager.address(客户端通信端口):8032-yarn.resourcemanager.scheduler.address:8030-yarn.resourcemanager.resource-tracker.address:8031-yarn.resourcemanager.admin.address:8033因此,用户连接8032可能是客户端连接ResourceManager的端口。所以,在yarn-site.xml中需要检查:yarn.resourcemanager.address是否配置为node2:8032步骤5:在node1(Hive客户端)上检查配置同样,node1上的Hive服务使用的Hadoop客户端配置(yarn-site.xml)必须指向ResourceManager的地址端口。检查node1上的yarn-site.xml中yarn.resourcemanager.address是否配置为node2:8032。步骤6:检查主机名解析在node1上执行:pingnode2(确保node2是配置中设置的主机名,并且能解析到正确的IP)如果使用IP地址,则配置中直接写IP。另外,常见错误:如果在配置中使用了主机名,但是/etc/hosts文件没有正确配置,或者DNS解析问题。如果以上步骤都正确,但问题仍然存在,可以尝试在node1上使用telnet测试连接:telnetnode28032如果telnet连接失败,则说明网络不通或服务未监听。此外,还有一个可能:ResourceManager服务绑定到了127.0.0.1而不是0.0.0.0。可以通过在node2上检查监听地址:netstat-tuln|grep8032如果看到的是127.0.0.1:8032,则说明只监听本地,需要修改配置绑定到0.0.0.0。修改方法:在yarn-site.xml中,对于每个需要绑定外部IP的配置,可以明确指定IP或0.0.0.0,或者使用主机名(需要确保主机名解析为外部IP)。例如:将yarn.resourcemanager.address配置为0.0.0.0:8032,但这样不推,因为可能不安全。推使用主机名,并确保主机名对应的是外部IP。注意:使用0.0.0.0可能会被安全策略禁止,因此更推使用主机名,并且保证主机名在所有节点都能解析到正确的IP。因此,总结步骤:1.确认ResourceManager服务在node2上运行。2.确认node2上的端口监听正确(监听在外部IP或0.0.0.0,而不是127.0.0.1)。3.防火墙开放。4.客户端配置指向正确的主机名端口。5.主机名解析正确。现在,我们按照这个思路给出回答。</think> ### Hadoop YARN 连接拒绝(Connection refused)问题排查指南 以下是逐步排查Hive执行MapReduce任务时出现`java.net.ConnectException: Connection refused`错误的完整流程: #### 1. 基础网络检测 ```bash # 在node1测试到node2的基础连通性 ping node2 # 检测关键端口8032的连通性(ResourceManager调度端口) telnet node2 8032 # 返回"Connection refused"即确认问题存在 # 检查端口实际监听状态(在node2执行) sudo netstat -tuln | grep 8032 ``` > 若端口未监听,继续以下排查 [^1] #### 2. 服务状态诊断 ```bash # 检查ResourceManager状态(在node2执行) sudo systemctl status hadoop-yarn-resourcemanager # 检查服务日志(关键错误线索) tail -50 /var/log/hadoop-yarn/yarn/yarn-resourcemanager-*.log ``` 典型异常线索: ``` ERROR - Bind failed on 0.0.0.0:8032 WARN - org.apache.hadoop.ipc.Server: Bind exception ``` #### 3. 配置项重点检查 (`yarn-site.xml`) 需验证node2上的以下配置: ```xml <!-- 确认绑定的主机名 --> <property> <name>yarn.resourcemanager.hostname</name> <value>node2</value> <!-- 必须匹配实际主机名 --> </property> <!-- 检查核心端口配置 --> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>${yarn.resourcemanager.hostname}:8032</value> </property> <!-- 禁用IPv6避免冲突 --> <property> <name>yarn.nodemanager.bind-host</name> <value>0.0.0.0</value> <!-- 监听所有接口 --> </property> ``` #### 4. 系统防火墙与SELinux ```bash # 检查防火墙状态(node2) sudo firewall-cmd --state # 添加规则开放Hadoop集群端口 sudo firewall-cmd --permanent --add-port={8030-8033,8040,8088}/tcp sudo firewall-cmd --reload # 临时停用SELinux做隔离测试 sudo setenforce 0 ``` #### 5. 进阶调试方法 **情况A:端口未监听** ```bash # 强制重启ResourceManager服务 sudo systemctl restart hadoop-yarn-resourcemanager # 查看端口占用情况 sudo lsof -i :8032 ``` **情况B:主机名解析失败** ```bash # 在所有节点验证主机名映射(需包含所有集群节点) cat /etc/hosts # 测试反向解析 host node1 host node2 ``` #### 6. 多节点一致性检查 ``` 检查项 node1验证 node2验证 1. core-site.xml配置 一致 一致 2. yarn-site.xml配置 包含RM地址 声明RM服务 3. Hadoop版本 相同 相同 4. JDK版本 相同 相同 ``` #### 7. 备选连接参数测试 在`hive-site.xml`添加备用地址配置: ```xml <property> <name>yarn.resourcemanager.address</name> <value>node2:8032</value> </property> ``` > 完成以上步骤后,建议使用测试作业验证: > ```sql > SET mapred.job.name="Connection_Test"; > SELECT COUNT(1) FROM any_table; -- 简单触发MapReduce任务 > ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值