转换流_搭起字节和字符的桥梁

最新推荐文章于 2024-04-26 17:55:19 发布

原创最新推荐文章于 2024-04-26 17:55:19 发布 · 240 阅读

0 ·

CC 4.0 BY-SA版权

FIle和IO流专栏收录该内容

8 篇文章

订阅专栏

本文深入讲解字符编码概念，包括ASCII、GBK、Unicode等字符集，探讨编码与解码原理，以及编码转换过程中可能出现的问题。

首先来看下，什么是字符编码和字符集

字符编码

计算机语言（二进制数）和自然语言之间的对应规则

编码表：生活文字和计算机中二进制的对应规则

我们拍的照片，存储在计算机就是二进制数表示的。在存储之前先编码（将图片信息进行二进制化）

但我们在计算机打开图片信息（一堆二进制数），通过解码（将这些二进制信息），按照某种规则，解析处理，呈现在计算机屏幕上

大白话说就是：

编码：看得懂的（图片） ——> 看不懂的（二进制信息）

解码与编码相反

字符集 Charset

编码表包括一个系统支持的所有字符的集合，包括各国家文字、标点符号、图形符号、数字等。

常见的字符集 ASCII字符集，GBK字符集，Unicode字符集等。

ASCII字符集
- ASCII（American Standard Code for Information Interchange，美国信息交换标准代码）
- 基本的ASCII字符集，使用7位（bits）表示一个字符，共128字符。ASCII的扩展字符集使用8位（bits）表示一个字符，共256字符，方便支持欧洲常用字符。
拉丁码表，用于显示欧洲使用的语言
GBxxx字符集
- GB就是国标的意思
- GB2312：简体中文码表。
- GBK：最常用的中文码表。使用了双字节编码方案，完全兼容GB2312标准
- GB18030：最新的中文码表。
Unicode字符集 ：
- Unicode编码系统为表达任意语言的任意字符而设计，也称为统一码、标准万国码。
- 它最多使用4个字节的数字来表达每个字母、符号，或者文字。有三种编码方案，UTF-8、UTF-16和UTF-32。最为常用的UTF-8编码。
- UTF-8编码，可以用来表示Unicode标准中任何字符，它是电子邮件、网页及其他存储或传送文字的应用中，优先采用的编码。互联网工程工作小组要求所有互联网协议都必须支持UTF-8编码。所以，我们开发Web应用，也要使用UTF-8编码。它使用一至四个字节为每个字符编码
  
  编码规则：
  1. 128个US-ASCII字符，只需一个字节编码。
  2. 拉丁文等字符，需要二个字节编码。
  3. 大部分常用字（含中文），使用三个字节编码。
  4. 其他极少使用的Unicode辅助字符，使用四字节编码。

编码引出的问题

当文本文件是UTF-8格式编码，我们用GBK的解码方式打开，则会出现乱码的情况。解码和编码的格式要一致，才能还原回原有的信息。

转换流的原理

java 的字节和字符有一个沟通的桥梁：OutPutStreamWriter 和 InputStreamWriter 这两个类。

底层的字节输入流文件通过InputStreamReader（字节流通向字符流的桥梁）进行指定格式的解码

底层的字符输出流文件通过OutPutStreamReader（字符流通向字节流的桥梁）进行指定格式的编码

转换文件编码（小程序）

需求：GBK 编码的txt文件转换为 UTF-8编码的txt文件

思路：

创建一个OutPutStreamWriter，创建一个InputStreamReader。这两个类中传入一个匿名的FileReader 和一个 FIleWriter
利用OutPutStreamWriter（设定为GBK解码格式）的read方法读入内存
利用InputStreamReader（设定为UTF-8编码格式）的writer方法写入硬盘
释放资源（先关写，再关读）

代码：

public static void main(String[] args){
    GBK-UTF-8();
}
private static void GBK-UTF-8(){
    //创建一个OutPutStreamWriter，创建一个InputStreamReader。这两个类中传入一个匿名的FileReader 和 一个 FIleWriter
        OutPutStreamWriter	ow = new OutPutStreamWriter(new FileWriter("c:\\abc.txt"));
        InputStreamReader	ir = new InputStreamReader(new FileWriter("d:\\abc.txt"));
	
    int len =0;
    //一个一个读取
    while((len = ir.read()!=-1)){
        ow.writer((char)len); //int强转为char类型
    }
    //释放资源（先关写，再关读）
    ow.close();
    ir.close();
｝