转换流_搭起字节和字符的桥梁

本文深入讲解字符编码概念,包括ASCII、GBK、Unicode等字符集,探讨编码与解码原理,以及编码转换过程中可能出现的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先来看下,什么是字符编码 和 字符集

字符编码

计算机语言(二进制数) 和 自然语言之间的对应规则

编码表:生活文字和计算机中二进制的对应规则

我们拍的照片,存储在计算机就是二进制数表示的。在存储之前先编码(将图片信息进行二进制化)

但我们在计算机打开图片信息(一堆二进制数),通过解码(将这些二进制信息 ),按照某种规则,解析处理,呈现在计算机屏幕上

大白话说就是:

编码:看得懂的(图片) ——> 看不懂的(二进制信息)

解码与编码相反

字符集 Charset

编码表包括一个系统支持的所有字符的集合,包括各国家文字、标点符号、图形符号、数字等。

常见的字符集 ASCII字符集,GBK字符集,Unicode字符集等。

  • ASCII字符集

    • ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)
    • 基本的ASCII字符集,使用7位(bits)表示一个字符,共128字符。ASCII的扩展字符集使用8位(bits)表示一个字符,共256字符,方便支持欧洲常用字符。
  • 拉丁码表,用于显示欧洲使用的语言

  • GBxxx字符集

    • GB就是国标的意思
    • GB2312:简体中文码表。
    • GBK:最常用的中文码表。使用了双字节编码方案,完全兼容GB2312标准
    • GB18030:最新的中文码表。
  • Unicode字符集

    • Unicode编码系统为表达任意语言的任意字符而设计,也称为统一码、标准万国码。

    • 它最多使用4个字节的数字来表达每个字母、符号,或者文字。有三种编码方案,UTF-8、UTF-16和UTF-32。最为常用的UTF-8编码。

    • UTF-8编码,可以用来表示Unicode标准中任何字符,它是电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。互联网工程工作小组要求所有互联网协议都必须支持UTF-8编码。所以,我们开发Web应用,也要使用UTF-8编码。它使用一至四个字节为每个字符编码

      编码规则:

      1. 128个US-ASCII字符,只需一个字节编码。
      2. 拉丁文等字符,需要二个字节编码。
      3. 大部分常用字(含中文),使用三个字节编码。
      4. 其他极少使用的Unicode辅助字符,使用四字节编码。
编码引出的问题

当文本文件是UTF-8格式编码,我们用GBK的解码方式打开,则会出现乱码的情况。解码和编码的格式要一致,才能还原回原有的信息。

转换流的原理

java 的字节 和字符有一个沟通的桥梁 :OutPutStreamWriter 和 InputStreamWriter 这两个类。

底层的字节输入流文件通过InputStreamReader(字节流通向字符流的桥梁)进行指定格式的解码

底层的字符输出流文件通过OutPutStreamReader(字符流通向字节流的桥梁)进行指定格式的编码

转换文件编码(小程序)

需求:GBK 编码的txt文件 转换为 UTF-8编码的txt文件

思路:

  1. 创建一个OutPutStreamWriter,创建一个InputStreamReader。这两个类中传入一个匿名的FileReader 和 一个 FIleWriter
  2. 利用OutPutStreamWriter(设定为GBK解码格式)的read方法读入内存
  3. 利用InputStreamReader(设定为UTF-8编码格式)的writer方法写入硬盘
  4. 释放资源(先关写,再关读)

代码:

public static void main(String[] args){
    GBK-UTF-8();
}
private static void GBK-UTF-8(){
    //创建一个OutPutStreamWriter,创建一个InputStreamReader。这两个类中传入一个匿名的FileReader 和 一个 FIleWriter
        OutPutStreamWriter	ow = new OutPutStreamWriter(new FileWriter("c:\\abc.txt"));
        InputStreamReader	ir = new InputStreamReader(new FileWriter("d:\\abc.txt"));
	
    int len =0;
    //一个一个读取
    while((len = ir.read()!=-1)){
        ow.writer((char)len); //int强转为char类型
    }
    //释放资源(先关写,再关读)
    ow.close();
    ir.close();
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值