首先来看下,什么是字符编码 和 字符集
字符编码
计算机语言(二进制数) 和 自然语言之间的对应规则
编码表:生活文字和计算机中二进制的对应规则
我们拍的照片,存储在计算机就是二进制数表示的。在存储之前先编码(将图片信息进行二进制化)
但我们在计算机打开图片信息(一堆二进制数),通过解码(将这些二进制信息 ),按照某种规则,解析处理,呈现在计算机屏幕上
大白话说就是:
编码:看得懂的(图片) ——> 看不懂的(二进制信息)
解码与编码相反
字符集 Charset
编码表包括一个系统支持的所有字符的集合,包括各国家文字、标点符号、图形符号、数字等。
常见的字符集 ASCII字符集,GBK字符集,Unicode字符集等。
-
ASCII字符集
- ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)
- 基本的ASCII字符集,使用7位(bits)表示一个字符,共128字符。ASCII的扩展字符集使用8位(bits)表示一个字符,共256字符,方便支持欧洲常用字符。
-
拉丁码表,用于显示欧洲使用的语言
-
GBxxx字符集
- GB就是国标的意思
- GB2312:简体中文码表。
- GBK:最常用的中文码表。使用了双字节编码方案,完全兼容GB2312标准
- GB18030:最新的中文码表。
-
Unicode字符集 :
-
Unicode编码系统为表达任意语言的任意字符而设计,也称为统一码、标准万国码。
-
它最多使用4个字节的数字来表达每个字母、符号,或者文字。有三种编码方案,UTF-8、UTF-16和UTF-32。最为常用的
UTF-8
编码。 -
UTF-8编码,可以用来表示Unicode标准中任何字符,它是电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。互联网工程工作小组要求所有互联网协议都必须支持UTF-8编码。所以,我们开发Web应用,也要使用UTF-8编码。它使用一至四个字节为每个字符编码
编码规则:
- 128个US-ASCII字符,只需一个字节编码。
- 拉丁文等字符,需要二个字节编码。
- 大部分常用字(含中文),使用三个字节编码。
- 其他极少使用的Unicode辅助字符,使用四字节编码。
-
编码引出的问题
当文本文件是UTF-8格式编码,我们用GBK的解码方式打开,则会出现乱码的情况。解码和编码的格式要一致,才能还原回原有的信息。
转换流的原理
java 的字节 和字符有一个沟通的桥梁 :OutPutStreamWriter 和 InputStreamWriter 这两个类。
底层的字节输入流文件通过InputStreamReader(字节流通向字符流的桥梁)进行指定格式的解码
底层的字符输出流文件通过OutPutStreamReader(字符流通向字节流的桥梁)进行指定格式的编码
转换文件编码(小程序)
需求:GBK 编码的txt文件 转换为 UTF-8编码的txt文件
思路:
- 创建一个OutPutStreamWriter,创建一个InputStreamReader。这两个类中传入一个匿名的FileReader 和 一个 FIleWriter
- 利用OutPutStreamWriter(设定为GBK解码格式)的read方法读入内存
- 利用InputStreamReader(设定为UTF-8编码格式)的writer方法写入硬盘
- 释放资源(先关写,再关读)
代码:
public static void main(String[] args){
GBK-UTF-8();
}
private static void GBK-UTF-8(){
//创建一个OutPutStreamWriter,创建一个InputStreamReader。这两个类中传入一个匿名的FileReader 和 一个 FIleWriter
OutPutStreamWriter ow = new OutPutStreamWriter(new FileWriter("c:\\abc.txt"));
InputStreamReader ir = new InputStreamReader(new FileWriter("d:\\abc.txt"));
int len =0;
//一个一个读取
while((len = ir.read()!=-1)){
ow.writer((char)len); //int强转为char类型
}
//释放资源(先关写,再关读)
ow.close();
ir.close();
}