Java字符编码问题

本文探讨了编程中常见的字符编码格式ANSI与UTF-8的区别,以及由此引发的字符串乱码问题。详细解释了乱码产生的原因,即编码与解码时使用的格式不一致。通过实例展示了Java中getBytes函数的用法,并提供了防止乱码的解决方法,强调了保持编码和解码一致性的重要性。最后,给出了将GBK字符串转换为UTF-8格式的步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

编程时通常会遇到两种编码形式ANSIUTF-8形式,ANSI是根据地区而更改的编码格式,在中国大陆为GBK,在美国就是ASCII编码.而UNF-8Unicode编码的一个小分支,Unicode是全世界统一

字符串乱码的产生

本质上都是由于 字符串原本的编码格式读取时解析用的编码格式 不一致导致的

Java中getBytes函数的作用

使用命名Charset将此字符串置入一系列字节,将结果存储到新字节数组中。简单说就是
byte[] a = b.getBytes("UTF-8");
将b字符串按照UTF-8的形式编码

乱码案例

public static void main(String a[]) throws UnsupportedEncodingException
	{
		String s = "你好哦!";
		System.out.println( new String(s.getBytes(),"UTF-8")); 
		//因为getBytes()默认使用GBK编码, 而解析时使用UTF-8编码,肯定出错。
	}

因为默认getbyte()的默认参数是GBK,因为两次的编码形式不同而导致乱码

解决的方法

解决办法就是将两次编码形式统一起来

System.out.println( new String(s.getBytes(),"GBK"));
System.out.println( new String(s.getBytes("UTF-8"),"UTF-8"));

如何正确的将GBK转UTF-8 ?

String gbkStr = "你好哦!"; //源码文件是GBK格式,或者这个字符串是从GBK文件中读取出来的, 转换为string 变成unicode格式
//利用getBytes将unicode字符串转成UTF-8格式的字节数组
byte[] utf8Bytes = gbkStr.getBytes("UTF-8"); 
//然后用utf-8 对这个字节数组解码成新的字符串
String utf8Str = new String(utf8Bytes, "UTF-8");

简化后的操作就是:

unicodeToUtf8 (String s) {
return new String( s.getBytes("utf-8") , "utf-8");
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值