JAVA乱码之Byte分析

本文介绍了一段Java代码示例,演示了如何使用不同的字符集(如ISO-8859-1和GBK)将字符串转换为字节数组,并展示了不同编码方式下中文字符的表现形式。通过对比两种编码方式下的结果,解释了乱码产生的原因。

在做WEB开发的时候经常会遇到乱码问题,在解析字节数组的时候指定其编码方式即可。

 

Testing...

 

public class CodeTest {

	public static void main(String[] args) {
		execute();
	}

	private static void execute() {
		String s = "hello,你好!";
		byte[] bytesISO8859 = null;
		byte[] bytesGBK = null;
		try {
			bytesISO8859 = s.getBytes("iso-8859-1");
			bytesGBK = s.getBytes("GBK");
		} catch (java.io.UnsupportedEncodingException e) {
			e.printStackTrace();
		}
		System.out.println("--------------\n 8859 bytes:");
		System.out.println("bytes is:     " + arrayToString(bytesISO8859));
		System.out.println("hex format is:" + encodeHex(bytesISO8859));
		System.out.println();
		System.out.println("--------------\n GBK bytes:");
		System.out.println("bytes is:" + arrayToString(bytesGBK));
		System.out.println("hex format is:" + encodeHex(bytesGBK));
	}

	public static final String encodeHex(byte[] bytes) {
		StringBuffer buff = new StringBuffer(bytes.length * 2);
		String b;
		for (int i = 0; i < bytes.length; i++) {
			b = Integer.toHexString(bytes[i]);
			// byte是两个字节的,而上面的Integer.toHexString会把字节扩展为4个字节
			buff.append(b.length() > 2 ? b.substring(6, 8) : b);
			buff.append(" ");
		}
		return buff.toString();
	}

	public static final String arrayToString(byte[] bytes) {
		StringBuffer buff = new StringBuffer();
		for (int i = 0; i < bytes.length; i++) {
			buff.append(bytes[i] + " ");
		}
		return buff.toString();
	}

}

 

结果:

 

--------------
8859 bytes:
bytes is:          104 101 108 108 111 63 63 63 63 
hex format is:     68  65  6c  6c  6f  3f 3f 3f 3f 

--------------
GBK bytes:
bytes is:          104 101 108 108 111 -93 -84 -60 -29 -70 -61 -93 -95 
hex format is:     68  65  6c  6c  6f  a3  ac  c4  e3  ba  c3  a3  a1 

 

可见,在s中提取的8859-1格式的字节数组长度为9,中文字符都变成了“63”,ASCII码为63的是“?”,一些国外的程序在国内中文环境下运行时,经常出现乱码,上面布满了“?”,就是因为编码没有进行正确处理的结果。

Javabyte数组转String出现乱码问题,可通过以下方法解决: - **指定字符编码**:在转换过程中指定合适的字符编码,如使用"ISO-8859-1"编码可以解决部分乱码问题。示例代码如下: ```java byte[] byteArray = { /* 初始化字节数组 */ }; try { String str = new String(byteArray, "ISO-8859-1"); // 后续操作 } catch (java.io.UnsupportedEncodingException e) { e.printStackTrace(); } ``` 在将byte[]数组转成String,再将String转成byte[]数组时,使用该编码可避免因编码问题导致拿到的byte[]数组和原来的byte[]数组不一致的情况[^1]。 - **确保编码表匹配**:通过`String.getBytes(String decode)`方法来得到byte[]时,要确定`decode`的编码表中确实存在String表示的码值,这样得到的byte[]数组才能正确被还原。例如: ```java String originalStr = "需要转换的字符串"; byte[] byteArray = originalStr.getBytes("UTF-8"); try { String newStr = new String(byteArray, "UTF-8"); // 后续操作 } catch (java.io.UnsupportedEncodingException e) { e.printStackTrace(); } ``` 若编码表不匹配,不同编码规范处理相同字节数据会导致乱码,如GB2312规范的中文在英文系统上按ASCII或Java的UNICODE规范处理就会出现乱码[^2][^4]。 - **去除填充的0**:当数据长度小于数组给定的长度时,数组剩余部分会自动填充0,直接转为String会导致乱码。可使用`StringUtils.byteToStr(bytes)`方法去掉自动填充的0。示例代码如下: ```java import org.apache.commons.lang3.StringUtils; // 指定长度100 byte[] bytes = new byte[100]; // 此处省略获取数据,假设byte[]中的数据实际长度为30,剩余的70将会自动填充0 String str1 = StringUtils.byteToStr(bytes); System.out.print(str1); // 正确数据,只有实际的30位,没有填充的乱码 ``` 这样能避免因填充的0导致页面展示乱码的问题[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值