java中对Byte字符数组定长截取的方法

本文详细介绍了如何处理从后台C语言传来的拼接字符串,在Java环境中进行定长截取的问题。特别关注了C语言与Java在字符编码上的差异(Byte与Unicode),并提供了解决方案:将字符串转换为Bytes数组,采用Unicode编码,并根据编码特点正确截取所需内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        今天在在处理从网络上接收到的字符串,因为是从后台C语言过来的一组拼接的字符串,要定长截取,然而由于C语言是用Byte的方式计数,而java中是用Unicode编码的方式计数,一个中文汉字以Bytes的方式是两个字节,而用Unicode的方式是一个字,所以难以准确的截取出我想到的内容,经过半天的探索发现应该以如下的方式来解决。

        先将字符串转换为Bytes【】数组,编码方式为“Unicode”,转出来的数组中的第一位和第二位是-2和-1,真正的内容从第三位开始,所有的字符都占用两个字节的空间,如果是英文和字母则第一个空间为0,如果是汉字就不是0,通过这样的方法就可以正确处理截取字符串的内容了!

public static String bSubstring(String s, int length) throws Exception  
	{  
	  
	    byte[] bytes = s.getBytes("Unicode");  
	    int n = 0; // 表示当前的字节数  
	    int i = 2; // 要截取的字节数,从第3个字节开始  
	    for (; i < bytes.length && n < length; i++)  
	    {  
	        // 奇数位置,如3、5、7等,为UCS2编码中两个字节的第二个字节  
	        if (i % 2 == 1)  
	        {  
	            n++; // 在UCS2第二个字节时n加1  
	        }  
	        else  
	        {  
	            // 当UCS2编码的第一个字节不等于0时,该UCS2字符为汉字,一个汉字算两个字节  
	            if (bytes[i] != 0)  
	            {  
	                n++;  
	            }  
	        }  
	    }  
	    // 如果i为奇数时,处理成偶数  
	    if (i % 2 == 1)  
	  
	    {  
	        // 该UCS2字符是汉字时,去掉这个截一半的汉字  
	        if (bytes[i - 1] != 0)  
	            i = i - 1;  
	        // 该UCS2字符是字母或数字,则保留该字符  
	        else  
	            i = i + 1;  
	    }  
	  
	    return new String(bytes, 0, i, "Unicode");  
	}


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值