java byte 类型的 那点小事

本文详细解析了如何在Java中处理汉字编码问题,包括使用getBytes方法转换字符串为字节数组,以及通过位操作判断汉字编码的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、先从一个判断字符是否为汉字的程序说起


public boolean vd(String str){  
    
    char[] chars=str.toCharArray();   
    boolean isGB2312=false;   
    for(int i=0;i<chars.length;i++){  
                byte[] bytes=(""+chars[i]).getBytes();   
                if(bytes.length==2){   
                            int[] ints=new int[2];   
                            ints[0]=bytes[0]& 0xff;   
                            ints[1]=bytes[1]& 0xff;   
                            if(ints[0]>=0x81 && ints[0]<=0xFE && ints[1]>=0x40 && ints[1]<=0xFE){   
                                        isGB2312=true;   
                                        break;   
                            }   
                }   
    }   
    return isGB2312;   
}

1、String 提供了一个函数:getBytes,用于将一个字符串转换成byte型数组; 所以常用的模型就是  byte [] bytes = str.getBytes();

2、一个汉字需要2个字节,byte []bytes = “字”.getBytes();   bytes[0] = -41 == 11010111,bytes[1] = -42 11010110

     “字” 在 机器内的编码是:11010111 :11010110,写这个的目的就是为了告诉大家:一个汉字要两个字节byte[0],byte[1],java存储的时候先存储高位到byte[0]

3、至于为什么 要 进行 bytes[0] & 0xff ,讲起来就比较麻烦

   (1)首先,java中遇到所有字节的比较都是转换成32位的10进制比较的

   (2)当收到(0xC7B0)这个GBK字符时,要判断 0x81 <= 0xC7 <= 0xFE 是否成立,实际变成判断 -127 < -57 < -2,唔,万幸,可以直接比较 low < ch < high。如果要判断 0x00 <= 0xC7 <= 0x80 (ASC Char),这回麻烦了,变成判断 (0 <= -57 <= 127) || ( 0x57 == -128 )。比较简单的办法用 (b+256)%256的办法令其值回到0~255,或者用&0xff并赋给一个int


   (3)位了详细的讲下这个byte ,还要先温习下计算机组成原理的知识(P.S. java 中正数用原码表示,负数用补码表示)

    

byte是一个字节保存的,有8个位,即8个0、1。

8位的第一个位是符号位,

也就是说0000 0001代表的是数字1 1000 0000代表的就是-1

所以正数最大位0111 1111,也就是数字127,  负数最大为1111 1111,也就是数字-128

 

上面说的是二进制原码,但是在java中采用的是补码的形式,下面介绍下什么是补码

 

1、反码:

        一个数如果是正,则它的反码与原码相同;

        一个数如果是负,则符号位为1,其余各位是对原码取反;

 

2、补码:利用溢出,我们可以将减法变成加法

       对于十进制数,从9得到5可用减法:

       9-4=5    因为4+6=10,我们可以将6作为4的补数

       改写为加法:

       9+6=15(去掉高位1,也就是减10)得到5.

 

       对于十六进制数,从c到5可用减法:

       c-7=5    因为7+9=16 将9作为7的补数

       改写为加法:

       c+9=15(去掉高位1,也就是减16)得到5.

 

在计算机中,如果我们用1个字节表示一个数,一个字节有8位,超过8位就进1,在内存中情况为(100000000),进位1被丢弃。

 

⑴一个数为正,则它的原码、反码、补码相同

⑵一个数为负,补码为:负数的绝对值的反码加1

 

- 1的原码为                10000001

- 1的反码为                11111110

                                                   + 1

- 1的补码为                11111111

 

10 原码:0000 1010   它在计算机中的存储就是 0000 1010, 

-10 绝对值10 原码: 0000 1010 反码: 1111 0101 再加1后:1111 0110,此为-10补码,

好的,计算机中的1111 0110就是代表-10了。

 

-128  绝对值128的二进制表示:1000 0000 按位取反 0111 1111 加1后:1000 0000,

也就是说 -128在计算机中的表示就是 1000 0000 了,

 

Integer.toHexString的参数是int,如果不进行&0xff,那么当一个byte会转换成int时,

由于int是32位,而byte只有8位这时会进行补位,

例如补码11111111的十进制数为-1转换为int时变为11111111111111111111111111111111好多1啊,呵呵!

即0xffffffff但是这个数是不对的,这种补位就会造成误差。和0xff相与后,高24比特就会被清0了,结果就对了。

 

//Java

Java中的一个byte,其范围是-128~127的,而Integer.toHexString的参数本来是int,

如果不进行&0xff,那么当一个byte会转换成int时,对于负数,会做位扩展,

举例来说,一个byte的-1(即0xff),会被转换成int的-1(即 0xffffffff),那么转化出的结果就不是我们想要的了。

 

而0xff默认是整形,所以,一个byte跟0xff相与会先将那个byte转化成整形运算,

这样,结果中的高的24个比特就总会被清0, 于是结果总是我们想要的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值