一、先从一个判断字符是否为汉字的程序说起
public boolean vd(String str){
char[] chars=str.toCharArray();
boolean isGB2312=false;
for(int i=0;i<chars.length;i++){
byte[] bytes=(""+chars[i]).getBytes();
if(bytes.length==2){
int[] ints=new int[2];
ints[0]=bytes[0]& 0xff;
ints[1]=bytes[1]& 0xff;
if(ints[0]>=0x81 && ints[0]<=0xFE && ints[1]>=0x40 && ints[1]<=0xFE){
isGB2312=true;
break;
}
}
}
return isGB2312;
}
1、String 提供了一个函数:getBytes,用于将一个字符串转换成byte型数组; 所以常用的模型就是 byte [] bytes = str.getBytes();
2、一个汉字需要2个字节,byte []bytes = “字”.getBytes(); bytes[0] = -41 == 11010111,bytes[1] = -42 11010110
“字” 在 机器内的编码是:11010111 :11010110,写这个的目的就是为了告诉大家:一个汉字要两个字节byte[0],byte[1],java存储的时候先存储高位到byte[0]
3、至于为什么 要 进行 bytes[0] & 0xff ,讲起来就比较麻烦
(1)首先,java中遇到所有字节的比较都是转换成32位的10进制比较的
(2)当收到(0xC7B0)这个GBK字符时,要判断 0x81 <= 0xC7 <= 0xFE 是否成立,实际变成判断 -127 < -57 < -2,唔,万幸,可以直接比较 low < ch < high。如果要判断 0x00 <= 0xC7 <= 0x80 (ASC Char),这回麻烦了,变成判断 (0 <= -57 <= 127) || ( 0x57 == -128 )。比较简单的办法用 (b+256)%256的办法令其值回到0~255,或者用&0xff并赋给一个int
(3)位了详细的讲下这个byte ,还要先温习下计算机组成原理的知识(P.S. java 中正数用原码表示,负数用补码表示)
byte是一个字节保存的,有8个位,即8个0、1。
8位的第一个位是符号位,
也就是说0000 0001代表的是数字1 1000 0000代表的就是-1
所以正数最大位0111 1111,也就是数字127, 负数最大为1111 1111,也就是数字-128
上面说的是二进制原码,但是在java中采用的是补码的形式,下面介绍下什么是补码
1、反码:
一个数如果是正,则它的反码与原码相同;
一个数如果是负,则符号位为1,其余各位是对原码取反;
2、补码:利用溢出,我们可以将减法变成加法
对于十进制数,从9得到5可用减法:
9-4=5 因为4+6=10,我们可以将6作为4的补数
改写为加法:
9+6=15(去掉高位1,也就是减10)得到5.
对于十六进制数,从c到5可用减法:
c-7=5 因为7+9=16 将9作为7的补数
改写为加法:
c+9=15(去掉高位1,也就是减16)得到5.
在计算机中,如果我们用1个字节表示一个数,一个字节有8位,超过8位就进1,在内存中情况为(100000000),进位1被丢弃。
⑴一个数为正,则它的原码、反码、补码相同
⑵一个数为负,补码为:负数的绝对值的反码加1
- 1的原码为 10000001
- 1的反码为 11111110
+ 1
- 1的补码为 11111111
10 原码:0000 1010 它在计算机中的存储就是 0000 1010,
-10 绝对值10 原码: 0000 1010 反码: 1111 0101 再加1后:1111 0110,此为-10补码,
好的,计算机中的1111 0110就是代表-10了。
-128 绝对值128的二进制表示:1000 0000 按位取反 0111 1111 加1后:1000 0000,
也就是说 -128在计算机中的表示就是 1000 0000 了,
Integer.toHexString的参数是int,如果不进行&0xff,那么当一个byte会转换成int时,
由于int是32位,而byte只有8位这时会进行补位,
例如补码11111111的十进制数为-1转换为int时变为11111111111111111111111111111111好多1啊,呵呵!
即0xffffffff但是这个数是不对的,这种补位就会造成误差。和0xff相与后,高24比特就会被清0了,结果就对了。
//Java
Java中的一个byte,其范围是-128~127的,而Integer.toHexString的参数本来是int,
如果不进行&0xff,那么当一个byte会转换成int时,对于负数,会做位扩展,
举例来说,一个byte的-1(即0xff),会被转换成int的-1(即 0xffffffff),那么转化出的结果就不是我们想要的了。
而0xff默认是整形,所以,一个byte跟0xff相与会先将那个byte转化成整形运算,
这样,结果中的高的24个比特就总会被清0, 于是结果总是我们想要的。