思考:解决问题之前,我们需要了解的是,在GB2312字符集的编码中汉字占2个字节,字母和其他字符占一个字节,而在utf-8中汉字占3,或者4个字节,字母占2个字节,由于utf一下占2个3个字节,一下占4个字节,不好拆分出指定的汉字加字母,所以才用GB2312的编码格式,汉字占2个字节,字母一个字节。
GB2312规定对收录的每个字符采用两个字节表示,第一个字节为“高字节”,对应94个区;第二个字节为“低字节”,对应94个位。所以它的区位码范围是:0101-9494。区号和位号分别加上0xA0就是GB2312编码。例如最后一个码位是9494,区号和位号分别转换成十六进制是5E5E,0x5E+0xA0=0xFE,所以该码位的GB2312编码是FEFE。
GB2312编码范围:A1A1-FEFE,其中汉字的编码范围为B0A1-F7FE,第一字节0xB0-0xF7(对应区号:16-87),第二个字节0xA1-0xFE(对应位号:01-94)。A-F的二进制最高位都为1
所以:在把汉字转换成字节的时候,输出的字节的值小于0,字母转换成字节的时候,输出的值就是其对应的数字。
编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。 但是要保证汉字不被截半个。
如“我ABC”4,应该截为“我AB”,输入“我ABC汉DEF”,6,应该输出为“我ABC”而不是“我ABC+汉的半个”。
public static String splitString(String str, int byteLength)
throws Exception {
//如果字符串为空,直接返回
if(str == null || "".equals(str)) {
return str;
}
//用于统计这个字符串中有几个中文字符
int wordCount = 0;
//统一按照gbk编码来得到他的字节数组,因为不同的编码字节数组是不一样的。
byte[] strBytes = str.getBytes("GB2312");
//如果只截取一位,而且第一位是中文字符时的处理
if (byteLength == 1) {
if (strBytes[0] < 0) {
return str.substring(0, 1);
}
}
//字符串中的一个中文会使得wordCount 加两次
//如果你这个字节取出来的是一个汉字也就是两个字节当中的一个的话val的值为负数
for (int i = 0; i < byteLength; i++) {
int val = strBytes[i];
if (val < 0) {
wordCount++;
}
}
//如果传递的这个截取的位数没有截到半个中文上面,那么就按照byteLength - (wordCount / 2)个长度进行截取
if (wordCount % 2 == 0) {
return str.substring(0, (byteLength - (wordCount / 2)));
}
//否则,我们就舍弃多出来的这一位 所以 -1
return str.substring(0, (byteLength - (wordCount / 2) - 1));
}
第二种方式是用正则表达式、Unicode 编码来判断
https://blog.youkuaiyun.com/yspxiaopanni/article/details/93624871
Java用的是Unicode 编码char 型变量的范围是0-65535 无符号的值,可以表示 65536个字符。
unicode编码范围:
汉字:[0x4e00,0x9fa5](或十进制[19968,40869])
数字:[0x30,0x39](或十进制[48, 57])
小写字母:[0x61,0x7a](或十进制[97, 122])
大写字母:[0x41,0x5a](或十进制[65, 90])
汉字编码范围:\u4e00-\u9FA5
双字节字符编码范围:\u0391-\uFFE5
第一步:判断是否存在汉字
public boolean generateJudgment(String countname)
{
Pattern p = Pattern.compile("[\u4e00-\u9fa5]");
Matcher isNum = p.matcher(countname);
if (isNum.find()) {
return true;
}
return false;
}
JAVA正则表达式:Pattern类与Matcher类
待补充
getBytes()方法详解
https://blog.youkuaiyun.com/ljheee/article/details/51476125
在Java中,String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这表示在不同的操作系统下,返回的东西不一样!
1、 str.getBytes(); 如果括号中不写charset,则采用的是Sytem.getProperty("file.encoding"),即当前文件的编码方式,
2、 str.getBytes("charset");//指定charset,即将底层存储的Unicode码解析为charset编码格式的字节数组方式
3、String str=new String(str.getBytes("utf-8"),"gbk")); //
将已经解析出来的字节数据转化为gbk编码格式的字符串,在内存中即为gbk格式的字节数组转为Unicode去交互传递