1.函数介绍
要实现文章的汉字个数、标点符号个数、总的字符个数的统计,首先研究如何判断某个字符是不是汉字,小编研究了GBK的编码表,发现:
GBK中文部分采用双字节编码,总体范围:8140-FEFE,分为首码和尾码,首码范围:81-FE,尾码范围:40-FE。
进一步观察发现汉字的范围是(首码81-A0,尾码40-FE)、(首码AA-AF,尾码40-A0)、(首码B0-F7,尾码40-FE)、(首码F8-FE,尾码40-A0)。非汉字的范围是(首码A1-A9)。
因此可以得出结论:判断一个字符是否是汉字,仅仅看它的GBK码的首码就可以了,若一个字符的GBK码的首码在A1-A9范围内,则认为它不是汉字。
于是得下面的函数:
/*
功能:统计字符串中汉字个数、标点符号个数、总的字符个数
输入参数:字符串
返回:长度为3的数组,数组元素按顺序分别表示:汉字个数、标点符号个数、总的字符个数
@auther:杨陈菊
*/
public static int[] numberOfChar(String str, int[] count)throws Exception{
try{
byte[] bytes = str.getBytes("GBK");//转码
for (int i=0;i<(bytes.length/2) ;i++ )