Java文章的汉字个数、标点符号个数、总的字符个数

本文介绍了如何使用Java统计文章中汉字、标点符号和总字符数的方法。通过对GBK编码表的研究,作者提出了判断汉字的依据,并给出了相应的函数实现。通过测试《西游记》原文,得出共有589774个汉字,68138个标点符号,总计657912个字符。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.函数介绍

要实现文章的汉字个数、标点符号个数、总的字符个数的统计,首先研究如何判断某个字符是不是汉字,小编研究了GBK的编码表,发现:
GBK中文部分采用双字节编码,总体范围:8140-FEFE,分为首码和尾码,首码范围:81-FE,尾码范围:40-FE。

进一步观察发现汉字的范围是(首码81-A0,尾码40-FE)、(首码AA-AF,尾码40-A0)、(首码B0-F7,尾码40-FE)、(首码F8-FE,尾码40-A0)。非汉字的范围是(首码A1-A9)。

因此可以得出结论:判断一个字符是否是汉字,仅仅看它的GBK码的首码就可以了,若一个字符的GBK码的首码在A1-A9范围内,则认为它不是汉字。

于是得下面的函数:

/*
	功能:统计字符串中汉字个数、标点符号个数、总的字符个数
	输入参数:字符串
	返回:长度为3的数组,数组元素按顺序分别表示:汉字个数、标点符号个数、总的字符个数
	@auther:杨陈菊
	*/
	public static int[] numberOfChar(String str, int[] count)throws Exception{
   
   
		try{
   
   
			byte[] bytes = str.getBytes("GBK");//转码
			for (int i=0;i<(bytes.length/2) ;i++ ) 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值