汉字的范围是:0x4e00 ~ 0x9fa5
正则表达式的一些规则在文档的Pattern类下有介绍
方法3个:
①。正则表达式:
String test = "中文";
String regEx = "[//u0x4e00-//u9fa5]";
Pattern pn = Pattern.compile(regEx);
Matcher mr = pn.matcher(test);
while(mr.find()){
System.out.println(mr.group()); //返回在以前匹配操作期间由给定组捕获的输入子序列
}
②.还是正则表达式,不过这次是以每一个字符进行正则表达式检测
string test = "Cinese 中文";
for(int i=0 ; i<test.length() ; i++){
string temp = test.subString(i , i+1);
if(temp.matches("[//u4e00-//u9fa5]"))
System.out.println(temp);
}
③.由于英文字母之类的是占用一个字节,而汉字占用2个字节,所以字符串的长度与字节个数的比较可得
System.out.println(str1.getBytes().length == str1.length()?"":str1);
本文介绍了三种不同的汉字识别方法,包括使用正则表达式整体匹配、逐字符验证以及通过字节长度对比来判断是否存在汉字。这些方法适用于不同场景下的文本处理需求。
192

被折叠的 条评论
为什么被折叠?



