从网上搜索到的结果大多数都是这个答案:[\u4e00-\u9fa5],这个和判断字母的正则 [a-zA-Z] 一样,应该是一个范围值。
但是 \u3e00 在控制台的结果是"㸀",这个也是中文字,说明 [\u4e00-\u9fa5] 正则就不准确了。
\u3e00 实际上是“㸀”字的 Unicode 编码 U+3E00。㸀位于中日韩统一表意文字扩充A区。
什么是 Unicode 码,Unicode 也叫万国码、国际码、统一码、单一码,是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得计算机可以用更为简单的方式来呈现和处理文字。并且 Unicode 每年都在增修,每个版本都会加入新的字符。
中日韩统一表意文字又称统一汉字、统汉码(英语:Unihan),因为一些国家受到汉字文化的影响,一些文字的形状意思还是一样的,就可以把这些文字统一编一个 Unicode 码,省了很多麻烦。
因为 Unicode 在不断修订更改,导致上面的正则不完全准确。
与其说是中文正则匹配,其实汉字正则匹配更加合适。在浏览器控制台做了下验证,[\u3a00-\ufa99] 范围内是有文字的,注:测试结果仅限于Chrome 版本 74.0.3729.157 版本浏览器。具体可以去 Unicode 官网验证下:www.unicode.org/Public/zipp…
那汉字正则匹配就可以这么写:
/**
* 是否为汉字
* String keyword
*/
function isUnihan (keyword) {
return /^[\u3a00-\ufa99]+$/.test(keyword)
}
复制代码
另外,单字节占一个字符,双字节占两个字符,汉字都是两字节,匹配双字节字符(包括汉字在内):[^\x00-\xff],利用这个正则可以统计字节数。
/**
* 计算字节数
* String str
*/
function strLen (str) {
const len = str.length
let Len = len
const reg = /[^\x00-\xff]/
for (let i = 0;i < len; i++) {
if (reg.test(str.chartAt(i))) {
Len++
}
}
return Len
}
复制代码
完结,撒花