ES6中Unicode的改动 正则和字符串的变动 codePointAt

ES6为了应对Unicode扩展导致的码元与码点不一致问题,引入了`codePointAt`方法和正则标志`u`。`codePointAt`允许正确获取字符串中码点的长度,而`u`标志让正则能够按码点匹配,解决了生僻字导致的匹配错误和长度计算不准确的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ES6中Unicode的改动

早期,由于储存空间宝贵,Unicode使用16位二进制来储存文字,我们将一个16位的二进制编码叫做一个码元(Code Unit)。
后来由于技术的发展,Unicode对文字编码进行了扩展,将某些文字扩展到了32位(占用两个码元),并且,将某个对应的二进制数字叫做码点(Code Point)。


	//此时就产生了一个问题
	//在这里我写了一个字符串这个字是一个生僻字读ji
	const text = '吉';
	
	//而我在这里用.length的方法来测试字符串的长度
	console.log('字符串长度:', text.length);
	//用正则表达式来检索看看能不能检索到
	console.log('使用正则测试:', /^.$/.text(text));

而结果是
在这里插入图片描述
???
不应该对吧,字符串长度应该为1
正则表达式应该是能检索到字符串的啊,应该是为ture

那是因为现在有些文字要占用两个码元,有的文字占用一个码元,而js在很早之前1999年的时候已经有10年没有更新了一个语言有10年没有更新是多么可怕的一件事啊。所以在当时的语法中他认为一个码元就对应一个文字而有的文字实际上是占用了两个码元就会导致这样的结果发生。

所以就会出现字符串的长度是2因为它占用了两个码元,正则匹配时也是因为匹配的是两个码元所以匹配不到。

那么ES6中能不能改动这些呢,能!但是不敢,因为他不敢保证以前的一些旧系统都能兼容。虽然在ES6中还没有改但是他折中了一下。

在ES6中为了解决这个困扰,为字符串提供了方法:codePointAt

	
	//以前能够做到的
	console,log('得到第一个码元', text.charCodeAt(0).toString(16));//  \ud842  55362
	console,log('得到第二个码元', text.charCodeAt(1).toString(16));//  \udfb7  57271
	
	//现在
	console.log('得到第一个码点:', text.codePointAt(0));
	//他会读取第一个码元,看,这占用的不止一个码元会把下一个码元也读取出来所以会输出一个完整的编码
	console.log('得到第二个码点:', text.codePointAt(1));
	//能不能读出来呢,能,但是他看着一半的编码因为不是第一个码元所以会将第二个码元原封不动的输出

同时ES6为正则表达式添加了一个flag: u,如果添加了该配置,则匹配时使用码点来匹配。


	console.log('使用正则测试:', /^.$/u.text(text));

那么我们可以用它来干什么呢

比如说我们遇到了一个需求需要去测试一个字符串中的长度那么这个字符串中刚好有这样的生僻字,导致了字符串长度的测量不准南无我们就可以利用此方法来测试


/**
 * 判断字符串char,是32位,还是16位
 * @param {*} char 
 */
function is32bit(char, i) {
    //如果码点大于了16位二进制的最大值,则其是32位的
    return char.codePointAt(i) > 0xffff;
}

/**
 * 得到一个字符串码点的真实长度
 * @param {*} str 
 */
function getLengthOfCodePoint(str) {
    var len = 0;
    for (let i = 0; i < str.length; i++) {
        //i在索引码元
        if (is32bit(str, i)) {
            //当前字符串,在i这个位置,占用了两个码元
            i++;
        }
        len++;
    }
    return len;
}

console.log("𠮷是否是32位的:", is32bit("𠮷", 0))
console.log("ab𠮷ab的码点长度:", getLengthOfCodePoint("ab𠮷ab"))

这就是这ES6中Unicode的一些改东西希望对你有用

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值