JavaScript正则表达式中的Unicode支持：u标志与\p{}类-优快云博客

JavaScript正则表达式中的Unicode支持：u标志与\p{}类

在JavaScript中，字符串使用Unicode编码。大多数情况下，每个字符占用2个字节（16位），可以表示最多65,536个不同的字符。然而，随着Unicode标准的发展，这个范围已经不足以涵盖所有字符，特别是：

这些特殊字符使用4个字节（32位）进行编码。例如：

由于历史原因，JavaScript最初设计时只考虑了2字节的Unicode字符。虽然现在支持4字节字符，但某些字符串操作仍然存在问题：

console.log('😄'.length); // 输出2，而不是1
console.log('𝒳'.length); // 同样输出2

这是因为length属性将4字节字符视为两个2字节字符的组合（称为"代理对"）。

为了解决这个问题，正则表达式引入了u标志：

// 不使用u标志
console.log(/^.$/.test('😄')); // false

// 使用u标志
console.log(/^.$/u.test('😄')); // true

u标志的作用：

Unicode为每个字符定义了各种属性，描述其类别和特征。在正则表达式中，可以使用\p{...}来匹配具有特定属性的字符。

// 匹配任何字母（必须使用u标志）
const regex = /\p{L}/u;

Unicode定义了多种字符类别，包括：

const hexRegex = /x\p{Hex_Digit}\p{Hex_Digit}/u;
console.log("number: xAF".match(hexRegex)); // ["xAF"]

const chineseRegex = /\p{sc=Han}/gu;
const str = "Hello 你好 123_456";
console.log(str.match(chineseRegex)); // ["你", "好"]

const currencyRegex = /\p{Sc}\d/gu;
const prices = "Prices: $2, €1, ¥9";
console.log(prices.match(currencyRegex)); // ["$2", "€1", "¥9"]

掌握这些特性可以大大增强JavaScript中文本处理的能力，特别是在多语言环境下。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考