Unicode转义(\uXXXX)的编码和解码

本文介绍了如何在JavaScript中处理Unicode转义字符,包括两种不同的编码方法及解码方法。通过具体示例展示了如何使用正则表达式和位运算等技术手段来实现这些功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在涉及Web前端开发时, 有时会遇到\uXXXX格式表示的字符,  其中XXXX是16进制数字的字符串表示形式,  在js中这个叫Unicode转义字符, 和\n \r同属于转义字符.  在其他语言中也有类似的, 可能还有其它变形的格式.

多数时候遇到需要解码的情况多点, 所以会先介绍解码decode, 后介绍编码encode.

下文会提供Javascript C# Java三种语言下不同方法的实现和简单说明, 会涉及到正则和位运算的典型用法.

Javascript的实现

解码的实现

1
2
3
function decode(s) {     return unescape(s.replace(/\\(u[0-9a-fA-F]{4})/gm, '%$1')); }

unescape是用来处理%uXXXX这样格式的字符串,  将\uXXXX替换成%uXXXXunescape就可以处理了.

编码的实现

1
2
3
4
5
function encode1(s) {     return escape(s).replace(/%(u[0-9A-F]{4})|(%[0-9A-F]{2})/gm, function($0, $1, $2) {         return $1 && '\\' + $1.toLowerCase() || unescape($2);     }); }

和解码中相对应, 使用escape编码,  然后将%uXXXX替换为\uXXXX,  因为escape还可能把一些字符编码成%XX的格式,  所以这些字符还需要使用unescape还原回来.

escape编码结果%uXXXX中的XXXX是大写的,  所以后面的replace只处理大写的A-F.

另一种编码的实现

不使用正则和escape

1
2
3
4
5
6 7 8 9 10 11 12 13 14 
function encode2(s) {     var i, c, ret = [],         pad = '000';     for (i = 0; i < s.length; i++) {         c = s.charCodeAt(i);         if (c > 256) {             c = c.toString(16);             ret[i] = '\\u' + pad.substr(0, 4 - c.length) + c;         } else {             ret[i] =

转载于:https://www.cnblogs.com/seesea125/articles/4112945.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值