字符串与Unicode编码互相转换

最新推荐文章于 2025-07-03 12:04:33 发布

原创最新推荐文章于 2025-07-03 12:04:33 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

笔记专栏收录该内容

130 篇文章

订阅专栏

本文介绍如何将字符串转换为unicode编码，并提供了一个具体的代码示例。此外，文章还展示了如何将经过unicode编码的汉字转换回原始汉字形式。

 将字符串转为unicode编码
 
public static String toUNICODE(String s)
    {
        StringBuilder sb=new StringBuilder();
        for(int i=0;i<s.length();i++)
        {
            if(s.charAt(i)<=256)
            {
                sb.append("\\u00");
            }
            else
            {
                sb.append("\\u");
            }
            sb.append(Integer.toHexString(s.charAt(i)));
        }
        return sb.toString();
    }
  
　为了避免在浏览器中传输数据的时候出现中文乱码，我们可以将内容进行URL编码，当然也可以将内容进行UNICODE编码。将汉字进行UNICODE编码，如：“王”编码后就成了“\u738b”，UNICODE字符以\u开始，后面有4个数字或者字母，所有字符都是16进制的数字，每两位表示的256 以内的一个数字。而一个汉字是由两个字符组成，于是就很容易理解了，“738b”是两个字符，分别是“73”“8b”。但是在将UNICODE字符编码的内容转换为汉字的时候，字符是从后面向前处理的，所以，需要把字符按照顺序“8b”“73”进行组合得到汉字。下面是具体的转化代码。

将邮件列表中的名字（name）进行转换，转换后放回到邮件列表中（mails）

                        // 将UNICODE编码后的汉字转换回来，如： \u738b --> 王

                        MatchCollection mCollection2 = Regex.Matches(name, "([\\w]+)|(\\\\u([\\w]{4}))");

                        if (mCollection2 != null && mCollection2.Count > 0)

                        {

                            StringBuilder sb = new StringBuilder();

                            foreach (Match m2 in mCollection2)

                            {

                                string v = m2.Value;

                                if (v.StartsWith("\\u"))

                                {

                                    string word = v.Substring(2);

                                    byte[] codes = new byte[2];

                                    int code = System.Convert.ToInt32(word.Substring(0, 2), 16);

                                    int code2 = System.Convert.ToInt32(word.Substring(2), 16);

                                    codes[0] = (byte)code2;

                                    codes[1] = (byte)code;

                                    sb.Append(Encoding.Unicode.GetString(codes));

                                }

                                else

                                {

                                    sb.Append(v);

                                }

                            }

                            mails[i, 0] = sb.ToString();

                        }

                        else

                        {

                            mails[i, 0] = name;

                        }