java爬取网页Unicode 转 utf-8 汉字

最新推荐文章于 2021-11-03 17:15:08 发布

原创最新推荐文章于 2021-11-03 17:15:08 发布 · 1.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#java Unicode 转 utf-8 #java #unicode #utf-8

java Unicode 转 utf-8 汉字专栏收录该内容

1 篇文章

订阅专栏

本文介绍了一个用于将字符串中的Unicode编码（\uXXXX格式）转换为UTF-8编码的Java工具类。该工具通过正则表达式查找Unicode编码，并使用UTF-16解码将其转换为目标编码格式。

废话少说直接上代码

package util;  
  
import java.nio.ByteBuffer;  
import java.nio.charset.Charset;  
import java.util.regex.Matcher;  
import java.util.regex.Pattern;  
  
/** 
 * @author stone

 *<p>Unicode 转utf-8
 * 
 */  
public class CharSetUtil {  
  
    /** 
     * 解码 Unicode \\uXXXX 
     * @param str 
     * @return 
     */  
    public static String decodeUnicode(String str) {  
        Charset set = Charset.forName("UTF-16");  
        Pattern p = Pattern.compile("\\\\u([0-9a-fA-F]{4})");  
        Matcher m = p.matcher( str );  
        int start = 0 ;  
        int start2 = 0 ;  
        StringBuffer sb = new StringBuffer();  
        while( m.find( start ) ) {  
            start2 = m.start() ;  
            if( start2 > start ){  
                String seg = str.substring(start, start2) ;  
                sb.append( seg );  
            }  
            String code = m.group( 1 );  
            int i = Integer.valueOf( code , 16 );  
            byte[] bb = new byte[ 4 ] ;  
            bb[ 0 ] = (byte) ((i >> 8) & 0xFF );  
            bb[ 1 ] = (byte) ( i & 0xFF ) ;  
            ByteBuffer b = ByteBuffer.wrap(bb);  
            sb.append( String.valueOf( set.decode(b) ).trim() );  
            start = m.end() ;  
        }  
        start2 = str.length() ;  
        if( start2 > start ){  
            String seg = str.substring(start, start2) ;  
            sb.append( seg );  
        }  
        return sb.toString() ;  
    }  
      
    public static void main(String[] args) {  
        System.out.println( decodeUnicode("\\u5907abbbbbs\\u5907"));  
    }  
}