java Unicode 转 utf-8 汉字

该博客介绍了一个Java工具类,用于将Unicode格式的字符串转换为UTF-8编码,特别是针对包含汉字的情况。内容包括一个名为CharSetUtil的类,其中的decodeUnicode方法能够解析并转换Unicode编码(如u2422u3243)为汉字。示例代码展示了如何使用该方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

// 从网络上下载到的网页经常是Unicode格式的,这个工具类可以将<span style="font-family: Arial, Helvetica, sans-serif;">Unicode格式转换为utf-8格式,也就是讲\u2422\u3243之类的编码转换为汉字,非常好用,双引号什么的没有影响。</span>
package util;

import java.nio.ByteBuffer;
import java.nio.charset.Charset;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * @author tian
 *
 */
public class CharSetUtil {

	/**
	 * 解码 Unicode \\uXXXX
	 * @param str
	 * @return
	 */
	public static String decodeUnicode(String str) {
		Charset set = Charset.forName("UTF-16");
		Pattern p = Pattern.compile("\\\\u([0-9a-fA-F]{4})");
		Matcher m = p.matcher( str );
		int start = 0 ;
		int start2 = 0 ;
		StringBuffer sb = new StringBuffer();
		while( m.find( start ) ) {
			start2 = m.start() ;
			if( start2 > start ){
				String seg = str.substring(start, start2) ;
				sb.append( seg );
			}
			String code = m.group( 1 );
			int i = Integer.valueOf( code , 16 );
			byte[] bb = new byte[ 4 ] ;
			bb[ 0 ] = (byte) ((i >> 8) & 0xFF );
			bb[ 1 ] = (byte) ( i & 0xFF ) ;
			ByteBuffer b = ByteBuffer.wrap(bb);
			sb.append( String.valueOf( set.decode(b) ).trim() );
			start = m.end() ;
		}
		start2 = str.length() ;
		if( start2 > start ){
			String seg = str.substring(start, start2) ;
			sb.append( seg );
		}
		return sb.toString() ;
	}
	
	public static void main(String[] args) {
		System.out.println( decodeUnicode("\\u5907abbbbbs\\u5907"));
	}
}

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值