UTF8与Unicode的转换

本文详细介绍了Unicode字符如何转换为UTF-8编码。包括ASCII字符的特殊处理方式及不同Unicode字符对应的UTF-8编码长度。通过示例说明了转换的具体过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如果UNICODE字符由2个字节表示,则编码成UTF-8很可能需要3个字节,而如果UNICODE字符由4个字节表示,则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了,但很少会遇到那样的UNICODE字符。

UTF-8转换表表示如下:

 

 

UNICODEUTF-8
00000000 - 0000007F0xxxxxxx
00000080 - 000007FF110xxxxx 10xxxxxx
00000800 - 0000FFFF1110xxxx 10xxxxxx 10xxxxxx
00010000 - 001FFFFF11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
00200000 - 03FFFFFF111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
04000000 - 7FFFFFFF1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

 

 

实际表示ASCII字符的UNICODE字符,将会编码成1个字节,并且UTF-8表示与ASCII字符表示是一样的。所有其他的UNCODE字符转化成UTF-8将需要至少2个字节。每个字节由一个换码序列开始。第一个字节由唯一的换码序列,由n位1加一位0组成。n位1表示字符编码所需的字节数。

  示例

  UNICODE uCA(11001010) 编码成UTF-8将需要2个字节:

  uCA -> C3 8A

  UNICODE uF03F (11110000 00111111) 编码成UTF-8将需要3个字节:

  u F03F -> EF 80 BF

  译者注:由上分析可以看到,UNCODE到UTF-8的转换就是先确定编码所需要的字节数,然后用UNICODE编码位从低位到高位依次填入上面表示为x的位上,不足的高位以0补充。以上是个人经验,如有错误,请不惜指教,谢过先:)

 

从百度百科上找的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值