UTF-8笔记170330

本文详细介绍了Unicode与UTF-8编码的关系,解释了UTF-8如何通过不同长度的字节序列来表示各种语言中的字符,包括ASCII、希腊文、西里尔文及中文等,并给出了具体编码规则。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >





unicode


为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的

UTF-8使用可变长度字节来储存 Unicode字符,例如ASCII字母继续使用1字节储存,重音文字、希腊字母或西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节。辅助平面字符则使用4字节

RFC 3629utf8


UTF-8Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说一个汉字的范围是0X4E000x9FA5(其实还包括了中日韩的),是指unicode值,至于放在utf-8的编码里去就是由三个字节来组织,所以可以看出unicode是给出一个字符的范围,定义了这个字是码值是多少,至于具体的实现方式可以有多种多样来实现。

1字节 7   0xxxxxxx 
2字节 11 110xxxxx 10xxxxxx 
3字节 16 1110xxxx 10xxxxxx 10xxxxxx 
4字节 21 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 
5字节 26 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 
6字节 31 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 

转载于:https://www.cnblogs.com/jinhengyu/p/7516810.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值