unicode编码与utf8编码

最新推荐文章于 2025-11-19 20:01:47 发布

原创最新推荐文章于 2025-11-19 20:01:47 发布 · 1.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

本文详细介绍了UTF-8和Unicode编码的基本概念及其转换原理。重点解释了UTF-8编码中不同字节数对应的Unicode范围，以及如何通过特定的字节范围来判断一个字符是否属于中文编码。

这几天在弄编码问题，有些心得就写下来

1、utf8编码详细看这个：http://baike.baidu.com/view/742823.htm

2、unicode编码的具体编码可以看看这个：http://www.knowsky.com/resource/gb2312tbl.htm

从上面可以得出下面明显的结论：

1、utf编码第一字节以及所表示的unicode范围：

字节总数	1	2	3	4
第一字节范围		C0-DF	E0-EF	F0-F7
表示的unicode范围	0-7F	80-7FF	800-FFFF	10000-1FFFFF
上面一行10进制表示	0-127	128-2047	2048-65535	65536-2097151

2、随后的几个字节范围都是：0x80~0xBF

3、unicode开始于：0xA1A0（41376），结束于：0xFEFF（65279）；其中中文编码从：0xB0A0（45216）开始，结束于：0xF7F0（63472）

小结：

1、unicode的转换成utf8后都在3字节范围内

2、因此utf8编码的unicode第一个字节都在：0xE0~0xEF之间，后续字节在0x80~0xBF之间

3、3个字节后面可能跟着0~127范围内的ascii编码

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

varding

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

UTF8编码表

语不惊人死不休

10-14

55万+

UTF，是UnicodeTransformation Format的缩写，意为Unicode转换格式。UTF-8是UNICODE的一种变长字符编码，由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。如果UNICODE字符由2个字节表示，则编码成UTF-8很可能需要3个字节，而如果UNICODE字符由4个字

UTF-8编码，转码汉字的实现总结，以及QT‘

KLh

04-25

3660

/str_ssid中包含的字符就是“\xe9\xa3\x9e”，注意这里的\是包含在里面的字符而不是分隔符。2.现在需要对字符串 “\xe9\xa3\x9e”进行处理变成““e9a39e””，用16进制的格式存到分别存到3个字节中，这样才能识别出中文来。wifi模块中将wifi中的ssid已char[]数组存起来，char[]数组中的内容是“\\xe9\\xa3\\x9e”- 四字节：U+10000至U+10FFFF，编码为`11110xxx 10xxxxxx 10xxxxxx 10xxxxxx`

参与评论您还未登录，请先登录后发表或查看评论

知识碎片：UTF-8的编码浅识

最新发布

每天进步一点点

11-19

759

UTF-8是一种变长编码格式，使用1-4个字节表示字符。本文介绍了UTF-8的三种主要表示方式：十六进制编码（如0xE50x9B0xA2表示"团"字）、Unicode转义序列（\u56e2）和Unicode码点（U+56E2）。这些格式分别用于数据存储、编程语言和标准文档中。文章还提供了C++测试代码，能够将输入的UTF-8字符串转换为十六进制编码输出，帮助理解编码转换过程。不同表示方式本质上指代相同字符，只是应用场景不同。

GBK、Unicode、UTF8各语言详解及相互之间的转换形式

m0_57067154的博客

05-25

5079

GBK、Unicode、UTF8各语言详解及相互之间的转换形式

UTF-8编码

N的专栏

02-27

943

UTF-8编码定义 UTF-8是一种变长字节编码方式。对于某一个字符的UTF-8编码，如果只有一个字节则其最高二进制位为0；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的位数，其余各字节均以10开头。UTF-8最多可用到6个字节。如表： 1字节 0xxxxxxx 2字节 110xxxxx 10xxxxxx 3字节 1110xxxx 10xxxx

Unicode编码转UTF-8编码程序

05-08

Unicode转UTF-8

PHP如何实现Unicode和Utf-8编码相互转换

12-19

例如，对于UTF-8编码的“你”，11100100, 10111101, 10100000，通过位移和按位操作可以还原出原始的Unicode码点。在实际编程中，可以使用PHP的`pack`和`unpack`函数来实现这种转换。`pack`函数可以将字符串转换为...

泰文UTF-8编码转成Unicode编码详细代码

03-14

文件里有详细的代码，编码格式选择UTF-8编码，亲测在linux下可以直接运行。泰文在osd输出的流程一般是泰文先转换成Unicode编码，然后调用freetype进行文字渲染叠加

unicode编码（UTF8）的十六进制与字符互相转换

12-02

一些设备串口通讯使用的是unicode，这时候我们解码就要使用unicode 编码包含的是中文，英文，俄文还是日文什么的，只要把它转换成Unicode就能被识别，而不用再考虑...unicode编码（UTF8）的十六进制与字符互相转换

MySQL 编码utf8 与 utf8mb4 utf8mb4_unicode_ci 与 utf8mb4_general_ci

09-08

这里我们将深入探讨UTF8和UTF8MB4两种编码格式，以及它们各自的排序规则`utf8mb4_unicode_ci`和`utf8mb4_general_ci`。首先，UTF-8是一种广泛使用的Unicode字符编码方案，它允许使用1到4个字节来表示不同的字符。...

utf8编码

枝寒不栖

12-02

492

UTF-8是Unicode的一种实现方式，也就是它的字节结构有特殊要求，所以我们说一个汉字的范围是0X4E00到0x9FA5，是指unicode值，至于放在utf-8的编码里去就是由三个字节来组织，所以可以看出unicode是给出一个字符的范围，定义了这个字是码值是多少，至于具体的实现方式可以有多种多样来实现。 UTF-8是一种变长字节编码方式。对于某一个字符的UTF-8编码，如

UTF-8编码规则

热门推荐

sandyen的专栏

08-23

3万+

UTF-8是一种变长字节编码方式。对于某一个字符的UTF-8编码，如果只有一个字节则其最高二进制位为0；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的位数，其余各字节均以10开头。UTF-8最多可用到6个字节。如表： 1字节 0xxxxxxx 2字节 110xxxxx 10xxxxxx 3字节 1110xxxx 10xxxxxx 10xxxxxx 4字节 111

【转】utf-8的中文是一个汉字占三个字节长度

weixin_34117211的博客

01-18

1595

因为看到百度里面这个人回答比较生动，印象比较深刻，所以转过来做个笔记原文链接 https://zhidao.baidu.com/question/1047887004693001899.html 知乎也有更清晰解答 https://www.zhihu.com/question/23374078 1、美国人首先对其英文字符进行了编码，也就是最早的ascii码，用一个字节的低7位来表示英...

编码格式：UTF-8（8-bit Unicode Transformation Format）

Wei_sx的博客

11-13

2502

UTF-8 是一种灵活、高效且广泛应用的字符编码方案，能够处理多语言文本，是现代互联网和软件开发的标准选择。UTF-8 是一种广泛使用的字符编码形式，旨在支持全球多种语言的字符集。兼容性：UTF-8 是向后兼容 ASCII 的，这意味着任何有效的 ASCII 文本在 UTF-8 编码下也会保持不变，这使得与旧系统兼容变得更容易。广泛应用：UTF-8 是网页设计和数据库存储中最受欢迎的编码格式，为全球网站和应用程序的互操作性提供支持。变长编码：UTF-8 使用 1 至 4 个字节来编码一个字符。