UTF8、UNICODE、BOM的区分

最新推荐文章于 2024-09-02 12:28:21 发布

原创

最新推荐文章于 2024-09-02 12:28:21 发布 · 772 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文介绍了UTF8、UNICODE以及BOM的概念。UTF8是一种可变长度的字符编码集，可由1到4个字节组成。UNICODE则是将抽象码映射为16位字符集，编码可能由2或4个字节表示。BOM（字节顺序标记）用于解决多字节编码在网络和文件传输中可能存在的字节顺序问题，UTF16需要BOM来指示字节顺序，而UTF8则不强制使用。了解这些基础知识对于正确解码字符至关重要。

常见的编解码概念

unicdoe: 囊括了几乎所有的国家不同语言的一套字符编码集
UTF-8:可变长的字符编码集(节省空间)，将unicode的抽象码映射成一个8位（单个字节的）字符集, utf8编码通常由【1~4】个字节组成
UTF-16: 将unicode的抽象码映射成一个16位(2个字节）的字符集， utf16编码通常由2个或4个字节组成
BOM： Bytes order mark字节编码顺序标志；分为大端字节序，小端字节序

超过两个字节的编码流在进行网络、文件传输时，不同的cpu编解码字节顺序可能不同。为了能够在不同的环境下都能正确的解码字符，超过两个字节的编码格式必须要携带BOM标记。如：UTF-16、UTF-32

而UTF-8由于其特殊的编解码条件，不需要带BOM标记，python也提供了带BOM标记的utf-8编码格式：utf-8-sig(微软系基本上所有的软件都是带BOM标记，utf-8-sig常用于微软系的软件编解码)

传输过程中，解析端按照BOM的编码序列解码，才能得到正确的字符，否则就会乱码
```
>>> '中'.encode('utf-16_le').decode('utf-16_be') 
'ⵎ'								 # 以小端序列编码,大端序列解码,则出现乱码
>>>
```

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。