字节，字符，编码和存储

原创于 2013-08-22 14:55:13 发布 · 766 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#C# #编码 #Unicode #ascii

本文详细介绍了字节、字符的概念及其在计算机存储中的表示方法，包括ASCII、Unicode编码，以及UTF-16、UTF-32、UTF8等不同编码方式在BigEndian和LittleEndian存储顺序上的差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

字节(octet):是一个八位的存储单元，取值范围一定是0～255。

字符(character):为语言意义上的符号，范围不一定。例如：A，B，上，中，& 等。

编码（Encode）：为每个字符指定一个数值，同时确定数值的表示方法。

存储：字符编码在计算机中存储方式，Big Endian:高字节在前,低字节在后，Little Endian:低字节在前,高字节在后。

他们之间的关系

编码是对字符的一种映射，可以有多种方案。最早的一种编码方案是ASCII。主要用于现代英语和西欧语言。在ASCII编码方案中，只说明了0到127分别代表什么。随着电脑的普及，需要在电脑中显示的字符越来越多。为整合全世界的所有语言文字在电脑中的显示，出现了Unicode。在Unicode中，一个字符被映射到一个叫做码点(code point)的东西，说白了就是一个序号。

对每个字符编号以后，在电脑中如何表示呢？这就涉及到编码的实现。

一种方式是：一个码点用2个字节即16位来表示。这种表示方法就是UTF16.

一种方式是：一个码点用4个字节即32位来表示。这种表示方法就是UTF32.

一种方式是：一个码点用1到4个字节来表示，这种表示方法就是UTF8. 这种表示描述起来有点复杂。

确定了表示的方法，那么如何存储呢？

UTF-16包括三种：UTF-16，UTF-16BE（Big Endian），UTF-16LE（Little Endian）。

UTF-16BE和UTF-16LE不难理解，而UTF-16就需要通过在文件开头以名为BOM（Byte Order Mark）的字符来表明文件是Big Endian还是Little Endian。BOM为U+FEFF这个字符。

与UTF-16类似，UTF-32也包括UTF-32、UTF-32BE、UTF-32LE三种编码，UTF-32也同样需要BOM字符。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。