php {0110 &^ 1011 =,由 Content-MD5 报文头引出关于编码的学习-优快云博客

本文深入探讨了HTTP首部字段Content-MD5的作用，它是通过MD5算法确保数据传输的完整性。同时，介绍了ASCII编码、Unicode（包括UTF-8）和Base64编码的概念及其工作原理。通过实例解释了MD5和Base64在HTTP中的应用，帮助读者理解网络传输中数据校验和编码的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

看图解http时看到首部字段Content-MD5，说先根据报文主体执行MD5编码，得到的二进制数在用Base64编码，最终得到一串字符，用于对报文主体的准确性校验。这MD5是什么？Base64又是什么？抱着这些疑问，花了半天整理了一下编码相关的基础知识，最后通过练习，最后初步了解为什么要编码，这些编码到底是怎么计算运行的。

ASCII

用8bit表示字符的编码格式，256个可用字符，128个已定义字符，其中33个控制字符(已陈废)，95个可显字符。

ASCII码表

二进制

十进制

十六进制

图形

二进制

十进制

十六进制

图形

二进制

十进制

十六进制

图形

0010 0000

(space)

0100 0000

0110 0000

0010 0001

0100 0001

0110 0001

0010 0010

0100 0010

0110 0010

0010 0011

0100 0011

0110 0011

0010 0100

0100 0100

0110 0100

100

0010 0101

0100 0101

0110 0101

101

0010 0110

0100 0110

0110 0110

102

0010 0111

0100 0111

0110 0111

103

0010 1000

(

0100 1000

0110 1000

104

0010 1001

)

0100 1001

0110 1001

105

0010 1010

0100 1010

0110 1010

106

0010 1011

0100 1011

0110 1011

107

0010 1100

0100 1100

0110 1100

108

0010 1101

0100 1101

0110 1101

109

0010 1110

0100 1110

0110 1110

110

0010 1111

0100 1111

0110 1111

111

0011 0000

0101 0000

0111 0000

112

0011 0001

0101 0001

0111 0001

113

0011 0010

0101 0010

0111 0010

114

0011 0011

0101 0011

0111 0011

115

0011 0100

0101 0100

0111 0100

116

0011 0101

0101 0101

0111 0101

117

0011 0110

0101 0110

0111 0110

118

0011 0111

0101 0111

0111 0111

119

0011 1000

0101 1000

0111 1000

120

0011 1001

0101 1001

0111 1001

121

0011 1010

0101 1010

0111 1010

122

0011 1011

;

0101 1011

[

0111 1011

123

{

0011 1100

0101 1100

0111 1100

124

0011 1101

0101 1101

]

0111 1101

125

}

0011 1110

0101 1110

0111 1110

126

0011 1111

0101 1111

UNICODE

Unicode只是一个字符集，只规定了符号的二进制代码，但不规定这个二进制代码如何存储。实际字符与二进制代码转换时还需要用到具体转换格式，如UTF-8,UTF-16等。

BigEndian & LittleEndian

ANSI、UTF-16会区分big endian和little endian。

当用两个字节表示一个符号时，从第一个字节往后编码和解析的方式为Big Endian大头方式，从最后一个字节往前编码和解析的方式为LittleEndian小头方式。

Unicode规范中定义，每一个文件的最前面分别加入一个表示编码顺序的字符，这个字符的名字叫做"零宽度非换行空格"(ZERO WIDTH NO-BREAK SPACE)，用FEFF表示。这正好是两个字节，而且FF比FE大1。

如果一个文本文件的头两个字节是FE FF，就表示该文件采用大头方式；如果头两个字节是FF FE，就表示该文件采用小头方式。

UTF-8

unicode的字符集庞大，一个字符长度可能是三个字节(24bit)甚至4个字节(32bit)。固定长度的编码方式容易造成资源极大浪费(UTF-16用两个或4个字节，UTF-32固定4个字节)。

基于unicode的一种变长的编码方式，可用1~4个字节表示单个符号。

UTF-8的编码规则：

对于单字节字符，字节第一位设为0，后面7位为这个符号的unicode码。因此对于英文字母和数字，UTF-8编码和ASCII编码是相同的。

对于n个字节的字符(n>1)，第一个字节的前n位设为1，第n+1位设为0；后面字节的前两位设为10；剩下空余字节全部为这个符号的unicode码。

Unicode符号范围 | UTF-8编码方式

(十六进制)

(二进制)

0000 0000-0000 007F

0xxxxxxx

0000 0080-0000 07FF

110xxxxx 10xxxxxx

0000 0800-0000 FFFF

1110xxxx 10xxxxxx 10xxxxxx

0001 0000-0010 FFFF

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-8最大容量10FFFF，即1,114,111个字符。例子：

“严”对应unicode为4E25(100111000100101)，判断占用三个字节，即格式为1110xxxx 10xxxxxx 10xxxxxx，然后从“严”的最后一个二进制位开始，依次从后向前填入格式中的x，多出位数补0，即得到了“严”的UTF-8编码：11100100 10111000 10100101，转换成十六进制就是E4B8A5。

BASE64

Base64是基于64个可打印字符来表示二进制数据的表示方法。2的6次方为64，所以每6bits为一个单元，对应某个可打印字符。

64个字符包含a-zA-Z0-9功62个字符，以及加号“+”和斜杠“/”。等号“=”作为后缀补位符(不在64个字符之内)。

Base64索引

数值

字符

数值

字符

数值

字符

数值

字符