转载自:http://www.cnblogs.com/BeyondTechnology/archive/2011/03/27/1997165.html
Base64编码
1.
MIME主要使用两种编码转换方式——Quoted-printable和Base64——将8位的非英语字符转化为7位的ASCII字符。
虽然这样的初衷,是为了满足电子邮件中不能直接使用非ASCII码字符的规定,但是也有其他重要的意义:
a)所有的二进制文件,都可以因此转化为可打印的文本编码,使用文本软件进行编辑;
b)能够对文本进行简单的加密。
2.
首先,简单介绍一下Quoted-printable编码转换方式。它主要用于ACSII文本中夹杂少量非ASCII码字符的情况,不适合于转换纯二进制文件。
它规定将每一个8位的字节,转换为3个字符。
第一个字符是“=”号,这是固定不变的。
后面二个字符是二个十六进制数,分别代表了这个字节前四位和后四位的数值。
举例来说,ASCII码中“换页键”(form feed)是12,二进制形式是00001100,写成十六进制就是0C,因此它的编码值为“=0C”。“=”号的ASCII值是61,二进制形式是00111101,因为它的编码值是“=3D”。除了可打印的ASCII码以外,所有其他字符都必须用这种方式进行转换。
所有可打印的ASCII码字符(十进制值从33到126)都保持原样不变,“=”(十进制值61)除外。
3.
下面,详细介绍Base64的编码转换方式。
所谓Base64,就是说选出64个字符——小写字母a-z、大写字母A-Z、数字0-9、符号“+”、“/”(再加上作为垫字的“=”,实际上是65个字符)——作为一个基本字符集。然后,其他所有符号都转换成这个字符集中的字符。
具体来说,转换方式可以分为四步。
第一步,将每三个字节作为一组,一共是24个二进制位。
第二步,将这24个二进制位分为四组,每个组有6个二进制位。
第三步,在每组前面加两个00,扩展成32个二进制位,即四个字节。
第四步,根据下表,得到扩展后的每个字节的对应符号,这就是Base64的编码值。
0 A 17 R 34 i 51 z
1 B 18 S 35 j 52 0
2 C 19 T 36 k 53 1
3 D 20 U 37 l 54 2
4 E 21 V 38 m 55 3
5 F 22 W 39 n 56 4
6 G 23 X 40 o 57 5
7 H 24 Y 41 p 58 6
8 I 25 Z 42 q 59 7
9 J 26 a 43 r 60 8
10 K 27 b 44 s 61 9
11 L 28 c 45 t 62 +
12 M 29 d 46 u 63 /
13 N 30 e 47 v
14 O 31 f 48 w
15 P 32 g 49 x
16 Q 33 h 50 y
因为,Base64将三个字节转化成四个字节,因此Base64编码后的文本,会比原文本大出三分之一左右。
4.
举一个具体的实例,演示英语单词Man如何转成Base64编码。
Text content M a n
ASCII 77 97 110
Bit pattern 0 1 0 0 1 1 0 1 0 1 1 0 0 0 0 1 0 1 1 0 1 1 1 0
Index 19 22 5 46
Base64-Encoded T W F u
第一步,“M”、“a”、“n”的ASCII值分别是77、97、110,对应的二进制值是01001101、01100001、01101110,将它们连成一个24位的二进制字符串010011010110000101101110。
第二步,将这个24位的二进制字符串分成4组,每组6个二进制位:010011、010110、000101、101110。
第三步,在每组前面加两个00,扩展成32个二进制位,即四个字节:00010011、00010110、00000101、00101110。它们的十进制值分别是19、22、5、46。
第四步,根据上表,得到每个值对应Base64编码,即T、W、F、u。
因此,Man的Base64编码就是TWFu。
5.
如果字节数不足三,则这样处理:
a)二个字节的情况:将这二个字节的一共16个二进制位,按照上面的规则,转成三组,最后一组除了前面加两个0以外,后面也要加两个0。这样得到一个三位的Base64编码,再在末尾补上一个“=”号。
比如,“Ma”这个字符串是两个字节,可以转化成三组00010011、00010110、00010000以后,对应Base64值分别为T、W、E,再补上一个“=”号,因此“Ma”的Base64编码就是TWE=。
b)一个字节的情况:将这一个字节的8个二进制位,按照上面的规则转成二组,最后一组除了前面加二个0以外,后面再加4个0。这样得到一个二位的Base64编码,再在末尾补上两个“=”号。
比如,“M”这个字母是一个字节,可以转化为二组00010011、00010000,对应的Base64值分别为T、Q,再补上二个“=”号,因此“M”的Base64编码就是TQ==。
6.
再举一个中文的例子,汉字“严”如何转化成Base64编码?
这里需要注意,汉字本身可以有多种编码,比如gb2312、utf-8、gbk等等,每一种编码的Base64对应值都不一样。下面的例子以utf-8为例。
首先,“严”的utf-8编码为E4B8A5,写成二进制就是三字节的“11100100 10111000 10100101”。将这个24位的二进制字符串,按照第3节中的规则,转换成四组一共32位的二进制值“00111001 00001011 00100010 00100101”,相应的十进制数为57、11、34、37,它们对应的Base64值就为5、L、i、l。
所以,汉字“严”(utf-8编码)的Base64值就是5Lil
C#实现Base64编码与解码
一、编码规则
Base64编码的思想是是采用64个基本的ASCII码字符对数据进行重新编码。它将需要编码的数据拆分成字节数组。以3个字节为一组。按顺序排列24 位数据,再把这24位数据分成4组,即每组6位。再在每组的的最高位前补两个0凑足一个字节。这样就把一个3字节为一组的数据重新编码成了4个字节。当所要编码的数据的字节数不是3的整倍数,也就是说在分组时最后一组不够3个字节。这时在最后一组填充1到2个0字节。并在最后编码完成后在结尾添加1到2个 “=”。
例:将对ABC进行BASE64编码:
1、首先取ABC对应的ASCII码值。A(65)B(66)C(67);
2、再取二进制值A(01000001)B(01000010)C(01000011);
3、然后把这三个字节的二进制码接起来(010000010100001001000011);
4、 再以6位为单位分成4个数据块,并在最高位填充两个0后形成4个字节的编码后的值,(00010000)(00010100)(00001001)(00000011),其中蓝色部分为真实数据;
5、再把这四个字节数据转化成10进制数得(16)(20)(9)(3);
6、最后根据BASE64给出的64个基本字符表,查出对应的ASCII码字符(Q)(U)(J)(D),这里的值实际就是数据在字符表中的索引。
注:BASE64字符表:ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/
二、解码规则
解码过程就是把4个字节再还原成3个字节再根据不同的数据形式把字节数组重新整理成数据。
三、C#中的实现
编码类:
/// Base64编码类。
/// 将byte[]类型转换成Base64编码的string类型。
/// </summary>
public class Base64Encoder
{
byte [] source;
int length, length2;
int blockCount;
int paddingCount;
public static Base64Encoder Encoder = new Base64Encoder();
public Base64Encoder()
{
}
private void init( byte [] input)
{
source = input;
length = input.Length;
if ((length % 3 ) == 0 )
{
paddingCount = 0 ;
blockCount = length / 3 ;
}
else
{
paddingCount = 3 - (length % 3 );
blockCount = (length + paddingCount) / 3 ;
}
length2 = length + paddingCount;
}
public string GetEncoded( byte [] input)
{
// 初始化
init(input);
byte [] source2;
source2 = new byte [length2];
for ( int x = 0 ; x < length2; x ++ )
{
if (x < length)
{
source2[x] = source[x];
}
else
{
source2[x] = 0 ;
}
}
byte b1, b2, b3;
byte temp, temp1, temp2, temp3, temp4;
byte [] buffer = new byte [blockCount * 4 ];
char [] result = new char [blockCount * 4 ];
for ( int x = 0 ; x < blockCount; x ++ )
{
b1 = source2[x * 3 ];
b2 = source2[x * 3 + 1 ];
b3 = source2[x * 3 + 2 ];
temp1 = ( byte )((b1 & 252 ) >> 2 );
temp = ( byte )((b1 & 3 ) << 4 );
temp2 = ( byte )((b2 & 240 ) >> 4 );
temp2 += temp;
temp = ( byte )((b2 & 15 ) << 2 );
temp3 = ( byte )((b3 & 192 ) >> 6 );
temp3 += temp;
temp4 = ( byte )(b3 & 63 );
buffer[x * 4 ] = temp1;
buffer[x * 4 + 1 ] = temp2;
buffer[x * 4 + 2 ] = temp3;
buffer[x * 4 + 3 ] = temp4;
}
for ( int x = 0 ; x < blockCount * 4 ; x ++ )
{
result[x] = sixbit2char(buffer[x]);
}
switch (paddingCount)
{
case 0 : break ;
case 1 : result[blockCount * 4 - 1 ] = ' = ' ; break ;
case 2 : result[blockCount * 4 - 1 ] = ' = ' ;
result[blockCount * 4 - 2 ] = ' = ' ;
break ;
default : break ;
}
return new string (result);
}
private char sixbit2char( byte b)
{
char [] lookupTable = new char [ 64 ]{
' A ' , ' B ' , ' C ' , ' D ' , ' E ' , ' F ' , ' G ' , ' H ' , ' I ' , ' J ' , ' K ' , ' L ' , ' M ' ,
' N ' , ' O ' , ' P ' , ' Q ' , ' R ' , ' S ' , ' T ' , ' U ' , ' V ' , ' W ' , ' X ' , ' Y ' , ' Z ' ,
' a ' , ' b ' , ' c ' , ' d ' , ' e ' , ' f ' , ' g ' , ' h ' , ' i ' , ' j ' , ' k ' , ' l ' , ' m ' ,
' n ' , ' o ' , ' p ' , ' q ' , ' r ' , ' s ' , ' t ' , ' u ' , ' v ' , ' w ' , ' x ' , ' y ' , ' z ' ,
' 0 ' , ' 1 ' , ' 2 ' , ' 3 ' , ' 4 ' , ' 5 ' , ' 6 ' , ' 7 ' , ' 8 ' , ' 9 ' , ' + ' , ' / ' };
if ((b >= 0 ) && (b <= 63 ))
{
return lookupTable[( int )b];
}
else
{
return ' ' ;
}
}
}
解码类:
/// Base64解码类
/// 将Base64编码的string类型转换成byte[]类型
/// </summary>
public class Base64Decoder
{
char [] source;
int length, length2, length3;
int blockCount;
int paddingCount;
public static Base64Decoder Decoder = new Base64Decoder();
public Base64Decoder()
{
}
private void init( char [] input)
{
int temp = 0 ;
source = input;
length = input.Length;
for ( int x = 0 ; x < 2 ; x ++ )
{
if (input[length - x - 1 ] == ' = ' )
temp ++ ;
}
paddingCount = temp;
blockCount = length / 4 ;
length2 = blockCount * 3 ;
}
public byte [] GetDecoded( string strInput)
{
// 初始化
init(strInput.ToCharArray());
byte [] buffer = new byte [length];
byte [] buffer2 = new byte [length2];
for ( int x = 0 ; x < length; x ++ )
{
buffer[x] = char2sixbit(source[x]);
}
byte b, b1, b2, b3;
byte temp1, temp2, temp3, temp4;
for ( int x = 0 ; x < blockCount; x ++ )
{
temp1 = buffer[x * 4 ];
temp2 = buffer[x * 4 + 1 ];
temp3 = buffer[x * 4 + 2 ];
temp4 = buffer[x * 4 + 3 ];
b = ( byte )(temp1 << 2 );
b1 = ( byte )((temp2 & 48 ) >> 4 );
b1 += b;
b = ( byte )((temp2 & 15 ) << 4 );
b2 = ( byte )((temp3 & 60 ) >> 2 );
b2 += b;
b = ( byte )((temp3 & 3 ) << 6 );
b3 = temp4;
b3 += b;
buffer2[x * 3 ] = b1;
buffer2[x * 3 + 1 ] = b2;
buffer2[x * 3 + 2 ] = b3;
}
length3 = length2 - paddingCount;
byte [] result = new byte [length3];
for ( int x = 0 ; x < length3; x ++ )
{
result[x] = buffer2[x];
}
return result;
}
private byte char2sixbit( char c)
{
char [] lookupTable = new char [ 64 ]{
' A ' , ' B ' , ' C ' , ' D ' , ' E ' , ' F ' , ' G ' , ' H ' , ' I ' , ' J ' , ' K ' , ' L ' , ' M ' , ' N ' ,
' O ' , ' P ' , ' Q ' , ' R ' , ' S ' , ' T ' , ' U ' , ' V ' , ' W ' , ' X ' , ' Y ' , ' Z ' ,
' a ' , ' b ' , ' c ' , ' d ' , ' e ' , ' f ' , ' g ' , ' h ' , ' i ' , ' j ' , ' k ' , ' l ' , ' m ' , ' n ' ,
' o ' , ' p ' , ' q ' , ' r ' , ' s ' , ' t ' , ' u ' , ' v ' , ' w ' , ' x ' , ' y ' , ' z ' ,
' 0 ' , ' 1 ' , ' 2 ' , ' 3 ' , ' 4 ' , ' 5 ' , ' 6 ' , ' 7 ' , ' 8 ' , ' 9 ' , ' + ' , ' / ' };
if (c == ' = ' )
return 0 ;
else
{
for ( int x = 0 ; x < 64 ; x ++ )
{
if (lookupTable[x] == c)
return ( byte )x;
}
return 0 ;
}
}
}
// 解码类结束
提示:
上面的代码只是说明base64编码的原理,以便用更多语言重写。但.net里面可以使用更简单的方法:
编码:




