zlib使用gzip / Accept-Encoding和Content-Encoding概要

最新推荐文章于 2025-03-14 09:29:28 发布

转载最新推荐文章于 2025-03-14 09:29:28 发布 · 1.3k 阅读

3 ·

CC 4.0 BY-SA版权

原文链接：http://www.cppblog.com/woaidongmao/archive/2011/06/05/148089.html；https://www.yht7.com/news/7487；

文章标签：

#http #网络协议 #tcp/ip

编程语言同时被 2 个专栏收录

24 篇文章

订阅专栏

网络编程

6 篇文章

订阅专栏

本文详细介绍了zlib库在压缩数据时与gzip文件格式的区别，展示了如何使用C语言实现zlib和gzip压缩/解压缩，以及它们在HTTP传输中的应用。重点讲解了数据头的作用和使用场景。

zlib是个著名的开源解压缩库，gzip是一种压缩文件格式。

zlib可以压缩原始数据并输出gzip文件，gzip文件中除了压缩数据外，还有描述这些数据的文件头，所以当原始数据较小时，会出现zlib的压缩输出会比原始数据还大的情况。

zlib能使用一个gzip数据头，zlib数据头或者不使用数据头压缩数据。

通常情况下，数据压缩使用zlib数据头，因为这提供错误数据检测。当数据不使用数据头写入时，结果是没有任何错误检测的原始DEFLATE数据，那么解压缩软件的调用者不知道压缩数据在什么地方结束。

gzip数据头比zlib数据头要大，因为它保存了文件名和其他文件系统信息，事实上这是广泛使用的gzip文件的数据头格式。注意zlib函式库本身不能创建一个gzip文件，但是它相当轻松的通过把压缩数据写入到一个有gzip文件头的文件中。

zlib提供的工具接口：compress()和decompress()是压缩内存数据流，并不带gzip文件头和尾。java的解压缩用的是类似的一套东西：java.util.zip.GZIPInputStream,请注意java的这一套是用来解压完整的gzip文件格式的，因此如果c语言用zlib的compress()压缩数据后传给java，java端是解压缩不了的，会提示格式错误。

c实现demo：

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <zlib.h>

/* Compress data */
int zcompress(Bytef *data, uLong ndata, Bytef *zdata, uLong *nzdata)
{
	z_stream c_stream;
	int err = 0;

	if(data && ndata > 0)
	{
		c_stream.zalloc = (alloc_func)0;
		c_stream.zfree = (free_func)0;
		c_stream.opaque = (voidpf)0;
		if(deflateInit(&c_stream, Z_DEFAULT_COMPRESSION) != Z_OK) return -1;
		c_stream.next_in  = data;
		c_stream.avail_in  = ndata;
		c_stream.next_out = zdata;
		c_stream.avail_out  = *nzdata;
		while (c_stream.avail_in != 0 && c_stream.total_out < *nzdata) 
		{
			if(deflate(&c_stream, Z_NO_FLUSH) != Z_OK) return -1;
		}
        if(c_stream.avail_in != 0) return c_stream.avail_in;
		for (;;) {
			if((err = deflate(&c_stream, Z_FINISH)) == Z_STREAM_END) break;
			if(err != Z_OK) return -1;
		}
		if(deflateEnd(&c_stream) != Z_OK) return -1;
		*nzdata = c_stream.total_out;
		return 0;
	}
	return -1;
}

/* Compress gzip data */
int gzcompress(Bytef *data, uLong ndata, Bytef *zdata, uLong *nzdata)
{
	z_stream c_stream;
	int err = 0;

	if(data && ndata > 0)
	{
		c_stream.zalloc = (alloc_func)0;
		c_stream.zfree = (free_func)0;
		c_stream.opaque = (voidpf)0;
		if(deflateInit2(&c_stream, Z_DEFAULT_COMPRESSION, Z_DEFLATED, 
                    -MAX_WBITS, 8, Z_DEFAULT_STRATEGY) != Z_OK) return -1;
		c_stream.next_in  = data;
		c_stream.avail_in  = ndata;
		c_stream.next_out = zdata;
		c_stream.avail_out  = *nzdata;
		while (c_stream.avail_in != 0 && c_stream.total_out < *nzdata) 
		{
			if(deflate(&c_stream, Z_NO_FLUSH) != Z_OK) return -1;
		}
        if(c_stream.avail_in != 0) return c_stream.avail_in;
		for (;;) {
			if((err = deflate(&c_stream, Z_FINISH)) == Z_STREAM_END) break;
			if(err != Z_OK) return -1;
		}
		if(deflateEnd(&c_stream) != Z_OK) return -1;
		*nzdata = c_stream.total_out;
		return 0;
	}
	return -1;
}

/* Uncompress data */
int zdecompress(Byte *zdata, uLong nzdata, Byte *data, uLong *ndata)
{
	int err = 0;
	z_stream d_stream; /* decompression stream */

	d_stream.zalloc = (alloc_func)0;
	d_stream.zfree = (free_func)0;
	d_stream.opaque = (voidpf)0;
    d_stream.next_in  = zdata;
	d_stream.avail_in = 0;
	d_stream.next_out = data;
	if(inflateInit(&d_stream) != Z_OK) return -1;
	while (d_stream.total_out < *ndata && d_stream.total_in < nzdata) {
		d_stream.avail_in = d_stream.avail_out = 1; /* force small buffers */
		if((err = inflate(&d_stream, Z_NO_FLUSH)) == Z_STREAM_END) break;
		if(err != Z_OK) return -1;
	}
	if(inflateEnd(&d_stream) != Z_OK) return -1;
	*ndata = d_stream.total_out;
	return 0;
}

/* HTTP gzip decompress */
/* zdata 原数据 nzdata 原数据长度 data 压缩后数据 ndata 压缩后长度*/
int httpgzdecompress(Byte *zdata, uLong nzdata, Byte *data, uLong *ndata)
{
    int err = 0;
    z_stream d_stream = {0}; /* decompression stream */
    static char dummy_head[2] = 
    {
        0x8 + 0x7 * 0x10,
        (((0x8 + 0x7 * 0x10) * 0x100 + 30) / 31 * 31) & 0xFF,
    };
    d_stream.zalloc = (alloc_func)0;
    d_stream.zfree = (free_func)0;
    d_stream.opaque = (voidpf)0;
    d_stream.next_in  = zdata;
    d_stream.avail_in = 0;
    d_stream.next_out = data;
    if(inflateInit2(&d_stream, 47) != Z_OK) return -1;
    while (d_stream.total_out < *ndata && d_stream.total_in < nzdata) {
        d_stream.avail_in = d_stream.avail_out = 1; /* force small buffers */
        if((err = inflate(&d_stream, Z_NO_FLUSH)) == Z_STREAM_END) break;
        if(err != Z_OK )
        {
            if(err == Z_DATA_ERROR)
            {
                d_stream.next_in = (Bytef*) dummy_head;
                d_stream.avail_in = sizeof(dummy_head);
                if((err = inflate(&d_stream, Z_NO_FLUSH)) != Z_OK) 
                {
                    return -1;
                }
            }
            else return -1;
        }
    }
    if(inflateEnd(&d_stream) != Z_OK) return -1;
    *ndata = d_stream.total_out;
    return 0;
}

/* Uncompress gzip data */
int gzdecompress(Byte *zdata, uLong nzdata, Byte *data, uLong *ndata)
{
    int err = 0;
    z_stream d_stream = {0}; /* decompression stream */
    static char dummy_head[2] = 
    {
        0x8 + 0x7 * 0x10,
        (((0x8 + 0x7 * 0x10) * 0x100 + 30) / 31 * 31) & 0xFF,
    };
    d_stream.zalloc = (alloc_func)0;
    d_stream.zfree = (free_func)0;
    d_stream.opaque = (voidpf)0;
    d_stream.next_in  = zdata;
    d_stream.avail_in = 0;
    d_stream.next_out = data;
    if(inflateInit2(&d_stream, -MAX_WBITS) != Z_OK) return -1;
    //if(inflateInit2(&d_stream, 47) != Z_OK) return -1;
    while (d_stream.total_out < *ndata && d_stream.total_in < nzdata) {
        d_stream.avail_in = d_stream.avail_out = 1; /* force small buffers */
        if((err = inflate(&d_stream, Z_NO_FLUSH)) == Z_STREAM_END) break;
        if(err != Z_OK )
        {
            if(err == Z_DATA_ERROR)
            {
                d_stream.next_in = (Bytef*) dummy_head;
                d_stream.avail_in = sizeof(dummy_head);
                if((err = inflate(&d_stream, Z_NO_FLUSH)) != Z_OK) 
                {
                    return -1;
                }
            }
            else return -1;
        }
    }
    if(inflateEnd(&d_stream) != Z_OK) return -1;
    *ndata = d_stream.total_out;
    return 0;
}

#ifdef _DEBUG_ZSTREAM
#define BUF_SIZE 65535
int main()
{
	char *data = "kjdalkfjdflkjdlkfjdklfjdlkfjlkdjflkdjflddajfkdjfkdfaskf;ldsfk;ldakf;ldskfl;dskf;ld";	
	uLong ndata = strlen(data);	
	Bytef zdata[BUF_SIZE];
	uLong nzdata = BUF_SIZE;
	Bytef  odata[BUF_SIZE];
	uLong nodata = BUF_SIZE;
	
	memset(zdata, 0, BUF_SIZE);
	//if(zcompress((Bytef *)data, ndata, zdata, &nzdata) == 0)
	if(gzcompress((Bytef *)data, ndata, zdata, &nzdata) == 0)
	{
		fprintf(stdout, "nzdata:%d %s\n", nzdata, zdata);
		memset(odata, 0, BUF_SIZE);
		//if(zdecompress(zdata, ndata, odata, &nodata) == 0)
		if(gzdecompress(zdata, ndata, odata, &nodata) == 0)
		{
			fprintf(stdout, "%d %s\n", nodata, odata);
		}
	}
}
#endif

参考链接：

zlib使用defalte, gzip的例子 - woaidongmao - C++博客 (cppblog.com)

Accept-Encoding和Content-Encoding

Accept-Encoding和Content-Encoding是HTTP中用来对采用何种压缩格式传输正文进行协定的一对header。工作原理如下：

浏览器发送请求，通过Accept-Encoding带上自己支持的内容编码格式列表
服务端从中挑选一个用来对正文进行编码，并通过Content-Encoding响应头指明响应编码格式。
浏览器拿到响应正文后，根据Content-Encoding进行解压缩。服务端若响应未压缩的正文，则不允许返回Content-Encoding。

压缩类型：

gzip：表示采用 Lempel-Ziv coding (LZ77) 压缩算法，以及32位CRC校验的编码方式
Compress：采用Lempel-Ziv-Welch (LZW) 压缩算法。
deflate：表示采用 zlib 结构 (在 RFC 1950 中规定)，和 deflate 压缩算法(在 RFC 1951 中规定)。
identity：用于指代自身（未经过压缩和修改）。除非特别指明，这个标记始终可以被接受。
Br：表示采用Brotli 算法的编码方式。

内容编码：

内容编码针对的只是传输正文。HTTP/1中，header始终是以ASCII文本传输，没有经过任何压缩；HTTP/2中引入header压缩技术。

传输编码Transfer-Encoding

用于表示节点之间传输message的编码方式。最典型是分块传输（chunked）
是一个响应header

Transfer-Encoding支持类型：

chunked
compress
deflate
gzip
identit
多个类型可以共存

Transfer-Encoding与Content-Encoding的区别：

Transfer-Encoding只是在传输过程中才有的，并发请求URL对应实体的本身特性。
Transfer-Encoding是一个"跳到跳"的header，而Content-Encoding是"端到端"的header。

Content-type

Content-type是HTTP的实体首部，用于说明请求或者返回的消息主体是用何种方式编码（即资源的MIME类型）。在请求、响应header中均存在。

示例如下：

Content-Type: text/html; charset=utf-8
Content-Type: multipart/form-data; boundary=something

参数一般包含：

media-type：资源或者数据的MIME type
charset：字符编码标准
boundary：多于多部实体，boundary是必需的。其包括一组1到70个字符，用于封装消息的多个部分的边界。

Media-type常用类型：

application/x-www-form-urlencoded
- form表单或者提交的数据按照key1=value1&key2=value2方式进行编码，key、value均进行了urlencode
multipart/form-data
- 常见的POST数据提交的方式，使用form进行文件上传的时候，必须让form的enctype为这个。
application/json
- 消息主体是序列化后的json字符串。
text/html
- 是一种用HTTP作为传输协议，XML作为编码方式的远程调用规范。

参考链接：

HTTP中的Accept-Encoding、Content-云海天教程 (yht7.com)