zlib使用gzip / Accept-Encoding和Content-Encoding概要

本文详细介绍了zlib库在压缩数据时与gzip文件格式的区别,展示了如何使用C语言实现zlib和gzip压缩/解压缩,以及它们在HTTP传输中的应用。重点讲解了数据头的作用和使用场景。

zlib是个著名的开源解压缩库,gzip是一种压缩文件格式。

zlib可以压缩原始数据并输出gzip文件,gzip文件中除了压缩数据外,还有描述这些数据的文件头,所以当原始数据较小时,会出现zlib的压缩输出会比原始数据还大的情况。

zlib能使用一个gzip数据头,zlib数据头或者不使用数据头压缩数据。

通常情况下,数据压缩使用zlib数据头,因为这提供错误数据检测。当数据不使用数据头写入时,结果是没有任何错误检测的原始DEFLATE数据,那么解压缩软件的调用者不知道压缩数据在什么地方结束。

gzip数据头比zlib数据头要大,因为它保存了文件名和其他文件系统信息,事实上这是广泛使用的gzip文件的数据头格式。注意zlib函式库本身不能创建一个gzip文件,但是它相当轻松的通过把压缩数据写入到一个有gzip文件头的文件中。

zlib提供的工具接口:compress()和decompress()是压缩内存数据流,并不带gzip文件头和尾。java的解压缩用的是类似的一套东西:java.util.zip.GZIPInputStream,请注意java的这一套是用来解压完整的gzip文件格式的,因此如果c语言用zlib的compress()压缩数据后传给java,java端是解压缩不了的,会提示格式错误。

c实现demo:

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <zlib.h>

/* Compress data */
int zcompress(Bytef *data, uLong ndata, Bytef *zdata, uLong *nzdata)
{
	z_stream c_stream;
	int err = 0;

	if(data && ndata > 0)
	{
		c_stream.zalloc = (alloc_func)0;
		c_stream.zfree = (free_func)0;
		c_stream.opaque = (voidpf)0;
		if(deflateInit(&c_stream, Z_DEFAULT_COMPRESSION) != Z_OK) return -1;
		c_stream.next_in  = data;
		c_stream.avail_in  = ndata;
		c_stream.next_out = zdata;
		c_stream.avail_out  = *nzdata;
		while (c_stream.avail_in != 0 && c_stream.total_out < *nzdata) 
		{
			if(deflate(&c_stream, Z_NO_FLUSH) != Z_OK) return -1;
		}
        if(c_stream.avail_in != 0) return c_stream.avail_in;
		for (;;) {
			if((err = deflate(&c_stream, Z_FINISH)) == Z_STREAM_END) break;
			if(err != Z_OK) return -1;
		}
		if(deflateEnd(&c_stream) != Z_OK) return -1;
		*nzdata = c_stream.total_out;
		return 0;
	}
	return -1;
}

/* Compress gzip data */
int gzcompress(Bytef *data, uLong ndata, Bytef *zdata, uLong *nzdata)
{
	z_stream c_stream;
	int err = 0;

	if(data && ndata > 0)
	{
		c_stream.zalloc = (alloc_func)0;
		c_stream.zfree = (free_func)0;
		c_stream.opaque = (voidpf)0;
		if(deflateInit2(&c_stream, Z_DEFAULT_COMPRESSION, Z_DEFLATED, 
                    -MAX_WBITS, 8, Z_DEFAULT_STRATEGY) != Z_OK) return -1;
		c_stream.next_in  = data;
		c_stream.avail_in  = ndata;
		c_stream.next_out = zdata;
		c_stream.avail_out  = *nzdata;
		while (c_stream.avail_in != 0 && c_stream.total_out < *nzdata) 
		{
			if(deflate(&c_stream, Z_NO_FLUSH) != Z_OK) return -1;
		}
        if(c_stream.avail_in != 0) return c_stream.avail_in;
		for (;;) {
			if((err = deflate(&c_stream, Z_FINISH)) == Z_STREAM_END) break;
			if(err != Z_OK) return -1;
		}
		if(deflateEnd(&c_stream) != Z_OK) return -1;
		*nzdata = c_stream.total_out;
		return 0;
	}
	return -1;
}

/* Uncompress data */
int zdecompress(Byte *zdata, uLong nzdata, Byte *data, uLong *ndata)
{
	int err = 0;
	z_stream d_stream; /* decompression stream */

	d_stream.zalloc = (alloc_func)0;
	d_stream.zfree = (free_func)0;
	d_stream.opaque = (voidpf)0;
    d_stream.next_in  = zdata;
	d_stream.avail_in = 0;
	d_stream.next_out = data;
	if(inflateInit(&d_stream) != Z_OK) return -1;
	while (d_stream.total_out < *ndata && d_stream.total_in < nzdata) {
		d_stream.avail_in = d_stream.avail_out = 1; /* force small buffers */
		if((err = inflate(&d_stream, Z_NO_FLUSH)) == Z_STREAM_END) break;
		if(err != Z_OK) return -1;
	}
	if(inflateEnd(&d_stream) != Z_OK) return -1;
	*ndata = d_stream.total_out;
	return 0;
}

/* HTTP gzip decompress */
/* zdata 原数据 nzdata 原数据长度 data 压缩后数据 ndata 压缩后长度*/
int httpgzdecompress(Byte *zdata, uLong nzdata, Byte *data, uLong *ndata)
{
    int err = 0;
    z_stream d_stream = {0}; /* decompression stream */
    static char dummy_head[2] = 
    {
        0x8 + 0x7 * 0x10,
        (((0x8 + 0x7 * 0x10) * 0x100 + 30) / 31 * 31) & 0xFF,
    };
    d_stream.zalloc = (alloc_func)0;
    d_stream.zfree = (free_func)0;
    d_stream.opaque = (voidpf)0;
    d_stream.next_in  = zdata;
    d_stream.avail_in = 0;
    d_stream.next_out = data;
    if(inflateInit2(&d_stream, 47) != Z_OK) return -1;
    while (d_stream.total_out < *ndata && d_stream.total_in < nzdata) {
        d_stream.avail_in = d_stream.avail_out = 1; /* force small buffers */
        if((err = inflate(&d_stream, Z_NO_FLUSH)) == Z_STREAM_END) break;
        if(err != Z_OK )
        {
            if(err == Z_DATA_ERROR)
            {
                d_stream.next_in = (Bytef*) dummy_head;
                d_stream.avail_in = sizeof(dummy_head);
                if((err = inflate(&d_stream, Z_NO_FLUSH)) != Z_OK) 
                {
                    return -1;
                }
            }
            else return -1;
        }
    }
    if(inflateEnd(&d_stream) != Z_OK) return -1;
    *ndata = d_stream.total_out;
    return 0;
}

/* Uncompress gzip data */
int gzdecompress(Byte *zdata, uLong nzdata, Byte *data, uLong *ndata)
{
    int err = 0;
    z_stream d_stream = {0}; /* decompression stream */
    static char dummy_head[2] = 
    {
        0x8 + 0x7 * 0x10,
        (((0x8 + 0x7 * 0x10) * 0x100 + 30) / 31 * 31) & 0xFF,
    };
    d_stream.zalloc = (alloc_func)0;
    d_stream.zfree = (free_func)0;
    d_stream.opaque = (voidpf)0;
    d_stream.next_in  = zdata;
    d_stream.avail_in = 0;
    d_stream.next_out = data;
    if(inflateInit2(&d_stream, -MAX_WBITS) != Z_OK) return -1;
    //if(inflateInit2(&d_stream, 47) != Z_OK) return -1;
    while (d_stream.total_out < *ndata && d_stream.total_in < nzdata) {
        d_stream.avail_in = d_stream.avail_out = 1; /* force small buffers */
        if((err = inflate(&d_stream, Z_NO_FLUSH)) == Z_STREAM_END) break;
        if(err != Z_OK )
        {
            if(err == Z_DATA_ERROR)
            {
                d_stream.next_in = (Bytef*) dummy_head;
                d_stream.avail_in = sizeof(dummy_head);
                if((err = inflate(&d_stream, Z_NO_FLUSH)) != Z_OK) 
                {
                    return -1;
                }
            }
            else return -1;
        }
    }
    if(inflateEnd(&d_stream) != Z_OK) return -1;
    *ndata = d_stream.total_out;
    return 0;
}

#ifdef _DEBUG_ZSTREAM
#define BUF_SIZE 65535
int main()
{
	char *data = "kjdalkfjdflkjdlkfjdklfjdlkfjlkdjflkdjflddajfkdjfkdfaskf;ldsfk;ldakf;ldskfl;dskf;ld";	
	uLong ndata = strlen(data);	
	Bytef zdata[BUF_SIZE];
	uLong nzdata = BUF_SIZE;
	Bytef  odata[BUF_SIZE];
	uLong nodata = BUF_SIZE;
	
	memset(zdata, 0, BUF_SIZE);
	//if(zcompress((Bytef *)data, ndata, zdata, &nzdata) == 0)
	if(gzcompress((Bytef *)data, ndata, zdata, &nzdata) == 0)
	{
		fprintf(stdout, "nzdata:%d %s\n", nzdata, zdata);
		memset(odata, 0, BUF_SIZE);
		//if(zdecompress(zdata, ndata, odata, &nodata) == 0)
		if(gzdecompress(zdata, ndata, odata, &nodata) == 0)
		{
			fprintf(stdout, "%d %s\n", nodata, odata);
		}
	}
}
#endif

参考链接:

zlib使用defalte, gzip的例子 - woaidongmao - C++博客 (cppblog.com)

Accept-Encoding和Content-Encoding

 

Accept-Encoding和Content-Encoding是HTTP中用来对采用何种压缩格式传输正文进行协定的一对header。工作原理如下:

  • 浏览器发送请求,通过Accept-Encoding带上自己支持的内容编码格式列表
  • 服务端从中挑选一个用来对正文进行编码,并通过Content-Encoding响应头指明响应编码格式。
  • 浏览器拿到响应正文后,根据Content-Encoding进行解压缩。服务端若响应未压缩的正文,则不允许返回Content-Encoding。

压缩类型:

  • gzip:表示采用 Lempel-Ziv coding (LZ77) 压缩算法,以及32位CRC校验的编码方式
  • Compress:采用Lempel-Ziv-Welch (LZW) 压缩算法。
  • deflate:表示采用 zlib 结构 (在 RFC 1950 中规定),和 deflate 压缩算法(在 RFC 1951 中规定)。
  • identity:用于指代自身(未经过压缩和修改)。除非特别指明,这个标记始终可以被接受。
  • Br:表示采用Brotli 算法的编码方式。

内容编码:

  1. 内容编码针对的只是传输正文。HTTP/1中,header始终是以ASCII文本传输,没有经过任何压缩;HTTP/2中引入header压缩技术。

 

传输编码Transfer-Encoding

  • 用于表示节点之间传输message的编码方式。最典型是分块传输(chunked)
  • 是一个响应header

Transfer-Encoding支持类型:

  • chunked
  • compress
  • deflate
  • gzip
  • identit
  • 多个类型可以共存

 

Transfer-Encoding与Content-Encoding的区别:

  1. Transfer-Encoding只是在传输过程中才有的,并发请求URL对应实体的本身特性。
  2. Transfer-Encoding是一个"跳到跳"的header,而Content-Encoding是"端到端"的header。

 

Content-type

Content-type是HTTP的实体首部,用于说明请求或者返回的消息主体是用何种方式编码(即资源的MIME类型)。在请求、响应header中均存在。

示例如下:

Content-Type: text/html; charset=utf-8
Content-Type: multipart/form-data; boundary=something

参数一般包含:

  • media-type:资源或者数据的MIME type
  • charset:字符编码标准
  • boundary:多于多部实体,boundary是必需的。其包括一组1到70个字符,用于封装消息的多个部分的边界。

Media-type常用类型:

  • application/x-www-form-urlencoded

    • form表单或者提交的数据按照key1=value1&key2=value2方式进行编码,key、value均进行了urlencode
  • multipart/form-data

    • 常见的POST数据提交的方式,使用form进行文件上传的时候,必须让form的enctype为这个。
  • application/json

    • 消息主体是序列化后的json字符串。
  • text/html

    • 是一种用HTTP作为传输协议,XML作为编码方式的远程调用规范。

参考链接:

 HTTP中的Accept-Encoding、Content-云海天教程 (yht7.com)

在处理 HTTP 响应中使用流传输(Streamed Transfer) GZIP 编码时,需要特别注意客户端与服务器之间的数据交互方式。HTTP 流传输通常指的是分块编码(chunked transfer encoding),而 GZIP 是一种常用的压缩算法,用于减少响应内容的大小并提高传输效率[^1]。 ### 1. HTTP 响应流传输与 GZIP 编码的关系 当服务器使用 `Transfer-Encoding: chunked` 进行流式传输时,它会将响应体分成多个小块发送给客户端,而不是一次性发送整个响应体。这种机制非常适合于动态生成的内容或未知长度的数据流。与此同时,如果客户端通过 `Accept-Encoding: gzip` 表示支持 GZIP 压缩,服务器可以对每个数据块进行压缩后再发送。 在这种情况下,响应头中通常包含以下字段: ```http Content-Encoding: gzip Transfer-Encoding: chunked ``` 这表明响应内容是经过 GZIP 压缩的,并且是以分块方式进行传输的。 ### 2. 客户端如何处理 GZIP 编码的流式响应 客户端在接收到此类响应时,必须具备以下能力来正确解析数据: - **识别 `Content-Encoding: gzip`**:客户端需要能够检测到响应内容被 GZIP 压缩,并启用相应的解压逻辑。 - **处理分块传输编码**:客户端应能逐块读取并解压数据,适用于流式处理场景,例如浏览器加载大文件或实时数据。 以 Python 的 `requests` 库为例,可以通过如下方式处理 GZIP 压缩的流式响应: ```python import requests response = requests.get('https://example.com/streaming-gzip-data', stream=True) if response.headers.get('content-encoding') == 'gzip': import gzip from io import BytesIO compressed_data = b''.join(chunk for chunk in response.iter_content(chunk_size=1024)) with gzip.GzipFile(fileobj=BytesIO(compressed_data)) as gz: uncompressed_data = gz.read() print(uncompressed_data.decode('utf-8')) ``` 该代码片段展示了如何逐块读取 GZIP 压缩的流式响应,并最终解压为原始文本内容[^2]。 ### 3. 服务器端配置建议 为了确保流式传输与 GZIP 压缩协同工作良好,服务器端应遵循以下最佳实践: - **启用压缩模块**:如 Apache 的 `mod_deflate` 或 Nginx 的 `gzip` 模块,确保 GZIP 压缩已开启。 - **设置适当的压缩级别**:过高的压缩级别可能会影响服务器性能,建议选择中等压缩率(如 GZIP 压缩等级 6)。 - **避免缓冲整个响应体**:对于流式响应,应尽量避免将整个响应体缓存在内存中,而是采用边生成边压缩的方式输出。 例如,在 Node.js 中使用 Express 实现 GZIP 压缩的流式响应: ```javascript const express = require('express'); const app = express(); const zlib = require('zlib'); app.get('/stream-gzip', (req, res) => { res.setHeader('Content-Encoding', 'gzip'); const gzip = zlib.createGzip(); gzip.pipe(res); for (let i = 0; i < 10; i++) { gzip.write(`Chunk ${i} of data\n`); } gzip.end(); }); app.listen(3000, () => console.log('Server running on port 3000')); ``` 此示例中,服务器通过 `zlib.createGzip()` 创建一个 GZIP 压缩流,并将压缩后的数据直接写入 HTTP 响应流中,实现高效的流式传输。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值