网页压缩中跨实体增量编码的应用与动态网络嵌入研究
跨实体增量编码在网页压缩中的应用
现有压缩技术的局限性与发展
在网页压缩领域,早期的SDCH技术由于需要每两周生成新字典,这可能是其未被广泛采用并从Chrome中移除的原因之一。不过,共享字典这一关键思想催生了谷歌开发的Brotli算法。Brotli的共享字典是静态的,已成为库的一部分,无需在网络上生成或传输。大多数浏览器支持Brotli,但缺乏可用于跨实体增量编码的自定义字典功能。Zstandard也具备类似能力,但目前没有浏览器支持。
跨实体增量编码的原理与策略
跨实体增量编码计算共享相似数据的文件之间的差异,与SDCH不同,它直接使用原始文件作为字典,无需创建和维护字典。但这也带来了一些影响,一方面,同一资产的压缩结果可能因客户端缓存中的字典不同而对不同用户产生差异;另一方面,使用客户端缓存条目需要进行缓存状态同步,因为服务器需要知道哪些资源可用于内容编码。
为了评估跨实体增量编码,考虑了三种字典范围策略:
1. 所有先前资产(PA) :将当前请求资产之前的所有资产视为潜在字典,包括先前访问的页面和当前请求页面的资产。但由于资产通常不是按顺序下载的,该策略在实践中难以实现。
2. 上一个页面印象(PP) :排除当前处理的页面印象资产,仅考虑上一个页面印象之前完全下载的资产。这是一种更实际的策略。
3. 入口页面(EE) :仅将入口页面的资产作为字典。由于整体布局相似(如相同的标题),这可能是一种固定字典集的合理替代方案。
超级会员免费看
订阅专栏 解锁全文
1004

被折叠的 条评论
为什么被折叠?



