lz初探

最新推荐文章于 2023-11-19 18:00:00 发布

原创最新推荐文章于 2023-11-19 18:00:00 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

本文详细介绍了LZ压缩算法的基本原理，包括其工作流程、搜索方法（基于hash和跳跃表）以及内存管理策略。通过实例展示了如何实现LZ算法，并讨论了与其他压缩算法（如Huffman编码）的比较。最后，提出了进一步优化的建议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

因为没有后续做huffman.

所以enwik8 用了7s压到49%

lz的原理很简单就是当当前位置的字符串于历史中的某个字符串相同的时候, 引用(ref)历史的字符串(也就是记录偏移和长度),如果没有就直接保存byte.

我用的搜索方法是前3个byte做hash(准确的说是17bit), 然后用一张jmptable,把他们链接起来.

jmptable是一个[4096*16]的数组 4096是12bit, 16是4bit,一共是2个byte.

比如一个字符串"banana-banana" 其中一个链表就把所有的ana串起来, 另一把nan串起来, 还有把banana整个串起来的等等...

用来以后查找最相似的字符串用.

jmptable的必要性在于不需要频繁的new-delete. 实际上利用率是很低的. 如果很珍惜内存的话(或者不想12bit偏移4bit长度的话). 完全可以不用(或者改改).

最终得到一串byte和ref的混合体比如 "banana-banana" ==> ban[-2,3]-[-7,6]

我这里用[]把它们两个分开表示, 实际程序中,可以用一个byte表示后续8个节点的属性.

当然,如果后续使用huffman就不用这个了. huffman自己就可以区分不同node的属性.

相比huffman 更推荐算术编码,不过这里不打算涉及,要问为什么的话我跟你们说因为我不懂啊 (括弧笑).

总的来说 lz的理论还是很KISS的.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

pl___

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【ELT.ZIP】OpenHarmony啃论文俱乐部——综述视角解读压缩编码

ELT.ZIP的博客

02-21

728

---本文出自ELT.ZIP团队，ELT<=>Elite(精英)，.ZIP为压缩格式，ELT.ZIP即压缩精英目录入门指北有趣玩件轻松上手小波变换（Wavelet transform）小波变换原理研究方向小波系数零树(EZW)的嵌入式图像编码无损加密后压缩(ETC)技术 Brotli 介绍 Brotli 概述 Brotli 的优势情况1：压缩Canterbury语料库的11个文件情况2：压缩包含 93种不同语言的 1285个HTML文档情况.

Huawei EROFS 初探

Zorro Lang Red Space

03-28

3404

前言华为作为中国代表性的技术型企业，一直在不断推出自己的技术实现，并努力推广到世界，这一点是非常值得称赞的。从大概上游Linux 4.19左右，邮件列表开始出现一个EROFS的东西，不断有邮件的往来。因为太小众，所以当时没有太留意，只是因为EROFS这个名字和写只读文件系统时返回的错误名字一样，所以就留下了印象，其实都没注意到是华为的人做的。最近华为推出新手机，并宣扬自己为手机系统新写的文件系...

参与评论您还未登录，请先登录后发表或查看评论

无损压缩编码（上）：LZ编码——详解LZ77 (LZSS)、LZ78和LZW的编码与译码

热门推荐

m0_50704543的博客

09-02

1万+

LZ77和LZ78由和分别于1977年和1978年发表，LZ即为Lempel和Ziv的首字母拼在一起。1984年在LZ78的基础上进行改进，发表了LZW（即Lempel–Ziv–Welch）编码。三种编码均为无损压缩编码，旨在不产生信息失真的同时降低信息冗余度。三种编码的核心在于，按顺序读取待编码数据流，如果后面的数据流出现了前面出现过的内容，就用某种方式把它记下来，这样就把原本的数据流用某种记号来替代掉，如果记号占用的空间比原数据流更小，就能实现无损压缩。

Enwik8文本压缩数据集

08-24

enwik8包含了100MB未处理的Wikipedia的文本。与enwiki8相似，text8同样包含了100MB的Wikipedia文本，区别在于移除了26个字母和空格以外的其他字符。

词嵌入向量WordEmbedding的原理和生成方法

Keep Fighting!

07-09

3239

转自：https://www.sohu.com/a/210757729_826434WordEmbedding词嵌入向量(WordEmbedding)是NLP里面一个重要的概念，我们可以利用WordEmbedding将一个单词转换成固定长度的向量表示，从而便于进行数学处理。本文将介绍WordEmbedding的使用方式，并讲解如何通过神经网络生成WordEmbedding。WordEmbeddin...

Single Headed Attention RNN: Stop Thinking With Your Head

gdtop的个人笔记

12-03

4845

这篇论文的语言真的很有趣，很多地方我翻译的不是很好大家谅解，可以尽量欣赏原文！ Abstract 语言建模的主要方法都是痴迷于我年轻时的电视节目——变形金刚和芝麻街。我们选择了老办法和经过验证的技术，并使用了一个新奇的、受密码启发的缩写：单头注意力Single Headed AttentionRNN (SHA-RNN)。作者的唯一目标是表明，如果我们沉迷于一个略有不同的缩略词和略有不同的结果...

面向人工智能应用的《信息论与编码》课程教学初探.pdf

07-11

Lempel-Ziv算法（如LZ77、LZ78）等压缩算法的原理与应用。 4. **数据压缩技术**：在人工智能中，数据压缩不仅能够减少存储空间，还能够加快数据的传输速度。掌握各种压缩技术对于处理大规模数据集尤为重要。 5. **...

零蛋内存遍历工具V0.4：CE修改锁定值模块功能初探

- LZ.dll：这可能是一个动态链接库文件（DLL），它为内存遍历工具提供了特定的功能或服务。在Windows操作系统中，DLL文件用于封装可以在不同程序间共享的功能和数据。由于该文件名中包含“LZ”，这可能暗示其使用了...

技术实践干货 | 初探大规模 GBDT 训练

AI+BI,大数据分析,数据可视化,商业智能,数据驾驶舱 - 观远数据

07-27

1013

本文是此前评估在 Spark 上做大规模 GBDT 训练时写的一篇入门级教程与框架评估。目前市面上似乎没有多少使用 Spark 来跑 GBDT 的分享，故分享出来看看是否有做过类似场景的同学可以一道交流。

OpenGL初探：三维迷宫游戏（一）——场景漫游

Traveller

05-30

9801

使用OpenGL实现的一个简单迷宫游戏。

Brotli 概述

繁依Fanyi的博客

02-24

3578

文章目录Brotli 介绍Brotli 的优势1.2.3.参考 Brotli 介绍现代的网页通常包含了由大量的HTML, CSS和JavaScript代码编写的图片、视频或其他大型文件数据，导致了网页打开的速度很慢。如果能有一种好的压缩算法将这些内容和数据进行压缩后传输，那么用户只需要等待很短时间就可以完全加载整个页面上的内容。 Brotli 是 Google 在 2013 年底推出的一款开源通用数据压缩器，并在 Github 开源，现在已经被大多数知名浏览器和 Web 服务器采用。Brotli 的设计的

论文笔记 -《Relation Memory Argument Language Model》

Lisen’s blog

03-21

1231

本文提出了一种基于关系三元组增强的语言模型RelationLM，通过动态检索实体关系来提升生成效果。模型采用OpenIE方法提取实体关系，建立记忆模块存储关系三元组，并通过门控机制融合上下文和关系信息。实验表明，RelationLM在WikiText-103等数据集上显著降低了实体词的困惑度，同时提高了生成文本的逻辑性和知识性。分析显示，合理设置记忆长度和采用动态检索策略可优化性能，尽管会带来1.5-2倍的推理速度下降。该模型特别适用于需要丰富实体知识的文本生成任务。

2023.11.19周报

最新发布

m0_68477761的博客

11-19

351

本周，我研读了《Longformer: The Long-Document Transformer》这篇论文，它针对长文本处理领域中的一个关键挑战——长距离依赖和高时空复杂度问题提出了解决方案。传统的 Transformer 模型在处理长文本时面临效率低下的问题，而 Longformer 通过结合局部自注意力和全局自注意力（稀疏注意力）机制，显著提升了处理长文本的能力。这种创新的注意力机制不仅提高了模型的处理速度，还扩大了其处理文本长度的范围，能够高效处理数万词的文本。

Transfomer XL翻译

piaocoder

04-29

719

翻译：*** 审核：yphacker 原论文论文代码 Transfomer XL翻译摘要1.简介2.相关工作3.模型3.1 普通的Transformer模型3.2 Segment-Level重复使用的情况3.3 相对位置编码4.实验4.1主要成果4.2 Ablation研究4.3 Relative Effective Context Length4.4 Generated Text4.5评估...

霍夫曼编码和LZ编码

西岸贤

01-06

1万+

本文的主要内容是介绍霍夫曼编码和LZ编码的概念及其步骤，同时也有相关的例题分析。

最有效地使用PNG之续篇：Zopfli优化

呦呦鹿鸣

01-11

7165

Zopfli的最大特色是，假设你不介意极高的CPU要求，它就是“用完就丢”的一次性优化步骤，你可以应用在任何地方，而且不会受到任何伤害。

[论文阅读]Character-Level Language Modeling with Deeper Self-Attention

ZY_miao的博客

01-16

1008

文章目录前言摘要1、问题背景以及本文要解决的问题1.1 字符级别的语言模型1.2 RNN（变种）如何解决字符级别的语言模型1.3 本文要解决的问题2、如何解决该问题？2.1 Transformer Encoder with Causal Attention2.2 Auxiliary Losses2.2.1 Multiple Postions2.2.2 Intermediate Layer Losses2.2.3 Mutiple Targets2.1 Positional Embeddings3、实验分析（主

[A-Tune智能调优引擎]-学习总结②-应用实战

weixin_44569394的博客

04-07

2472

以下内容参考：https://gitee.com/openeuler/A-Tune 四.A-Tune使用 1.总体说明 atune-adm支持的命令可以通过atune-adm help/--help/-h查询。使用方法中所有命令的使用举例都是在单机部署模式下，如果是在分布式部署模式下，需要指定服务器IP和端口号，例如： atune-adm -a 192.168.3.196 -p 60001 list define、update、undefine、collection、train、u...