因为没有后续做huffman.
所以enwik8 用了7s压到49%
lz的原理很简单 就是当当前位置的字符串于历史中的某个字符串相同的时候, 引用(ref)历史的字符串(也就是记录偏移和长度),如果没有就直接保存byte.
我用的搜索方法是前3个byte做hash(准确的说是17bit), 然后用一张jmptable,把他们链接起来.
jmptable是一个[4096*16]的数组 4096是12bit, 16是4bit,一共是2个byte.
比如一个字符串"banana-banana" 其中一个链表就把所有的ana串起来, 另一把nan串起来, 还有把banana整个串起来的等等...
用来以后查找最相似的字符串用.
jmptable的必要性在于不需要频繁的new-delete. 实际上利用率是很低的. 如果很珍惜内存的话(或者不想12bit偏移4bit长度的话). 完全可以不用(或者改改).
最终得到一串byte和ref的混合体 比如 "banana-banana" ==> ban[-2,3]-[-7,6]
我这里用[]把它们两个分开表示, 实际程序中,可以用一个byte表示后续8个节点的属性.
当然,如果后续使用huffman就不用这个了. huffman自己就可以区分不同node的属性.
相比huffman 更推荐算术编码,不过这里不打算涉及,要问为什么的话 我跟你们说 因为我不懂啊 (括弧笑).
总的来说 lz的理论还是很KISS的.