数字媒体压缩与纠错技术解析
1. 基于字典的数据压缩方法
在数据压缩领域,当原始序列存在长游程时,游程编码是一种有效的方法。但当序列不具备这样的特征时,我们可以借鉴短信消息的压缩思路。例如,对于序列 X = ⟨“are”,“you”,“at”,“home”,“because”,“I”,“want”,“to”,“come”,“over”⟩ ,我们可以构建并使用字典将长单词转换为短符号。若字典 D = ⟨“are”,“at”,“to”⟩ ,则可将 X 压缩为 ¯X = ⟨D0,“you”,D1,“home”,“because”,“I”,“want”,D2,“come”,“over”⟩ 。这里, D0 是对字典 D 中第 0 项的引用,每次在 ¯X 中看到 D0 ,都能将其扩展为 “are”。
为了验证这种方法的有效性,我们以莎士比亚的《威尼斯商人》文本为例,使用 BASH 终端命令进行分析:
1. 下载文本 :
bash$ wget -q -U chrome -O A.txt ’http://www.gutenberg.org/dirs/etext97/1ws1810.txt’
bash$
此命令使用三个选项从指定 URL 下载文本并保存为 A.txt :
-
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



