压缩、去重等技术调研
主要用于我自己学习过程中记笔记,便于以后回忆,因此阅读性很差
于2020年新肺炎疫情长假期间,成都双流
阅读内容:
1、书籍:吴家安《数据压缩技术及应用》
2、论文:夏文《数据备份系统中冗余数据的高性能消除技术研究》
一、导论
数据压缩的分类
其中一种:冗余度压缩、熵压缩(无损、有损)
压缩的性能指标
压缩能力:
压缩比:输出:输入
压缩因子:输入:输出
压缩效率
压缩增益
速度
信号质量:
客观量度:信噪比(SNR,db)、均方差(MSE)等
主观量度
二、数据压缩的信息论基础
主要讨论 离散无记忆信源
不确定性越高(概率低),其信息量越大
信息的定义
打公式太麻烦了,下文均省略,而且缩进也特别麻烦
信息定义的公式:-log(概率倒数)
互信息和自信息
互信息公式略
A和B相互独立时,互信息显然0
自信息就是本身的信息,A决定B时,二者互信息为自信息
熵
公式:平均自信息
熵非负
确定性事件熵为零
当信源所有输出符号等概率时,熵取最大值,log^n
信源编码定理
一个输出n个符号的离散无记忆信源,其信源符号不可能用平均码长小于该信源熵的单义可译码来表示:
H(X) <= L,L为平均码长
信道容量
通过一个信道所能传输的最高信息速率
时间T内输出与其相应输入的互信息之和之商,bit/s
信道编码定理(香农第二定理)
若信源以速率R发送信息,信道容量为C,若R<C,采用完善的信道编码器、解码器就能以任意小的差错概率,用最高C的速率传输数字信息。相反,若R>C,则使用任何编码器、译码器都达不到任意小差错概率,而必定会大于某个正值
率失真理论
数据压缩的极限值,找出一个条件概率使平均互信息