27、文件管理与数据压缩全解析-优快云博客

本文链接：https://blog.youkuaiyun.com/open4/article/details/155901634

文件管理与数据压缩全解析

1. 数据压缩概述

数据压缩算法主要分为无损算法和有损算法两类。无损算法通常用于文本或算术文件，在压缩 - 解压缩过程中会保留文件中的所有数据；有损算法则多用于图像和声音文件，它会永久性地删除数据，但（我们期望）不会损害文件的质量。乍一看，数据丢失似乎难以接受，但当删除的数据是不需要的噪音、超出人类听力范围的音调或我们看不到的光谱部分时，删除这些数据可能是无法察觉的，甚至是可取的。

2. 文本压缩方法

文本压缩有多种方法，下面介绍三种常见的方法：
- 重复字符记录压缩 ：固定长度字段中的数据可能包含一个短名称，后面跟着许多空白字符。可以用可变长度字段和一个特殊代码来表示截断了多少个空白字符。例如，原始字符串 “ADAMS” 在一个 15 字符宽的字段中未压缩存储时为 “ADAMSbbbbbbbbbb”，编码后为 “ADAMSb10”。同样，有很多零的数字可以用一个代码（如井号 #）来缩短，以表示需要添加多少个零来重建原始数字。例如，原始数字 “300000000” 编码后为 “3#8”。
- 重复术语压缩 ：可以使用符号来表示数据库中最常用的每个单词，从而对重复术语进行压缩。例如，在大学的学生数据库中，像 “student”、“course”、“teacher”、“classroom”、“grade” 和 “department” 等常用单词可以用一个不太可能出现在数据中的单个字符来表示。关键是系统必须能够区分压缩数据和未压缩数据。
- 前端压缩 ：前端压缩基于前一个数据元素。例如，按字母顺序存储学生姓名的数