计算机基础_程序是怎样跑起来的_06_亲自尝试压缩数据

本文探讨了RLE算法在连续数据压缩中的优势与不足,以及如何通过哈夫曼编码实现更高效的文本文件压缩。通过实例对比,展示了哈夫曼算法如何优于RLE,介绍了哈夫曼树在编码过程中的关键作用,以及可逆与非可逆压缩的区别。

亲自尝试压缩数据

0、热身问题

  1. 文件储存的基本单位是什么?
    字节,文件是字节数据的集合体。
  2. DOC、LZH 和 TXT这些扩展名中,哪一个是压缩文件的扩展名?
    LZH是LHA等工具压缩过的文件的扩展名。
  3. 文件内容用“数据的值×循环次数”来表示的压缩方法是RLE算法还是哈夫曼算法?
    RLE算法,比如AAABB变成A3B2
  4. 在 Windows计算机经常使用的 SHIFT JIS字符编码中,1个半角英数是用几个字节的数据来表示的?
    1个字节,汉字等全角字符是用2个字节表示的
  5. BMP( BITMAP)格式的图像文件,是压缩过的吗?
    BMP没有压缩过,比JPEG等压缩过的要大一些。
  6. 可逆压缩和非可逆压缩的不同点是什么?
    压缩后的数据能复原的是可逆压缩,无法复原的是非可逆压缩 JPEG就是非可逆压缩。

1、文件以字节为单位保存

文件是将数据存储在磁盘等存储媒介中的一种形式。

存储数据的单位是字节(Byte),如xx KB,xx MB。所以,可以认为文件是字节数据的集合。

在这里插入图片描述

但是,请记住一点:文件中的字节数据都是连续存储的。


2、RLE算法

RLE算法(Run Length Encoding,行程长度编码):简单理解,就是“数据 x 重复次数”。

RLE算法常用于压缩传真的图像。

在这里插入图片描述

压缩率:12 / 17 = 70%。


3、RLE算法的缺点

虽然针对相同数据经常连续出现的图像、文件等,RLE算法可以发挥不错的效果,但它并不适合文本文件的压缩,因为在实际的文本文件中,同样字符多次重复出现的情况并不多见。

以存储着"This is a pen."这14个字符的文本文件为例。
使用RLE算法对其进行压缩后,就变成了"T1hlils1 lils1lal 1pleln1.1"。
长度变为28个字符,是压缩前的2倍。

4、通过莫尔斯编码来看哈夫曼算法的基础

哈夫曼算法的关键在于多次出现的数据用小于8位的字节数来表示,不常用的数据可以用超过8位的字节数来表示。

但最后都要以8位(1字节)为单位保存到文件中,因为磁盘是以1字节为单位来保存数据的。

在这里插入图片描述


5、用二叉树实现哈夫曼编码

这一章在《数据结构与算法》这门课会重点讲原理,这里简单了解一下。

哈夫曼算法:为各压缩对象文件分别构造最佳的编码体系,并以该编码体系为基础进行压缩。

用哈夫曼法压缩过的文件中,存储着哈夫曼编码信息和压缩过的数据。

在这里插入图片描述

在哈夫曼算法中,借助于哈夫曼树构造编码体系,就算表示各字符的数据位数不同,也能够做成可以明确区分的编码。

在这里插入图片描述


6、哈夫曼算法能够大幅提升压缩比率

还是以“RLE算法”中的那个为例子。

压缩前:AAAAAABBCDDEEEEEF
哈夫曼编码:
	A:00
	B:100
	C:110
	D:101
	E:01
	F:111
压缩后:00 00 00 00 00 100 100 110 101 101 01 01 01 01 01 111   --->   40bit = 5byte

压缩率:5 /17 =29%。

7、可逆压缩和非可逆压缩

可逆压缩:能还原到压缩前状态的压缩。

不可逆压缩:无法还原到压缩前状态的压缩。

BMP:Windows的标准图像数据形式,是完全未压缩的。因为显示器和打印机输出的bit(点)是可以直接映射的,所以叫BMP(bitmap)

在这里插入图片描述


注:如有错误,敬请指正!

计及源荷不确定性的综合能源生产单元运行调度与容量配置优化研究(Matlab代码实现)内容概要:本文围绕“计及源荷不确定性的综合能源生产单元运行调度与容量配置优化”展开研究,利用Matlab代码实现相关模型的构建与仿真。研究重点在于综合能源系统中多能耦合特性以及风、光等可再生能源出力和负荷需求的不确定性,通过鲁棒优化、场景生成(如Copula方法)、两阶段优化等手段,实现对能源生产单元的运行调度与容量配置的协同优化,旨在提高系统经济性、可靠性和可再生能源消纳能力。文中提及多种优化算法(如BFO、CPO、PSO等)在调度与预测中的应用,并强调了模型在实际能源系统规划与运行中的参考价值。; 适合人群:具备一定电力系统、能源系统或优化理论基础的研究生、科研人员及工程技术人员,熟悉Matlab编程和基本优化工具(如Yalmip)。; 使用场景及目标:①用于学习和复现综合能源系统中考虑不确定性的优化调度与容量配置方法;②为含高比例可再生能源的微电网、区域能源系统规划设计提供模型参考和技术支持;③开展学术研究,如撰写论文、课题申报时的技术方案借鉴。; 阅读建议:建议结合文中提到的Matlab代码和网盘资料,先理解基础模型(如功率平衡、设备模型),再逐步深入不确定性建模与优化求解过程,注意区分鲁棒优化、随机优化与分布鲁棒优化的适用场景,并尝试复现关键案例以加深理解。
内容概要:本文系统分析了DesignData(设计数据)的存储结构,围绕其形态多元化、版本关联性强、读写特性差异化等核心特性,提出了灵活性、版本化、高效性、一致性和可扩展性五大设计原则。文章深入剖析了三类主流存储方案:关系型数据库适用于结构化元信息存储,具备强一致性与高效查询能力;文档型数据库适配半结构化数据,支持动态字段扩展与嵌套结构;对象存储结合元数据索引则有效应对非结构化大文件的存储需求,具备高扩展性与低成本优势。同时,文章从版本管理、性能优化和数据安全三个关键维度提出设计要点,建议采用全量与增量结合的版本策略、索引与缓存优化性能、并通过权限控制、MD5校验和备份机制保障数据安全。最后提出按数据形态分层存储的核心结论,并针对不同规模团队给出实践建议。; 适合人群:从事工业设计、UI/UX设计、工程设计等领域数字化系统开发的技术人员,以及负责设计数据管理系统架构设计的中高级工程师和系统架构师。; 使用场景及目标:①为设计数据管理系统选型提供依据,合理选择或组合使用关系型数据库、文档型数据库与对象存储;②构建支持版本追溯、高性能访问、安全可控的DesignData存储体系;③解决多用户协作、大文件存储、历史版本管理等实际业务挑战。; 阅读建议:此资源以实际应用场景为导向,结合具体数据库类型和表结构设计进行讲解,建议读者结合自身业务数据特征,对比分析不同存储方案的适用边界,并在系统设计中综合考虑成本、性能与可维护性之间的平衡。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

窝在角落里学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值