Entroformer图像编码

最新推荐文章于 2026-01-09 22:02:53 发布

原创

最新推荐文章于 2026-01-09 22:02:53 发布 · 1k 阅读

·

29

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #图形图像

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨

🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢，在这里我会分享我的知识和经验。🎥

希望在这里，我们能一起探索IT世界的奥妙，提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏：传知代码论文复现

欢迎访问我的主页：Srlua小谢获取更多信息和资源。✨✨🌙🌙

目录

超先验与上下文模型的压缩

Transformer-based 熵模型

Transformer架构

Top-k 自注意力机制

并行双向上下文模型

代码部署及使用

本人测试结果

本文所有资源均可在该地址处获取。

本文选自ICLR2022的论文"Entroformer: A Transformer-based Entropy Model for Learned Image Compression"，源码可在附件中查看

总体介绍

本文介绍了Entroformer，一种基于Transformer的熵模型，用于深度学习图像压缩。与传统的基于卷积神经网络的熵模型不同，Entroformer利用Transformer的自注意力机制有效捕捉全局依赖性，并在图像压缩中实现了高效的概率分布估计。此外，本文提出了一个并行双向上下文模型，加速了解码过程。实验表明，Entroformer在图像压缩任务中表现优异，同时具有较高的时间效率。

背景

图像压缩是计算机视觉中的基础研究领域，随着深度学习的发展，学习方法在这一任务中取得了多项突破。当前最先进的深度图像压缩模型建立在自编码器框架上，使用熵模型估计潜在表示的条件概率分布。本文旨在提高熵模型的预测能力，从而在不增加失真的情况下提高压缩率。

提出方法

超先验与上下文模型的压缩

熵模型有多种类型，如超先验模型、上下文模型和组合方法。超先验方法通常利用量化潜在表示的附加信息，而上下文模型则通过自回归先验结合潜在的因果上下文进行预测。Entroformer结合了基于超先验和上下文模型的方法，提高了压缩效率。

图1 (b)即为(a)中熵模型使用Transformer的改进

Transformer-based 熵模型

Transformer架构

Entroformer采用Transformer的编码器-解码器结构，使用自注意力机制关联不同位置的潜在表示，捕捉图像的空间和内容依赖性。此外，本文提出了多头注意力和top-k选择机制，以提取精确的概率分布依赖关系。

位置编码

为了在图像压缩中提供更好的空间表示，Entroformer设计了一种基于相对位置编码的单位，该编码采用菱形边界，嵌入了图像压缩中的距离先验知识。

图2 相对位置编码

Top-k 自注意力机制

在自注意力机制中，Entroformer选择top-k最相似的关键点来计算注意力矩阵，从而减少不相关信息的干扰，稳定训练过程。

并行双向上下文模型

通过双向上下文模型，Entroformer在保持性能的同时，加速了解码过程。与传统的单向上下文模型相比，双向模型引入了未来上下文，提高了预测的准确性。

图3 双向上下文模型

实验结果

实验通过计算率-失真性能（RD）评估了Entroformer的效果。结果表明，Entroformer在低比特率下比最先进的卷积神经网络方法提高了5.2%，比标准编解码器BPG提高了20.5%。

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。