智能图像压缩集合
文章平均质量分 95
繁华落尽,寻一世真情
语音识别和机器视觉的从业者
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【端到端图像压缩2024】《S2LIC: Learned Image Compression with the SwinV2 Block, Adaptive Channel-wise and 》
作者提出了一个自适应通道和全局注意力交互上下文(ACGC)熵该模型可以在层间和层内环境中有效地实现双特征聚合。具体来说,我们划分潜在表示然后在并行棋盘上下文中应用ACGC模型,以实现更快的解码速度和更高的率失真性能。我们在自适应全局切片间利用可变形注意力上下文,以基于实际的空间相关性和上下文动态地细化注意力权重。此外,在主转换结构中,我们引入了残差SwinV2 Transformer模型来捕获全局特征信息,并利用密集块网络作为特征增强模块,以改善图像的非线性表示转型结构。原创 2024-12-22 02:31:14 · 2116 阅读 · 0 评论 -
【视频质量评估-论文翻译】《Exploring VideoQuality Assessment on User GeneratedContentsfromAestheticandTechnical》
熵模型,用于估计潜在特征在提高率失真性能方面起着至关重要的作用。潜在的特征包含通道、局部空间和全局空间相关性。然而,现有的全局上下文模块依赖于计算密集型的二次复杂度计算来捕获全局相关性。二次复杂性限制了高分辨率图像编码。此外,有效地单个熵模型捕获具有可接受甚至线性复杂性的局部、全局和通道上下文仍然挑战。为了解决这些局限性,我们提出线性复杂度多参考熵模型(MEM++)。MEM++有效捕捉潜在表征中固有的各种相关性。具体而言潜在表征首先被划分为多重表征片。当压缩特定切片时先前压缩的切片用作其通道上下文。原创 2024-12-22 12:46:42 · 997 阅读 · 0 评论
分享