
CV每日更新
文章平均质量分 93
hinmer
这个作者很懒,什么都没留下…
展开
-
【cs.CV】25.1.15 arxiv更新速递
链接1摘要: 这篇论文提出将现代无参考图像质量评估(NR-IQA)模型应用于实际的图像增强任务。作者通过在扩散潜在空间而非原始像素域进行梯度上升优化,将NR-IQA模型嵌入到最大后验估计(MAP)框架中。不同的NR-IQA模型在此框架下会产生不同的增强输出,为NR-IQA模型之间的比较提供了新的计算方法。相比于传统的相关性度量,这种比较方法能够更好地反映NR-IQA模型在感知优化场景下的优缺点。原创 2025-01-16 17:03:09 · 563 阅读 · 0 评论 -
【cs.CV】25.1.14 arxiv更新速递
【cs.CV】25.1.14 arxiv更新110篇=====摘要: 我们提出了Omni-RGPT,这是一种多模态大型语言模型,旨在促进图像和视频的区域级理解。为了在时空维度上实现一致的区域表示,我们引入了Token Mark,一组在视觉特征空间中高亮目标区域的标记。这些标记通过区域提示(例如框或掩码)直接嵌入到空间区域中,并同时融入文本提示以指定目标,从而在视觉和文本标记之间建立了直接连接。为了进一步支持无需tracklets的稳定视频理解,我们引入了一种辅助任务,通过利用标记的一致性来引导Token M原创 2025-01-15 12:59:46 · 1507 阅读 · 0 评论 -
【cs.CV】25.1.13 arxiv更新速递
====原创 2025-01-14 16:52:14 · 1144 阅读 · 0 评论 -
【cs.CV】25.1.11 arxiv更新速递
====原创 2025-01-13 16:21:36 · 959 阅读 · 0 评论 -
【cs.CV】25.1.10 arxiv更新速递
概念瓶颈模型(CBMs)通过将图像最初转化为人类可理解的概念,然后将这些概念进行线性组合以进行分类,提供了内在的可解释性。然而,视觉识别任务的概念注释需要大量的专家知识和劳动,限制了CBMs的广泛采用。最近的方法利用大型语言模型的知识来构建概念瓶颈,多模态模型如CLIP随后将图像特征映射到概念特征空间进行分类。尽管如此,语言模型生成的概念可能冗长并引入非视觉属性,影响了准确性和可解释性。在本研究中,我们探讨通过直接从多模态模型构建CBMs来避免这些问题。原创 2025-01-10 14:53:52 · 947 阅读 · 0 评论 -
【cs.CV】25.1.8 arxiv更新速递
今日Arxiv cs.CV 更新94篇原创 2025-01-09 17:05:11 · 923 阅读 · 0 评论 -
【CV】25.1.7 arxiv更新速递
总结: 本文提出了利用夜视摄像头和机器学习算法在低光照条件下实现高效手势识别的方法。总结: Sa2VA是一种统一的多模态模型,能够实现对图像和视频的精确而深入的理解,适用于多种复杂任务。###【git】###【期刊】###【领域】计算机视觉###【arXiv编号】2501.03995v1###【git】###【期刊】###【领域】计算机科学,机器学习,计算机视觉,信息检索,信息技术总结: LargeAD框架通过跨模态对齐和多源数据预训练,显著提升了自动驾驶中三维场景理解的性能。原创 2025-01-09 00:24:20 · 432 阅读 · 0 评论