
文献总结
文章平均质量分 94
一条破秋裤
还是个小学生。(qq:2551949807)
展开
-
在快速端到端训练中利用多个序列长度进行图像描述处理
我们提出了一种称为扩展机制的方法,该方法处理输入时不受序列中元素数量的限制。通过这样做,模型能够比传统的基于注意力的方法更有效地学习。为了支持这一观点,我们设计了一种新颖的架构ExpansionNet v2,该架构在MS COCO 2014图像描述挑战中取得了良好的结果,并在其类别中达到了最先进水平,在离线测试集上得分为143.7 CIDErD,在在线评估服务器上得分为140.8 CIDErD,在nocaps验证集上得分为72.9 AllCIDEr。原创 2025-04-16 21:17:20 · 686 阅读 · 0 评论 -
没有遗漏任何细节:重新审视细粒度图像字幕的自我检索
图像描述系统无法生成细粒度的描述,因为它们训练的数据要么是嘈杂的(替代文本),要么是通用的(人类注释)。这种情况因极大似然训练的促进作用而进一步加剧,后者鼓励生成频繁出现的短语。之前的研究尝试通过使用自检索(SR)奖励对描述生成模型进行微调来解决这一限制。然而,我们发现SR微调倾向于降低描述的真实性,甚至产生虚假信息。[[个人知识内容补充#^db400e|SR]]在本研究中,我们通过改善描述系统的MLE初始化并设计SR微调过程的课程来绕过这一瓶颈。为此,我们提出了。原创 2025-04-15 11:07:49 · 1052 阅读 · 0 评论 -
Blip:引导语言图像预训练进行统一的视觉语言理解和生成
视觉语言预训练 (vlp) 提高了许多视觉语言任务的性能。然而,大多数现有的预训练模型仅在基于理解的任务或基于生成的任务上表现出色。此外,通过使用从网络收集的噪声图像-文本对扩展数据集,在很大程度上实现了性能改进,这是监督的次优来源。在本文中,我们提出了一种新的 vlp 框架 blip,该框架可以灵活地转移到视觉语言理解和生成任务。bilip 通过引导字幕有效地利用嘈杂的 web 数据,其中字幕器生成合成字幕,过滤器删除嘈杂的字幕。原创 2025-04-14 14:53:37 · 917 阅读 · 0 评论 -
【文献25/04/01】From Show to Tell: A Survey on Deep Learning-Based Image Captioning
连接视觉与语言在生成智能中发挥着重要作用。因此,大量研究工作已投入到图像描述中,即用语法和语义上有意义的句子来描述图像。从2015年开始,这一任务通常通过由视觉编码器和语言模型组成的管道来解决,后者用于文本生成。在这几年中,这两个组件通过对物体区域、属性的利用、多模态连接的引入、全注意力方法以及类似BERT的早期融合策略发生了显著演变。然而,尽管取得了令人瞩目的成果,图像描述的研究仍未得出确凿的答案。本研究旨在提供图像描述方法的全面概述,从视觉编码和文本生成到训练策略、数据集和评估指标。原创 2025-04-01 11:23:14 · 888 阅读 · 0 评论 -
【文献25/03/29】UPFormer:用于田间葡萄叶病害分割的U形感知轻量级Transformer
在智能农业领域,分割模型实际上是及时检测和识别植物病害的标准。然而,复杂的背景和小型病害使得对葡萄叶病的分割具有挑战性。现有模型性能提升的趋势伴随着模型大小和计算成本的代价,这阻碍了在资源受限硬件上的部署。为此,我们提出了一种针对田间葡萄叶病的定制轻量级分割架构,称为U形感知Transformer(UPFormer),该架构在性能和效率之间实现了更好的权衡。具体而言,我们利用U形层次结构获取具有优越成本效率的小型词元。原创 2025-03-30 16:45:47 · 1072 阅读 · 0 评论 -
【文献25/03/28】一种基于深度学习的VIT植物病害自动分类方法
植物病害可能会减少每个农场上相当一部分的农业产品。本研究的主要目标是为农民提供视觉信息,使他们能够采取必要的预防措施。我们提出了一种基于视觉Transformer(ViT)的轻量级深度学习方法,用于实时自动化植物病害分类。除了ViT之外,还实施了经典的卷积神经网络(CNN)方法以及CNN与ViT的结合用于植物病害分类。这些模型已在多个数据集上进行了训练和评估。根据获得结果的比较,得出的结论是,尽管注意力模块提高了准确率,但却减缓了预测速度。将注意力模块与CNN模块结合可以弥补速度上的不足。原创 2025-03-28 11:06:30 · 1029 阅读 · 0 评论 -
【文献25/03/27】Transfer learning for versatile plant disease recognition with limited data
深度学习在近年来通过观察植物疾病对应的图像,显著提高了对植物疾病的识别能力。为了获得良好的性能,当前的深度学习模型往往需要大规模的数据集。然而,收集数据集既昂贵又耗时。因此,有限的数据是获得所需识别准确率的主要挑战之一。尽管迁移学习被广泛讨论并验证为一种有效且高效的方法来缓解这一挑战,但大多数提出的方法集中于一个或两个特定的数据集。在本文中,我们提出了一种新颖的迁移学习策略,以在多个植物疾病数据集上实现高性能的通用植物疾病识别。我们的迁移学习策略与当前流行的方法有所不同,主要体现在以下几个方面。原创 2025-03-27 19:19:29 · 1012 阅读 · 0 评论 -
【文献25/03/26】Hyperspectral Image Transformer Classification Networks
通过这两个模块,HiT能够增强局部空间-光谱信息的捕获能力,并减少在深层网络中可能出现的局部信息丢失。最后,经过全局平均池化层和全连接层的处理,完成类别预测。原创 2025-03-26 15:53:16 · 1073 阅读 · 0 评论