计算机视觉研究院-优快云博客

原创干货 | 利用手持摄像机图像通过卷积神经网络实时进行水稻检测

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式获取论文：关注并回复“水稻”计算机视觉研究院专栏Column of Computer Vision Institute小农户在全球粮食供应中发挥着重要作用。随着智能手机越来越普及，它们使小农能够以非常低的低成本收集图像。PART/1摘要在本研究中，研究者提出了一种有效的深度卷积神经...

2024-01-07 10:30:55 1099

原创 YoloV8与ChatGPT互通，这功能是真的强大！

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式参考地址：https://github.com/ultralytics/ultralytics计算机视觉研究院专栏Column of Computer Vision Institute现在的ChatGPT都是输入文字、图片或者语音，那如果将检测网络或者更上层一点的东西，把视觉与ChatG...

2023-07-12 08:26:47 531

原创 YOLO-BS：一种基于 YOLOv8 的交通标志检测算法

通过自上而下的路径融合不同尺度的特征，以强化对不同尺寸目标的检测，这类网络通常采用单一、单向的信息传递方式。在交通标志检测中，交通标志数据集依据车辆在不同距离下看到的标志外观尺寸，将标志分为大、中、小三类。这种设计不仅增强了不同特征层之间的信息传递，还能让不同尺度的特征更充分地融合，从而提升网络对多尺度目标的检测能力。）结构，该算法提升了交通标志检测的准确性和效率，为交通管理和自动驾驶系统提供了更可靠的解决方案。中的双向信息流与加权特征融合机制，使模型能更好地处理多尺度特征，从而提高小目标的检测精度。

2025-08-21 22:30:31 553

转载多模态融合实战指南：早期/中期/晚期融合怎么选？注意力+门控机制实操攻略

该框架通过从一个利用完整模态（轨迹、人体姿态和文本）训练的教师模型中提取知识，并将其蒸馏到一个仅使用有限模态的学生模型中，从而在保持计算效率的同时提升预测性能。MaskFuser 通过将图像和激光雷达（LiDAR）等多种模态数据编码为统一的语义特征空间中的令牌（tokens），并引入跨模态掩码自编码器（MAE）训练，显著提升了自动驾驶中的感知细节和在受损传感器输入下的稳定性。这篇文章提出了一种名为“MoPE”的多模态融合方法，旨在通过参数高效的提示（prompt）调整技术实现高效的多模态任务迁移学习。

2025-08-19 11:01:37 11

原创 YOLO-ELWNet：一种轻量化目标检测网络

在骨干网络块中，设计了一种结合坐标注意力的通道分割与打乱模块，该模块在保持检测精度的同时，有效减少了模型参数规模和计算成本。在颈部网络块中，提出了一种新的特征融合网络，其中引入了带有高效瓶颈模块的跨阶段局部模块，以提升特征提取能力并降低计算成本。消融研究结果表明，每项改进都能在不同程度上提升网络模型，实现更高的检测精度、更快的检测速度和更小的模型尺寸。的骨干网络、颈部网络和头部网络进行了修改，以提升检测器在资源受限条件下的检测精度和检测速度性能。的轻量化网络，用于在移动设备上实时检测绝缘子故障。

2025-08-18 09:31:00 969

原创基于PyConv和CISBA的高精度YOLO表面缺陷检测模型

相比之下，注意力机制能够动态调整特征权重，增强对全局信息和长距离依赖关系的捕捉，自适应地聚焦于重要特征，并有效处理多尺度目标，从而弥补卷积在捕捉全局信息和处理多尺度特征方面的不足。通过为这些关键区域分配更多权重，注意力机制减少了与无关区域相关的计算负担，显著提高了缺陷检测的精度和效率，并确保了对缺陷更精确的定位。金字塔卷积利用分组卷积的原理，将输入特征划分为多个组，每个组使用不同大小的卷积核来提取多尺度特征，核大小从下到上逐渐增大，而深度逐渐减小，这种设计能够更好地兼顾对精细细节和全局特征的捕捉。

2025-08-16 23:11:18 983

转载吃尽时代黑利的硕博生，看到今年这顶会真麻了...

导师团队汇聚全球QS前100高校学术精英，涵盖英国牛津大学、美国加州大学、约翰・霍普金斯大学、清华大学、北京大学、复旦大学等世界一流学府，近年来个人论文产出量在10篇以上。无论你目标是CCF-A/B/C、SCI1-4区，还是EI会议，这些 “大牛导师” 都从选题、调研、idea验证、代码、实验、润色、投稿、直至中稿一站式科研服务。】，包括CVPR、Neurips、AAAI、ACL、ICLR、EMNLP等，共计100+篇。对于高校职工，想要晋升职级，申报项目经费，获得科研资源，CCFA的论文更是硬指标；

2025-08-13 10:04:09 20

转载改一行代码就能发顶会AAAI2025?模块创新如此简单?

这些模块就像积木一样，可以按照自己的想法插入到模型中，构建出自己的模型结构。而且模块都是由大牛设计，性能非常强，能大大减少我们的工作量与模型复杂程度。①模块代码.py ，②论文原文.pdf ，③requirements.txt（一键环境搭建），④使用说明.md。28个注意力机制模块、21个卷积模块、16个特征融合模块、11个频域模块、8个下采样模块。10个热门方向，共计100个即插即用模块。扫码下载全部100个即插即用模块。扫码下载全部100个即插即用模块。扫码下载全部100个即插即用模块。

2025-08-08 15:30:56 19

转载 2025最新即插即用！把大牛的模块缝合到自己的paper里！轻松涨点

这些模块就像积木一样，可以按照自己的想法插入到模型中，构建出自己的模型结构。而且模块都是由大牛设计，性能非常强，能大大减少我们的工作量与模型复杂程度。①模块代码.py ，②论文原文.pdf ，③requirements.txt（一键环境搭建），④使用说明.md。28个注意力机制模块、21个卷积模块、16个特征融合模块、11个频域模块、8个下采样模块。10个热门方向，共计100个即插即用模块。扫码下载全部100个即插即用模块。扫码下载全部100个即插即用模块。扫码下载全部100个即插即用模块。

2025-08-07 19:01:52 19

转载手机也能跑，腾讯混元一口气开源4款小模型

跟此前开源的 Hunyuan-A13B 模型一样，技术上通过精心的数据构建和强化学习奖励信号设计，提升了模型在任务规划、工具调用和复杂决策以及反思等 agent 能力上的表现，让模型实际应用中可以轻松胜任深度搜索、电子表格操作、旅行攻略规划等任务。多模态方面，混元还开放了完整多模态生成能力及工具集插件，陆续开源了业界领先的文生图、视频生成和 3D 生成能力，提供接近商业模型性能的开源基座，方便社区基于业务和使用场景定制，图像、视频衍生模型数量达到 3000 个。「小语言模型是智能体 AI 的未来。

2025-08-05 10:30:47 34

转载刚刚，DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文

简介：本文评估了当前主流的大型语言模型（LLMs）在摘要短篇小说这一具有挑战性的任务中的表现。简介：该论文提出了一种新的自适应方法 MaCP，即简约而强大的自适应余弦投影（Minimal yet Mighty adaptive Cosine Projection），该方法在对大型基础模型进行微调时，仅需极少的参数和内存，却能实现卓越的性能。本文展示了如何在一个具身的 CCG 语义解析方法中利用这一点，该方法学习了一个联合的意义与上下文模型，用于解释并执行自然语言指令，并可适用于多种类型的弱监督方式。

2025-08-01 17:31:15 97

原创小目标检测：上下文和注意力机制提升小目标检测（附论文下载）

为了为给定的特征图（目标特征图)在我们想要检测目标的位置提供上下文，研究者将其与目标特征层更高层次的特征图(上下文特征）融合。例如，在SSD中，给定我们来自conv4_3的目标特性，我们的上下文特征来自两层，它们是conv7和conv8_2。此外，在连接特征之前，标准化步骤是非常重要的，因为不同层中的每个特征值都有不同的尺度。在现实场景中，目标检测依然是最基础最热门的研究课题，尤其目前针对小目标的检测，更加吸引了更多的研究员和企业去研究，今天我们“计算机视觉研究院”给大家分享。注意力模块的可视化。

2025-08-01 17:31:15 789

原创使用SLF-YOLO改进的YOLOv8模型进行金属表面缺陷检测

这些进展凸显了金属表面缺陷检测技术的快速发展，强调了对能够应对现实工业挑战的精确、高效且轻量的模型的需求。此外，本文还引入了改进的FIMetal-IoU损失函数，以提升模型的泛化性能，特别是针对细粒度和小目标缺陷的检测性能。在AL10-DET数据集上，SLF-YOLO的mAP达到86.8%，在不增加模型复杂度的情况下，实现了检测精度与计算效率之间的有效平衡。VoVGSCSP整合了CSP和VoVNet模块，通过跨阶段特征共享和并行卷积操作，在保持高精度的同时，大幅降低了计算复杂度和推理时间，具体如下图所示。

2025-07-31 09:02:29 608

转载 2025年了Attention还能怎么搞创新？这110个注意力机制创新点和源代码你收好

论文介绍的是一个名为LENet的轻量级、高效的基于激光雷达(LDAR)的语义分割网络，它使用了多尺度卷积注意力(MSCA)模块和一种新型的上采样和融合机制(IAC)，用于提高语义分的性能。作者将具有大卷积核和注意力模块的深度卷积的设计称为LKA-trivial。深度卷积的可分离版本将给定的kxk卷积核均匀分解为1xk和kx1可分离卷积核，这些卷积核在输入特征上级联作用在保持其他因素不变的情况下，VAN中的LKA-trivial模块中提出的深度可分离卷积显著减少了随着卷积核大小增加而参数数量呈二次增长。

2025-07-30 09:29:24 45

原创 GeoIoU-SEA-YOLO：一种用于检测建筑工地不安全行为的先进模型

该图描绘了数据从输入层（左侧）开始，经过网络各组件的流动过程，包括从输入图像中提取特征的卷积层，以及负责检测物体的全连接层。未来研究可聚焦于模型的轻量化设计，以提升其在资源受限环境中的部署能力，并探索其在更复杂场景和多样化任务中的泛化性与可扩展性。通过优化边界框回归的几何分布特征并增强模型对关键特征的提取能力，该模型有效应对了建筑工地环境中常见的小目标检测、目标遮挡和多目标交互等挑战。然而，由于建筑环境的复杂性，包括小目标的普遍存在以及部分目标的遮挡问题，现有方法在应对这些挑战时性能仍然有限。

2025-07-29 09:32:45 823

转载基于YOLOV5和Deep-Sort的无人机-计算机通信番茄生殖器官计数模型

文献中已有许多研究致力于提高花朵和果实检测与计数的准确性，不过，正如大多数研究所示，这些方法通常采用基于颜色分类和阈值的标准计算机视觉算法来识别蔬菜的颜色、大小和形状。本研究引入基于计算机视觉和人工智能的无人机系统，用于检测和计数番茄花与果实，这是实现自动化收获的关键步骤，可提高农民的时间效率并减少所需劳动力。的帧率，且计算成本低，这使其成为一种极具优势的目标跟踪器。此外，无人机的视野设有一个进入区域，用于接收从北到南移动的番茄，并根据检测到的类别（红色、绿色和花朵）对每个番茄进行区分和计数。

2025-07-25 17:32:41 24

转载 2025必将是多模态融合爆发的一年！127种创新思路汇总！

本文提出了一种名为 SAMS-YOLO 的新型多光谱目标检测网络，通过组洗多感受野注意力（GSMA）模块和多模态监督（MS）策略，有效提升了 RGB-T（可见光和热红外）模态下的目标检测性能。本文介绍了 M3amba，一种新型的基于 CLIP 驱动的 Mamba 模型，用于多模态融合。该框架通过动态构建人口图和特征对齐，结合图变换器与多模态注意力模块，有效利用影像和非影像数据，提升了脑部疾病诊断的准确性和可解释性。一方面，以往的多模态融合，主要是静态视角，如今迎来了颠覆式创新-——动态多模态融合。

2025-07-23 09:31:15 77

原创 VBM-YOLO：一种增强型YOLO模型，用于减少车身标记检测中的信息损失

为了在空间和通道维度上实现更优的特征表示，我们通过加法和卷积操作，将跨维度模块生成的交互特征信息与门控融合单元的输出进行融合。在高强度光照条件下，尽管我们的模型通过计算远距和近距像素之间的差异来提升性能，但当计算值在整个分布中均较低时，可能会忽略细微变化。随着网络深度增加，该问题愈发突出。待优化成功后，我们计划将模型部署在车辆检测站，以自动化检查车辆标识的合规性，从而加强道路安全法规的执行。中的每个目标层学习来自其他目标层的信息重要性，以选择性地提取对当前目标层有益的关键信息，从而避免无关信息的干扰。

2025-07-21 17:31:41 887

转载无痛涨点！150+个开源即插即用模块！所有深度学习er必备！

本文提出 WTConv，一种将小波变换（WT）嵌入深度可分离卷积的即插即用模块，以对数级参数增长换取指数级扩大的感受野，使 CNN 在无需大幅增加计算量的前提下即可获得近似全局感受野，显著提升 ImageNet 分类、ADE20K 语义分割和 COCO 检测等任务的精度，同时增强模型对形状的偏好、对扰动的鲁棒性，并优于现有大核卷积或频域方法。在实际操作中，我们只需要通过并行、串联、多尺度融合等方式，对其进行排列组合，便能实现高效涨点。，涉及多个种类：注意力机制、快速傅里叶变体、卷积变体、特征融合、下采样；

2025-07-16 09:30:53 30

原创 SF-YOLO：一种用于航空场景中小目标检测的新型YOLO框架

此外，我们提出了一种新颖的多尺度特征加权融合策略，通过结合快速归一化融合方法和CARAFE操作对特征图进行加权融合，精准评估每个特征的重要性，增强小目标的特征表示。首先，我们设计了空间信息感知（SIP）模块，该模块融合了空间到深度操作和大型选择性核模块，以保留小目标的细粒度特征，并整合复杂环境中的上下文信息。此外，我们设计了一种新颖的多尺度特征加权融合（MFWF）策略，用于融合多尺度特征信息，有效处理不同尺度的语义特征，减少信息丢失，提高小目标检测的鲁棒性。MFWF）策略，对不同级别的特征图进行加权融合。

2025-07-16 09:30:53 681 1

转载 YOLOv13 轻装上阵，实时目标检测再迎新突破

使用VEDAI和AI-TOD两个公开遥感数据集以及自建的USOD数据集进行验证，FFCA-YOLO在mAP50指标上分别达到了0.748、0.617和0.909，超过了多个基准模型和现有最佳方法，同时L-FFCA-YOLO版本在保持效率的同时进一步降低了计算资源消耗。不过，现有 YOLO 模型在建模全局高阶语义相关性上存在局限，难以应对复杂场景。实验使用了公开的红外图像数据集进行测试，结果表明，改进后的YOLO检测器在保持高检测率的同时显著减少了虚警，特别是在少量样本的情况下，其鲁棒性也得到了显著提升。

2025-07-15 09:29:19 57

原创用于小无人机远程检测的改进型YOLO算法

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式https://www.nature.com/articles/s41598-025-95580-z计算机视觉研究院专栏Column of Computer Vision Institute及时且准确地检测不明无人机对公共安全至关重要。然而，复杂环境中的背景噪声，以及小型、远距离目标有限的特征表达，带来了诸多挑战。此外，深度学习算法通常需要大量计算资源，限制了其在低容量平台上的使用。PART/1

2025-07-14 09:30:49 1451

转载 2025全球无人机市场洞察报告

无人机正朝着微型化、智能化和长续航化方向发展，5G、人工智能、物联网和新能源技术的融合为其提供了实时数据传输、远程控制和持续作业的新动力。近年来，无人机技术的不断进步，如传感器的精度提升、续航能力的增强、以及人工智能的应用，使得无人机的功能性和普及率显著提升。• 按用途细分, 无人机可分为消费级、专业航拍、商用、工业级、军用、竞速以及教育与训练等类别,分别满足从娱乐到专业应用的不同需求, 消费级无人机通常用于娱乐和个人创意,专业航拍无人机服务于影视制作和高端摄影,

2025-07-13 11:31:15 49

原创 LGA-YOLO：用于遥感图像中的车辆检测

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式https://ieeexplore.ieee.org/abstract/document/10855635计算机视觉研究院专栏Column of Computer Vision Institute在遥感图像中，车辆往往呈现出极小的尺度，特征匮乏，且易被复杂的背景信息淹没。在低光照或遮挡环境下，这一问题愈发棘手，会导致漏检和误报情况的出现。PART/1 概述为此，本文提出一种新颖的车辆

2025-07-13 11:31:15 852

转载读博最佳时机！政策全面落地，读博水水得了。。

如果你正在考虑学术道路的长期投入，或是关注国家高端人才培养的战略走向，那么2025-2035年这个阶段，很可能是近十年来攻读博士学位。期刊编辑1v1诊断论文，精准预判发表几率，定制高效修订方案——从返修指导到录用保障，全程护航您的学术成果。最终选择了最优质的精英导师团队，将全程护航您的成果交付——从文献攻坚到论文录用，拒绝任何形式的责任缺位。只要掌握了他们的套路、精髓，多练习，执行到位，科研小白也能发出顶会文章。——从第一篇论文的录用通知，到第一份年薪30万+的录用函，全程为你护航。

2025-07-10 17:00:55 32

转载 RoboTwin系列新作：开源大规模域随机化双臂操作数据合成器与评测基准集

因此我们提出了 RoboTwin 2.0，提供基于多模态大模型与仿真在环的自动化专家代码合成方案，开源了含 731 个，147 类带丰富标注物体的 RoboTwin 物体数据集（RoboTwin-OD），并基于两者构建了支持 5 款本体与 50 个任务的大规模域随机化仿真双臂操作数据合成器与评测基准集。我们开源了 50 个任务的 RoboTwin 2.0 代码，预采集 100,000 + 条多本体域随机化操作数据，以及完整的 RoboTwin-OD 大规模丰富语义数字资产库，以及用户友好的使用文档。

2025-07-08 09:30:32 61

转载遥感新方向！热红外视频卫星空中民航监视，首届挑战赛正在火热进行！

竞赛数据由国防科技大学团队和武汉大学联合开发的基于热红外卫星的IRAir数据集、基于landsat卫星的IRSatVideo-LEO数据集和基于武汉一号卫星的实测热红外视频卫星数据作为训练、验证、和测试数据集。为探索热红外卫星辅助民航空管的可行性，国防科大于2024年构建了首个热红外卫星视频空中民航目标数据集IRAir，并与近期联合武汉一号卫星研制团队举办首届红外视频卫星空中动目标检测挑战赛。SSMA-YOLO：一种轻量级的 YOLO 模型，具备增强的特征提取与融合能力，适用于无人机航拍的船舶图像检测。

2025-07-04 19:38:58 57

原创基于YOLOv11算法的无人机影像小目标检测CF-YOLO

然而，由于不同的输入特征对网络的贡献不同，我们使用三明治融合模块对每个特征分支进行加权融合，使模型能够根据特征的重要性自主选择，并有效整合上下文信息。此外，考虑到特征图越大，包含的小目标信息越丰富，我们专门添加了一个小目标检测头，将原来的。从多尺度融合的角度改善了小目标的检测性能。因此，本研究不同于上述工作，专注于解决小目标检测中的特征信息丢失问题，并系统探索多尺度特征融合的优化潜力。从无人机视角捕获的图像中，目标尺度差异显著且存在大量缺乏细节信息的小目标物体，这对目标检测算法的性能产生了显著影响。

2025-07-03 10:00:55 855

转载 YOLO卷不动了，深度学习目标检测还有哪些方向能做？

论文提出RoboFusion框架，基于预训练SAM得到SAM-AD以适配自动驾驶场景，通过AD-FPN实现特征对齐，用DGWA模块融合深度信息与图像特征并降噪，再经自适应融合机制动态调权重，增强特征鲁棒性，提升复杂环境下多模态3D目标检测性能。论文提出Mr. DETR，通过多路线训练机制改进DETR，同时进行“一对一”和“一对多”预测，加速收敛并提升检测精度，推理时移除辅助路线，不影响模型架构和推理成本。，我都统一打包完毕，分享给大家，尤其是无GPU无指导的单兵们，希望可以有所帮助。

2025-07-02 09:59:06 40

转载录用率仅 22.1%!吐血整理了 100篇 CVPR 爆火论文

顶级高校（如MIT、斯坦福）及实验室（如FAIR、DeepMind）已经将CVPR录用作为科研潜力的关键指标。“今年视觉 - 语言与 3D 生成的交叉创新，将重构机器人感知、医疗影像分析的技术框架。大厂算法岗招聘 JD 明确标注 “顶会论文优先”，字节、英伟达等企业薪资溢价超 30%！论文成果，冲刺清华、CMU 等顶尖院校博士成功率提升 60%，导师抢着要！（2,878篇/13,008投稿），竞争激烈程度创历史新高。，申请国家级项目、科研基金更有底气！名额有限，先到先得（手慢无！名添加学术顾问微信，

2025-07-01 09:30:33 56

转载 AIGC实战工业缺陷检测：从原理到代码

前面已经详细介绍过人机交互以及通过对话提取需求的原理与实现方式，且此案例将会直接基于前面的内容进行方案设计，因此在此案例中不再详细介绍人机交互功能和需求提取的部分，而是重点介绍 AIGC 在机器视觉中的其他重要应用功能。特别是，如果系统部署在硬件资源充足的环境中，则可以实现实时自动学习，从而进一步优化系统的性能和用户体验。注意：AIGC 融合传感器的案例实现完全基于检索式对话系统的方式，而 AIGC 在机器视觉场景中的应用由于涉及较多的用户主观感受，因此无法完全依赖检索式对话系统进行用户需求的直接提取。

2025-06-30 09:30:21 88

原创 YOLO-IHD：面向室内无人机的改进型实时人体检测系统（实验全网最全）

新模型性能的提升归因于其优化的卷积层和注意力机制，能够处理来自室内环境的复杂视觉数据，从而在灾难响应和室内救援等关键场景中实现更可靠的操作。传统检测方法依赖手动设计的特征，在无人机应用中面临显著挑战，包括对光照条件、角度和遮挡的敏感性，以及复杂背景处理的困难。室内场景给无人机带来了独特的困难，包括空间受限、光照条件多变和背景复杂，这使得有效的人体检测成为一项至关重要的任务。在室内环境中，这可能意味着识别和区分人体所需的关键特征的丢失，尤其是在拥挤或复杂的场景中。，创建专门针对室内无人机操作挑战的变体。

2025-06-26 19:02:15 721

转载无损减少80%激活值内存，提升5倍训练序列长度，仅需两行代码

为了减少激活值的内存消耗，梯度检查点（gradient checkpointing）方法在 forward 时只储存每一层网络的输入，而不储存该层的中间值。长序列训练对于模型的长序列推理等能力至关重要。我们在单张 A800-80GB GPU 上测试了不同大小的模型，StreamBP 的最大 BP 序列长度为标准 BP 的 23-36 倍，梯度检查点的 2.5-5.5 倍。不同于梯度检查点，StreamBP 避免储存单层的完整激活值，而将单层的 BP 过程进行线性分解，序列化计算并累加。

2025-06-25 11:29:03 29

转载多模态融合原来这么好发论文？看完我像被“点醒”，太赞啦！

各位如果想快速出成果，不妨从这些角度入手。论文提出FusionSight，通过融合雷达和图像数据，利用ViT提取图像特征，CNN处理雷达数据，并通过FFMT整合特征，实现多模态目标检测和分类，为视障人士提供实时导航辅助。论文提出OGP-Net，通过多视图对比学习和知识蒸馏，融合RGB和IR图像进行语义分割，同时保留模态共享和特定信息，提升多模态和缺失模态场景下的性能。比较火的可解释多模态融合，在原来模型里加个“说明书”，让模型融合文字、图像等数据时，能把决策过程说明白，既提升性能又不“黑箱”。

2025-06-25 11:29:03 39

转载 RICE-YOLO：基于改进YOLOv5和无人机图像的田间水稻穗检测

通过生成一系列包含检测到的稻穗的边界框，并将每个框中的稻穗数量与人工标注结果进行对比，他们证明了该系统在田间水稻检测和计数中的准确性。因此，针对无人机拍摄的稻穗图像中存在的遮挡、密集分布和小目标问题，提出一种新颖的检测方法，可部署在无人机平台上，用于未来田间应用中稻穗的实时检测。使用无人机拍摄稻田照片时，较高的拍摄角度和较广的覆盖范围，会导致稻穗在拍摄图像中显得较小，还会使图像边缘物体产生角度畸变，造成稻穗严重遮挡和密集排列。，以提高稻穗检测效率，并对田间智能手机拍摄的稻穗图像进行分类。

2025-06-20 12:15:16 153

转载大模型赛道白热化！解锁6大前沿热点，顶会论文手到擒来

实验表明，REWARDAGENT在现有的奖励模型基准测试和真实世界的下游任务中均显著优于传统的奖励模型，并且能够有效提升LLMs在各种自然语言处理基准测试中的性能。实验表明，GPT-FL 在模型测试精度、通信效率和客户端采样效率方面均优于现有的联邦学习方法，并且无论目标数据是否在预训练生成模型的领域内，都能显著提升性能。包括风险类型，分析在微调过程中可能出现的风险，例如模型生成有害内容、隐私泄露、对抗攻击等和风险量化方法，用于衡量这些风险的具体指标和方法，帮助研究人员和开发者更好地理解和管理风险。

2025-06-19 09:30:34 41

原创 YOLO-Drone：一种用于微型无人机目标检测的优化YOLOv8网络

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式https://www.mdpi.com/2079-9292/12/17/3664计算机视觉研究院专栏Column of Computer Vision Institute随着无人机在商业和工业领域的广泛应用，无人机检测在公共安全等领域受到越来越多的关注，无人机目标检测技术也随之快速发展。然而，无人机尺寸小、空域背景复杂、光照条件多变等问题，仍为此领域的研究带来重大挑战。PART/1 概述

2025-06-16 09:00:35 659

原创基于YOLO的用于无人机与鸟类检测分割数据集，适用于深度学习和机器学习算法

噪声可通过多种方式实现。借助训练过程中马赛克子块的独特特性，算法在开发有效检测小型目标（如鸟类或无人机）的稳健能力方面获得显著优势，即便这些目标距离相机很远，从而确立了本数据集作为推进具有挑战性场景中目标检测能力的宝贵资源的地位。在实时画面中检测鸟类和无人机等目标的任务中，分割后的数据集尤为宝贵，因为对目标的精细分割能让算法更深入地理解目标的视觉特征，从而提高检测精度和性能。每个包含检测到的鸟类或无人机的视频帧，都经过了从背景中分割目标的精细处理，形成了高精度的表示，能显著提升算法在实时画面中的检测能力。

2025-06-15 12:03:21 601

原创无人机建筑行业：基于YOLOv7的建筑外墙缺陷检测

与YOLOv7相比，BFD-YOLO的精度和mAP@.5分别提高了2.2%和2.9%，同时保持了相当的效率。这些方法依赖于检查员的专业知识和经验，这是主观的、危险的和低效的。由于建筑数量的增加和规模的扩大，人工目视检查方法已不足以满足大规模检查的要求。作为结构损伤检测的一个组成部分，建筑外墙缺陷的检测可以使政府和管理层准确了解建筑外墙的综合状况，从而有助于制定合理的维修方案。在神经网络的模型训练中经常需要大量的数据。然而，获取建筑外墙缺陷的图像相对困难，并且在收集的数据中存在类别不平衡的问题。

2025-06-14 11:02:17 610

原创 YOLO-SG：基于轻量级上采样算子和注意力机制的海底地形单元识别与分割算法

此外，它集成了一个轻量级通用上采样算子，构建了新的特征融合网络，从而提升了模型的特征融合与表征能力。此外，海底地貌单元具有轮廓复杂的特点，在将数字高程模型（DEMs）转换为海底地形图的过程中，不同海底地貌单元之间显著的尺度差异不可避免地导致小目标的存在。可知，与YOLOv8l-Segment相比，所提出的YOLO-SG模型在检测精度上实现了显著提升：具体而言，mAP（平均精度均值）值提高了14.7%，海山、海底小山和海底洼地的AP值分别提升了14.9%、14.6%和18.4%。

2025-06-14 11:02:17 1600

中文语音识别模型数据集

faster-rnn目标检测

简单明了的贝叶斯网络介绍

深度学习数据集标注

深度学习工具（Caffe）

深度学习——keras

vatic安装文件

Face++技术

深度学习代码

Caffe可视化

深度学习合集

空空如也