基于GenAI的农业杂草检测：YOLO11模型量化与合成增强的优化探索

最新推荐文章于 2025-12-01 23:03:48 发布

原创最新推荐文章于 2025-12-01 23:03:48 发布 · 1.1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#开源 #人工智能 #目标检测 #YOLO #YOLO11 #计算机视觉

部署运行你感兴趣的模型镜像

一、摘要

二、引言

三、背景

一、摘要

基于深度学习的杂草控制系统经常受到训练数据多样性有限和板载计算受限的影响，从而影响其实际性能。为了克服这些挑战，我们提出了一个框架，利用基于稳定扩散的涂色技术，以10%-200%的增量逐步增加训练数据，从而提高样本的数量和多样性。我们使用mAP50指标来评估检测性能，并在两个最先进的物体检测模型YOLO11(l)和RT-DETR(l)上对我们的方法进行了评估。我们探索了生成式着色和检测模型的量化策略（FP16和INT8），以在推理速度和准确性之间取得平衡。在Jetson Orin Nano上部署下游模型证明了我们的框架在资源受限环境中的实际可行性，最终提高了智能杂草管理系统的检测精度和计算效率。

二、引言

机器人与智能喷雾器等自动除草系统正逐步取代传统人工除草，提高效率、改善作物健康，并提升产量。然而，实现可靠的农业应用仍依赖高质量、多样化的数据集。传统图像增强（如几何变换、复制粘贴）局限性明显，难以提供足够的多样性。相比之下，生成对抗网络（GANs）和扩散模型可生成逼真的合成数据，提高模型泛化能力。在先前研究中，我们发现稳定扩散模型生成的合成数据可提升甜菜杂草检测的性能，仅替换10%的真实图像就能有效优化训练。

为进一步提升效果，我们引入内绘技术，可在真实图像中进行精准编辑，如杂草大小调整、类别均衡等，使合成增强自然融入数据集。本文在YOLO1和RT-DETR训练中加入合成数据，并评估其影响。虽然提升了检测性能，但农业应用仍面临算力受限挑战。为此，我们研究了模型量化（FP16、INT8），降低计算需求，优化推理速度，并在Jetson Orin Nano上部署模型，验证其在边缘设备上的可行性。

本研究主要贡献：

（1）评估训练后量化对GenAI内绘和杂草检测模型精度的影响；

（2）平衡稳定扩散模型与下游检测模型的计算权衡，实现更高推理效率。

这一工作为未来智能除草系统的低算力部署提供了新思路。

三、背景

相关工作

基于生成式人工智能的图像生成技术的最新进展为各种数据增强技术铺平了道路，这些技术大大提高了农业应用中的任务执行率。基于文本提示的图像生成、图像内绘和图像到图像翻译等技术已被广泛采用，其中扩散模型发挥了关键作用。例如，Deng等人证实，通过增强图像增强，mAP50-95分数提高了1.5%。同样，Modak和Stein的研究表明，与传统的增强方法相比，将Sta-ble Diffusion应用于作物-杂草图像能更有效地提高YOLO模型的性能。此外，据报道，利用扩散模型进行域自适应数据增强有利于葡萄园嫩枝检测。与此同时，模型量化技术已成为一种有前途的策略，可在保持推理速度和检测精度的同时降低计算需求。值得注意的是，INT8量化技术提供了一种有效的折中方法，即在不显著降低性能的前提下优化计算要求。

扩散模型

扩散模型是生成模型的一个子类，其工作原理是用高斯噪声破坏训练数据（称为正向扩散），然后通过逐步去噪（称为反向扩散）学习恢复原始信息。给定初始数据分布x0 ∼ q(x)，正向过程通过Markovian转换添加高斯噪声：

图片2.png

稳定扩散模型以潜在扩散模型（LDM）为基础，利用CLIP文本嵌入实现条件文本到图像的生成。在潜空间而不是像素空间中形成扩散过程，可显著提高效率。训练有素的编码器可将高分辨率图像映射到低维潜在表示，然后由解码器进行重建。稳定扩散的调节机制允许文本提示、输入掩码和布局，支持文本到图像生成、内画和超分辨率等任务。为了提高推理过程中的计算效率，使用了各种采样调度器，如去噪扩散隐含模型（DDIM）和Euler Ancestral采样器。

目标检测模型

YOLO11从YOLO系列发展而来，是最先进的实时物体检测器模型。它通过关键的架构创新提高了物体检测的速度和准确性。该模型使用初始卷积层进行降采样，然后使用C3k2块提高计算效率。包括空间金字塔池化-快速（SPPF）和新的跨阶段部分与空间注意力模块在内的功能增强了对突出区域的关注，从而提高了小物体的检测能力。在颈部，来自不同尺度的特征被融合在一起，而头部则通过额外的C3k2和CBS层对这些特征进行细化，最终产生边界框、物体度分数和类别预测。

RT-DETR与基于卷积的架构不同，RT-DETR使用基于变换器的骨干网来分析整个图像，从而能够利用全局上下文来检测复杂场景和小物体。它通过使用匈牙利算法的一对一匹配策略，消除了对非最大抑制（NMS）的需求，从而实现了独特的预测和更快的检测。该架构采用混合编码器，将基于注意力的尺度内特征交互（AIFI）与基于CNN的跨尺度特征融合（CCFF）相结合，以实现有效的多尺度特征提取。此外，查询选择机制可提高初始查询的质量，从而提高整体检测精度。

物体检测指标使用精确度、召回率、mAP50和mAP50-95等指标评估物体检测模型的效率。精确度衡量的是在所有预测阳性中正确识别阳性的比例，而召回率衡量的是正确检测到的实际阳性的比例。除了分类，定位精度在检测任务中也至关重要。交集大于联合（IoU）量化了预测边界框与地面实况边界框之间的重叠程度，如果IoU≥t（t为预定义阈值），则认为检测正确。精度-召回（PR）曲线说明精度和召回之间的权衡，曲线下面积（AUC）表示总体性能。mAP50在IoU=0.50时进行评估，而mAP50-95则是mAP在0.50到0.95的阈值范围内的平均值。

量化

深度学习模型通常使用32位浮点（FP32）算术，而低精度格式（FP16和 INT8）通常用于提高效率。

FP32表示法FP32（单精度）使用32位-1位表示符号，8位表示指数（偏置 127），23位表示尾数。FP32中的浮点数x公式为：

图片3.png

其中，s是符号位，e是指数，m是尾数。

FP16表示法FP16（半精度）使用16位-1位表示符号，5位表示指数（偏置15），10位表示尾数。数字x的FP16表示为：

图片4.png

s是1位符号，e是5位指数，m是10位尾数。INT8量化将全精度权值w映射为8位整数q：

图片5.png

s是缩放因子，z是零点，而clip则确保q保持在以下范围内：

图片6.png

原始权重近似恢复为：

图片7.png

这些量化方法既适用于训练后量化，也适用于量化感知训练（QAT），其中的损失考虑了量化误差：

图片8.png

其中λ平衡了任务损失和量化误差。FP32和FP16明确使用符号、指数和尾数的单独字段来表示数字，而INT8则使用带有缩放因子和零点的整数表示。这些量化技术以数字精度换取效率，这对实时物体检测模型至关重要。

四、方法

准确识别杂草对智能化农业杂草管理系统至关重要，而这取决于高质量的数据。我们的方法解决了现实世界中的数据难题，包括由于季节变化、天气和种子可用性等因素造成的某些杂草类别代表性不足的问题。为了应对这些挑战，我们采用了一种图像增强策略，该策略源自我们之前的数据增强工作，采用了内绘技术（参见图3）。该策略通过生成未充分报道的杂草类别的图像来增强数据集，从而提高数据集的多样性和数量。YOLO变体在准确性和速度之间取得了很好的平衡，而RT-DETR虽然推理速度较慢，但准确性更高。我们之前的工作表明，YOLO(l)和RT-DETR(l)在准确性上与YOLO(x)和RT-DETR(x)相当，同时效率也在不断提高。因此，我们通过在原始数据集和合成数据集上微调YOLO11(l)和RT-DETR(l)，验证了我们的增强图像。增强数据的比例各不相同，从原始数据集大小的10%到200%不等，增量为10%。然而，生成内绘图像和随后的杂草检测都是计算密集型的。为了解决这个问题，我们采用了训练后量化（见2.4）来加快推理速度并降低资源需求（见图1）。在训练Stable Diffusion、YOLO11(l)和RT-DETR(l)时，我们使用NVIDIA A100-SXM4-40GB GPU和AMD EPYC 75F3 32核处理器以及12 GB内存。然后，我们在英伟达Jetson Nano 8GB机型上部署了经过量化和微调的下游模型，该机型配备了8核 ARM Cortex-A78AE CPU和1024核Ampere GPU，以及GB统一内存。

图片9.png

数据集

数据集是使用安装在以1.5米/秒速度行驶的拖拉机上的智能喷雾器上的野外摄像装置（FCU）从试验场地采集的。该成像系统采用6毫米有效焦距 (EFL) 和 230万像素RGB传感器，并配有用于近红外 (NIR) 和红色波长的双波段镜头滤光片。后期处理包括投影校正和根据近红外和红色波长生成伪RGB图像。图像从距地面1.1米处倾斜25度拍摄。数据集由2074张图像组成，包括作为主要作物的甜菜和四种杂草类型：不同土壤条件下的四种杂草：Cirsium、Convolvulus、Fallopia和Echinochloa。这些图像由具有农艺学研究背景的田间专家精确标注，用于目标检测。每幅图像的分辨率为1752×1064像素（见图2）。

图片10.png

实验设置

管道架构

建议的管道包括两个主要部分：数据集转换和图像生成（参见图3）。

图片11.png

数据集转换阶段源自我们之前的研究。数据集最初是用于物体检测的，使用 Segment Anything Model（SAM），特别是SAM ViT-H变体，将边界框注释转换为多边形掩膜，将数据集转换为零镜头设置。然后分离出植物和杂草的形状，并通过零填充对图像进行标准化处理。在图像生成阶段，稳定扩散模型v1.5将使用扩散库[17]对提取的植物和杂草类别进行微调，并采用一种称为多主体梦幻布斯的特定技术。表1概述了训练过程中使用的超参数。考虑到GPU内存的限制，使用的批次大小为1，同时使用梯度检查点。为了实现稳定、平滑的收敛，使用了余弦学习率调度器，学习率为5×10-6。此外，为了提高内存使用率和计算效率，还采用了动态量化方法（也称为FP16混合精度训练）。此外，还使用唯一标识符（即HoPla）对文本编码器进行了训练，同时对甜菜、芹菜、秋葵和蜗牛等主题类别进行了训练。

图片12.png

在推理过程中，我们利用微调的稳定扩散模型对真实世界的图像进行凹陷处理（见图4）。

图片13.png

二进制图像掩码指定了合成新对象（如植物或杂草）的区域，而简洁的文本提示（如HoPla Fallopia的照片）则定义了目标杂草类型。起初，随机二进制掩码是动态生成的；但是，这偶尔会导致上色区域与现有对象重叠。为了缓解这一问题，我们集成了一个经过微调的物体检测器（YOLO11X，在COCO数据集上经过预训练），以便在生成掩膜时排除预测的感兴趣区域（ROI）。随后，我们还使用了相同的检测器来自动标注同步内绘图像。在图像生成过程中，我们最初将杂草分为四种：Cirsium、Convolvulus、Fallopia和Echinochloa。不过，为了进行标记和杂草检测，我们将它们重新分类为两个更广泛的植物类别--双子叶植物（Cirsium、Convolvulus、Fallopia）和单子叶植物（Echinochloa）--以便与除草剂目标策略保持一致，后者侧重于植物群而非单个物种。图像生成参数详见表2。我们采用了欧拉祖先离散调度程序来优化图像质量与计算效率之间的权衡。推理过程配置为150步，以获得最佳图像保真度，强度参数为0.5，以控制噪声、平衡质量和生成速度。输出分辨率标准化为768×512像素，以保持与输入尺寸的一致性。此外，我们还探索了使用FP16和INT8进行训练后量化的方法，以减少内存开销并加快推理速度。

下游模型训练

我们的方法分为三个阶段：使用量化的稳定扩散模型扩充数据集、微调最先进的物体检测器以及在边缘计算设备上部署后量化训练（参见图1）。我们首先将稳定扩散模型量化为三种精度格式：FP32、FP16和INT8。这些模型会生成合成图像，并将原始训练数据集以可控增量从10%扩展到200%，其初始大小（n）的增量为10%。我们考虑了两种数据集配置：一种仅使用原始图像（n），另一种则包含不同程度的合成增强。然后使用原始数据集和增强数据集对两个先进的物体检测模型YOLO11(l)和RT-DETR(l)进行微调，这两个模型都是在COCO数据集上预先训练过的。每个数据集配置分别进行训练，以分析数据增强对模型性能的影响。训练以300个epoch进行，早期停止以减少过拟合。YOLO11(l)和RT-DETR(l)模型的学习率分别为0.01和0.001，并采用余弦学习率计划进行动态调整，以实现平稳训练。此外，为了保持训练的一致性和避免偏差，我们关闭了在线增强技术。

部署

经过微调后，训练后的模型被量化为不同的比特格式，以评估精度降低的影响。来自下游检测任务的FP32 Torch模型通过FP32、FP16和INT8量化后被导入TensorRT。在部署之前，对NVIDIA Jetson Orin Nano进行了配置，以通过消除干扰后台进程来专门运行目标应用程序。具体来说，启用MAX Power模式以确保所有CPU和GPU内核都处于活动状态，并将系统时钟设置为最高频率。然后，将量化的TensorRT模型部署到这个经过优化、资源受限的边缘计算设备上，以评估下游检测模型的实时能力。所有模型都使用一个固定的验证和测试数据集进行了无偏评估测试，该数据集完全由真实世界的图像组成。

五、Coovally AI模型训练与应用平台

如果你也想要进行模型训练或模型改进，Coovally平台满足你的要求！

Coovally平台整合了国内外开源社区1000+模型算法和各类公开识别数据集，无论是YOLO系列模型还是Transformer系列视觉模型算法，平台全部包含，均可一键下载助力实验研究与产业应用。

而且在该平台上，无需配置环境、修改配置文件等繁琐操作，一键上传数据集，使用模型进行训练与结果预测，全程高速零代码！

具体操作步骤可参考：YOLO11全解析：从原理到实战，全流程体验下一代目标检测

平台链接：https://www.coovally.com

如果你想要另外的模型算法和数据集，欢迎后台或评论区留言，我们找到后会第一时间与您分享！

六、研究结果

我们首先评估了各种量化技术对稳定扩散模型的影响。为此，我们测量了两个关键指标：推理时间（表示模型生成输出所需的时间）和峰值内存使用量（表示推理过程中消耗的最大内存）。表3总结了我们的评估结果。

图片14.png

结果表明，FP16的量化大大减少了推理时间，与FP32相比，延迟降低了约 72.8%，内存消耗降低了46.1%。INT8量化后的推理时间比FP32缩短了73.4%，同时保持了与FP16几乎相同的内存效率。不过，INT8的标准偏差较大，推理时间的可变性略高。

我们评估了三种量化设置（FP32、FP16和INT8）下量化涂色增强对 YOLO11(l)和RT-DETR(l)两种下流模型的影响。使用mAP50指标对模型性能进行评估。针对所有量化的下游模型（不包括 “无增强 ”基线），计算了每种内绘精度设置（FP32、FP16和INT8）的增强条件下mAP50值的平均值和标准偏差（SD）。弗里德曼检验证实了精度设置之间的显著差异（p<0.05）。经Bon- ferroni校正的事后Wilcoxon符号秩检验确定了成对差异。统计分组标签（A、B、C等）表示差异不显著（相同字母）或差异显著（不同字母）的设置（见表4和表5）。

图片15.png

图片16.png

在YOLO11(l)中，采用高精度内绘技术（FP32和FP16）后，YOLO11(l) FP32和FP16模型的mAP50分数达到峰值0.932，增强率为200%，与未增强的基线相比，增强率仅为0.54%。然而，YOLO11(l) INT8模型的提高幅度更大，达到6.64%（从0.798提高到0.851），这表明高精度内绘有助于减轻因模型精度较低而造成的精度损失。在FP16内绘制中也观察到了类似的模式，YOLO INT8模型提高了5.04%（从0.814提高到0.855），这进一步证明了增强可以帮助补偿低精度模型。通过INT8内绘，YOLO11(l) INT8模型在增强120%时的mAP50分数达到峰值0.862，比未增强基线（0.798）提高了8.02%。有趣的是，YOLO11(l) FP32和FP16模型在增强200%时达到最高分（0.935 mAP50），比基线提高1.63%。对量化的YOLO11(l)变体进行的统计测试表明，不同的内绘精度设置存在显著差异（Friedman检验，p< 0.05）。事后Wilcoxon检验表明，FP32和FP16之间没有明显差异（p> 0.05），而INT8的性能明显较低（p<0.05）。因此，FP32和FP16被归为一组(A)，INT8被归为另一组(B)。由于这些分组在所有设置中都保持一致，因此涂色精度并未影响YOLO11(l)的性能。RT- DETR(l)模型对Inpainting精确度设置的敏感度更高。在FP32内绘制条件下，RT-DETR(l) FP32和FP16模型在增强率分别为40%和90%时获得了最高的mAP50分数（分别为0.915和0.916），即提高了约1.55%。RT-DETR(l) INT8模型在100%扩增时的增益略高5.20%（从0.795增至0.837），表明适度扩增是有益的。在FP16精确度下进行内绘时，性能提升更为明显，RT-DETR(l) FP32 模型提高了3.87%（从0.879提高到0.913），RT-DETR(l) FP16模型提高了3.75%（从 0.880 提高到0.913）。这些结果表明，RT-DETR(l) 可从FP16损伤中获益，但并不需要像YOLO11(l)那样的增强。此外，RT-DETR(l) INT8模型在增强率为140%时提高了9%（从0.762提高到0.832），这表明增强率的提高可以显著提升低精度设置下的性能。在INT8 Inpainting 时，RT-DETR(l) FP32和FP16模型在增强170%时都达到了0.917的最高性能，这表明在低精度Inpainting时，增强在稳定性能方面非常有效。然而，RT-DETR(l) INT8模型尽管在增强130%时提高了6.64%（从0.782提高到0.834），但仍表现出不稳定性。在统计测试中，RT-DETR(l)显示出与YOLO11(l)相似的模式，量化变体分为不同的组：在(A)组中为FP32和FP16，在(B)组中为INT8，与涂色精度设置无关。与YOLO11(l)相似，内绘精度的变化对RT-DETR(l)性能没有显著影响，保持了一致的统计分组。

七、讨论

报告结果突出了量化对稳定扩散模型及其下游模型（包括YOLO11(l)和RT-DETR(l)）的计算效率和性能的影响。在稳定扩散模型中，与FP32相比，FP16和INT8等量化技术大大减少了推理时间和峰值内存使用量。然而，在稳定扩散模型中，FP16和INT8在峰值内存使用量和推理时间上的差异微乎其微。造成这一现象的因素有几个。首先，该模型的复杂操作，如注意力机制和残差连接，并没有充分利用INT8量化的优势。此外，由于频繁的去量化和重新量化步骤，INT8量化会带来计算开销，这抵消了其潜在的性能提升。此外，现代硬件优化设计通常更倾向于FP16，因为许多GPU和NPU都针对混合精度计算进行了更好的优化，这可能导致FP16和INT8的性能几乎相似。此外，这项研究还表明，涂色增强可以帮助改善因量化而损失的性能。这种方法的有效性取决于绘制精度（FP32、FP16、INT8）和所使用的模型架构。在下游模型中，高精度设置（FP32和FP16）可略微提高性能。相比之下，在INT8设置中，精确度受量化退化的影响更大，在使用稳定扩散模型所有量化变体的合成数据时，性能恢复得更快。此外，我们的研究结果还进一步揭示了内绘增强的优势是针对特定架构的。

YOLO11(l)模型似乎能更有效地利用合成增强，尤其是在INT8配置中，而 RT-DETR(l)则表现出更渐进的改进，有时甚至是可变的改进。然而，增强与检测精度之间的关系却各不相同。这可能是自动标注而不做进一步检查的原因，这与文献的研究结果一致。不过，本实验是在一次训练运行中进行的，对每种增强组合都随机选择了合成图像子集。为了提高统计可靠性并减少偏差，未来的实验将在至少10个独立集上进行分层抽样，以进行更稳健的评估。此外，量化和内绘增强的实际优势还体现在模型大小和延迟的减少上，尤其是INT8配置。这些效率的提高对于在资源有限的环境中部署模型至关重要，因为在这种环境中，内存和计算需求最小化至关重要。通过有效结合量化和合成绘制的优势，我们可以实现非常适合实时应用的高性能模型。

八、结论

本研究探讨了将稳定扩散模型和下游模型（YOLO11(l)和RT-DETR(l)）量化集成到基于GenAI的杂草检测流水线中的潜力。在增强过程中，将所集成的稳定扩散模型量化为FP16和INT8，可以在不降低下游性能的情况下大幅减少延迟和计算成本。此外，量化还能提高下游模型的比对速度，而在YOLO11(l) 和RT-DETR(l)中观察到的合成图像增强能够减轻INT8量化带来的性能损失。我们的研究结果还表明，在研究不同模型时，内绘增强的效果也不尽相同。此外，性能差异似乎与自动配准注释的质量有关，这表明完善的注释策略可以进一步提高结果。未来的研究将调查稳定扩散模型的其他量化策略，如BF16、FP8和FP4，以减少资源受限设备上的延迟，从而在英伟达Jetson Orin Nano或NPU等平台上部署。如果增强流水线的延迟得到改善，我们的方法就可以集成到智能系统架构中，如有机计算的MLOC，应用于智能农业机器人。这些架构包括反射层，用于监控控制系统（SuOC）的适应层。当检测到性能下降时，反射层会触发重新配置，例如触发持续学习，以弥补角落情况或新环境条件下鲁棒性的不足，通过按需合成数据训练来弥补知识差距，从而恢复性能。