知来者逆-优快云博客

原创计算机视觉——从环境配置到跨线计数的完整实现基于 YOLOv12 与质心追踪器的实时人员监控系统

本文档聚焦 YOLOv12 模型在实时人员追踪监控场景的应用，系统阐述了一套从技术原理到工程实现的完整解决方案。首先介绍 YOLOv12 的核心优势 —— 作为首个融合注意力机制的 YOLO 模型，其集成 RELAN 骨干网络、区域注意力及可选的 FlashAttention 技术，在保持 YOLO 系列高速推理特性的同时，提升了复杂场景下的目标检测精度，且兼容目标检测、分割、姿态估计等多任务，为实时监控应用奠定基础。

2025-10-24 17:04:35 1337 5

原创计算机视觉——从YOLO系列演进到YOLOv12架构创新、注意力机制优化、推理实践与性能基准

YOLO（You Only Look Once）系列作为实时目标检测领域的标杆，始终致力于平衡检测速度与精度。从 YOLOv8 到 YOLOv11，每一代模型均通过架构优化实现性能突破，而 YOLOv12 更是首次将注意力机制引入核心设计，在保持实时性的同时突破传统 CNN 架构的局限。本章将首先梳理 YOLO 系列的关键演进，为理解 YOLOv12 的创新奠定基础。

2025-10-12 14:19:09 1344 1

原创 YOLOv8提升小目标检测策略——专为微小目标检测设计的 IoU 替代方案NWD原理解析、YOLO代码集成与验证

所提出的 NWD 度量方法可轻松嵌入到任何基于锚点的检测器的分配、非极大值抑制和损失函数中，以替代常用的 IoU 度量。在用于微小目标检测的新数据集（AI-TOD）上的评估表明，采用 NWD 度量方法后，性能比标准微调基线高出 6.7 个 AP 点，比最先进的竞争对手高出 6.0 个 AP 点。

2025-09-18 13:23:41 1179

原创 YOLOv8提升小目标检测策略 —— EFC（增强层间特征关联）与 FCM（特征互补映射）的原理与算法代码实现

EFC（增强层间特征关联）：通过层间相关性增强与特征重构，减少冗余信息，突出小目标特征，提升复杂场景下的检测能力。FCM（特征互补映射）：融合浅层空间位置信息与深层语义信息，缓解小目标信息丢失，优化定位精度，尤其适用于航拍等场景。文档包含原理解析、核心代码、配置方法和实验结果，便于快速理解和应用两种模块。

2025-09-16 12:33:36 661

原创 YOLOv8提升小目标检测策略——详细记录从 HCF-Net 的 DASI/PPA 到 SPD-Conv、MSCA 及 BoTNet加EMA优化原理到代码实现方法

本文围绕 YOLOv8 小目标检测性能提升展开，详细介绍了多种创新改进方案。包括 HCF-Net 中的维度感知选择性整合模块（DASI），其通过信道分区选择机制，自适应融合高维、低维和当前层特征，依据目标特征灵活侧重细粒度或上下文信息；HCF-Net 的小目标并行化注意力设计（PPA），采用多分支特征提取（局部分支、全局分支、串行卷积分支）和分层融合策略，增强小目标特征表示；SPD-Conv 空间深度转换卷积，通过空间到深度层和非步长卷积，替代传统步长卷积与池化层，避免细粒度信息丢失。

2025-09-12 14:05:26 502

原创视觉语言模型应用开发——Qwen 2.5 VL模型视频理解与定位能力深度解析及实践指南

Qwen 2.5 VL 模型在视频理解领域的突破，不仅体现在技术创新层面，更在于其将复杂的视频分析任务变得更加易用和高效。未来，随着模型性能的进一步提升和应用场景的不断拓展，Qwen 2.5 有望在智能监控、内容创作、教育培训等多个领域发挥重要作用，推动视频理解技术的实际应用和产业发展。

2025-09-08 14:52:48 1558 2

原创视觉语言模型应用开发——Qwen 2.5 视觉语言模型的零样本学习能力在多模态内容审核中的实践研究

近年来，视觉语言模型（VLMs）经历了从专用架构到通用模型的范式转变。早期模型（如 Visual BERT、ViLBERT）采用双编码器结构，需针对特定任务进行微调；而新一代 VLMs（如 GPT-4o、Qwen 2.5）采用统一的 Transformer 架构，实现了多模态输入的端到端处理。小型化已成为 VLMs 发展的重要趋势。如图 3 所示，Phi3.5-Vision、PaliGemma 3B、Qwen2.5-VL-3B 等模型在保持高性能的同时，将参数量控制在 10B 以内，显著降低了部署门槛。

2025-08-27 16:04:52 1053

原创多模态大模型——Qwen2.5-Omni端到端实时多模态智能的技术架构与实现机制

Qwen2.5-Omni是阿里巴巴开发的多模态AI模型，支持文本、图像、音频和视频的实时处理与生成。其核心是Thinker-Talker框架：Thinker负责推理和文本生成，Talker专攻语音合成。创新点包括TMRoPE机制实现跨模态时间同步，以及流式优化设计降低延迟。模型训练分三阶段：编码器对齐、跨模态整合和长序列支持。该模型采用ChatML对话格式，适用于智能助手等实时交互场景，在架构设计和多模态处理能力上具有显著优势。

2025-08-26 13:39:35 1362

原创大语言模型应用开发——利用OpenAI函数与LangChain结合从文本构建知识图谱搭建RAG应用全流程

从文本等非结构化数据中提取结构化信息并非新鲜事物，但大语言模型（LLMs）为该领域带来了重大变革。以往需要机器学习专家团队策划数据集并训练自定义模型，如今只需访问LLM即可实现，显著降低了技术门槛，让曾仅限领域专家使用的技术对非技术人员也更加友好。

2025-08-23 20:20:10 1096 3

原创视觉语言大模型应用开发——基于 CLIP、Gemini 与 Qwen2.5-VL 的视频理解内容审核全流程实现

本文提出了一种基于多模型协同的视频处理框架，整合CLIP、Gemini和Qwen2.5-VL模型，实现高效视频内容审核与智能摘要生成。系统采用"检测-解释-总结"三阶段流水线，通过CLIP进行帧级违规内容识别（F1-score 0.91），Gemini生成结构化解释，Qwen2.5-VL输出内容摘要（ROUGE-L 0.76）。优化后的单视频处理延迟低于1.2秒，且帧采样数量减少60%仍保持95%内容覆盖率，满足实时处理需求。实验表明该框架在识别准确率和摘要质量上表现优异，为视频内容管理

2025-08-22 15:47:55 1914

原创面向复杂场景的人脸识别——AdaFace 模型的理论基础与从数据到部署的实践路径

人脸识别技术作为深度学习在计算机视觉领域的重要分支，近年来在算法性能与实际应用中均取得了显著突破，已广泛渗透到安全防护、金融服务、智能终端等多元领域。模型的性能表现与环境鲁棒性作为决定其部署价值的核心指标，始终是研究与工程实践的焦点。AdaFace 作为当前先进的人脸识别框架，创新性地引入自适应特征归一化（Adaptive Feature Normalization）机制，显著提升了模型对复杂场景的泛化能力，为解决实际应用中的挑战性问题提供了有效方案。

2025-08-21 12:25:48 981

原创 YOLOv8 姿态估计模型的 OpenVINO 部署——从 IR 格式转换、精度评估到 NNCF 量化部署及性能对比

本文介绍了将YOLOv8姿态估计模型转换为OpenVINO IR格式并利用NNCF工具进行8位量化的完整流程。通过安装必要的依赖包，定义可视化工具函数绘制边界框和关键点，并准备测试数据进行验证。文中详细展示了模型转换、推理验证、精度评估及量化优化的技术方案，为计算机视觉领域的姿态估计部署提供了实用参考。实验结果表明，量化后的模型在保持精度的同时显著提升了推理性能。

2025-08-20 11:45:50 703

原创姿态估计进阶：从 YOLO-NAS Pose 到 YOLOv8 Pose的技术探索与实践

摘要： YOLO-NAS Pose是Deci AI基于神经架构搜索（NAS）技术开发的新一代姿态估计模型，通过AutoNAC引擎优化架构，在精度与效率上超越YOLOv8 Pose。该模型提供四种尺寸变体，适配不同硬件需求，支持图像、视频等多源数据输入。实验显示其在直立人形检测中表现优异，但在水平姿态场景下略逊于YOLOv8。此外，文章还探讨了基于YOLOv8 Pose的瑜伽姿势分类实践，包括数据集准备与训练流程。YOLO-NAS Pose为实时姿态估计设定了新标杆，但在特定场景仍有优化空间。

2025-08-19 16:59:10 923

原创从 3DCNN 到 Vision Transformer——视频动作识别技术的演进与 ViT 的突破性应用

视频处理是计算机视觉领域的重要研究方向，其中动作识别尤为关键，可用于安防监控、自动驾驶等多种场景。传统3D卷积神经网络(3DCNN)虽能处理视频数据，但存在无法捕捉长程依赖关系等局限。Vision Transformer(ViT)通过自注意力机制有效解决了这一问题，能学习视频帧间更广泛的上下文关系。研究表明，ViT在手术视频动作识别中表现优异，可准确分类手术子阶段、手势和技能水平，性能优于传统模型。这一突破为医疗、安防等领域的视频分析应用提供了新思路，展现了ViT在复杂动作识别任务中的巨大潜力。

2025-08-18 11:56:42 957

原创微调 AnomalyCLIP——基于对象无关提示学习与全局 - 局部优化的零样本异常检测框架性能验证

AnomalyCLIP 针对传统视觉语言模型在零样本异常检测（ZSAD）中的局限，通过三项关键创新突破挑战：采用对象无关的提示学习，以 “正常的对象”“损坏的对象” 等通用模板替代特定类别提示，摆脱对对象语义的依赖；引入对角突出注意力图（DPAM），通过值 - 值（V-V）注意力增强对细粒度异常的捕捉；利用全局 - 局部上下文优化，结合图像级分类损失与像素级分割损失，兼顾异常判断与定位。

2025-08-17 14:54:32 1538

原创基于CNN 的人体动作检测：训练过程、结果可视化及模型测试

本文介绍了一种基于深度学习的视频动作识别方法，使用Weismann数据集对7种人体动作（弯曲、开合跳、跳跃等）进行分类。该方法通过CNN提取视频帧的时空特征，构建序列模型进行分类。实施步骤包括：1)安装依赖项并整理数据集；2)创建标签和加载数据；3)构建CNN模型；4)分割训练集和验证集。该技术可应用于医疗监测、跌倒检测、安防监控等多个领域。实验结果显示，模型在3390个视频实例上实现了有效分类，训练集和验证集分别包含3051和339个样本。

2025-08-15 16:23:09 795

原创视觉语言大模型应用开发——基于Qwen2.5-VL 实现视觉语言模型在目标检测中的层级结构与实现方法

目标检测作为计算机视觉领域的核心任务，传统方法依赖于 YOLO 等视觉模型对预定义类别进行位置预测。然而，此类方法受限于预训练类别体系，难以实现灵活的视觉交互。视觉语言模型（Vision-Language Models, VLMs）的问世打破了这一局限，其具备跨模态理解能力，能够实现图像与自然语言的双向交互，为目标检测领域带来范式革新。本文系统探讨基于 VLM 的目标检测技术，重点研究 Qwen2.5-VL 模型的技术特性与应用方法。

2025-08-14 15:51:01 2016 1

原创视觉语言模型的空间推理缺陷——AI 在医学扫描中难以区分左右

最新研究发现，主流AI视觉语言模型（如GPT-4o）在医学影像诊断中存在重大缺陷。测试显示，这些模型往往依赖先验解剖学知识而非实际图像内容，导致在判断器官位置时准确率接近随机水平（50%）。当图像被旋转或翻转时，模型仍会给出标准解剖位置的错误答案。研究发现，使用视觉标记（如字母、数字或色点）并移除解剖术语后，模型准确率可提升至75%-85%。这表明当前AI系统可能无法正确处理非常规病例（如内脏反位），存在严重误诊风险。该研究由德美团队完成，相关数据集已公开发布。

2025-08-07 15:45:02 744

原创 LLM开发——语言模型会根据你的提问方式来改变答案

牛津大学研究发现，主流开源AI聊天模型存在隐藏偏见：根据用户语言中隐含的种族、性别等信息，在医疗、法律、薪资等关键领域给出差异化回答。研究测试了Meta的Llama3和阿里巴巴的Qwen3模型，发现：非白人用户更常被建议就医，但薪资建议更低非二元性别者获得法律建议概率更低模型会从语言风格推断用户身份并调整回答研究警告这种隐蔽偏见可能影响AI在医疗诊断、法律咨询等领域的应用公正性，呼吁开发新工具检测此类社会语言偏见。

2025-08-05 22:32:16 852

原创 LLM开发——基于Graph RAG知识图谱检索增强生成

Graph RAG：知识图谱增强的智能搜索新范式摘要：Graph RAG（检索增强生成）通过整合知识图谱和大型语言模型（LLM），为传统搜索技术带来革命性突破。相比基于向量检索的原始RAG方法，Graph RAG利用结构化知识图谱中的节点（实体）和边（关系），显著提升了搜索的上下文理解能力、推理深度和领域适应性。本文系统阐述了Graph RAG的技术原理，包括知识图谱构建、图嵌入表示、LLM集成等关键技术环节，并通过NebulaGraph等图数据库的应用案例，展示了其在处理复杂查询和专业领域搜索中的优势。

2025-08-04 23:58:18 1342 2

原创 Text2SQL在Spark NLP中的实现与应用：将自然语言问题转换为SQL查询的技术解析

SQL 作为行业中最受欢迎的技能之一，随着数据量的指数级增长，其重要性日益凸显。然而，许多人缺乏编写 SQL 查询的知识或时间，导致大量数据无法被有效利用。Text2SQL 技术旨在通过自然语言接口，让用户能够直接用人类语言查询数据，从而简化这一过程。尽管当前最先进的模型在复杂数据集（如 Spider）上的准确率仅为 70%，但这一领域仍在不断发展。Spark NLP 作为增长最快的自然语言处理库之一，通过实现 IRNet 算法，提供了 Text2SQL 功能，帮助用户将自然语言查询转换为 SQL 语句。

2025-05-19 16:11:45 1592 1

原创 LLM开发——生成式智能体（Agents）的架构、工具与应用白皮书

宽泛地来说，生成式 AI Agent 可以被定义为一个**应用程序**，通过**观察周围世界并使用可用的工具来实现其目标**。* Agent 是有自主能力的（autonomous），只要提供了合适的目标，它们就能独立行动，无需人类干预；* 即使是模糊的人类指令，Agent 也可以推理出它接下来应该做什么，并采取行动，最终实现其目标。在 AI 领域，Agent 是一个非常通用的概念。本文接下来要讨论的 Agent 会更具体，指的是本文写作时，**基于生成式 AI 模型能够实现的 Agen

2025-05-18 20:43:59 935

原创深度解析Diffusion Models模型——从原理、架构与条件生成技术到应用探索

扩散模型（Diffusion Model）是一种新兴的生成模型，通过模拟数据的扩散和去噪过程，能够从随机噪声中生成清晰、逼真的图像。其核心思想是通过逐步添加高斯噪声破坏数据，再学习逆转这一过程以恢复数据。与生成对抗网络（GAN）和变分自编码器（VAE）相比，扩散模型在生成多样性和训练稳定性上具有优势。扩散模型的发展得到了科技巨头的广泛关注，如OpenAI的DALL-E 2和Google的Imagen等应用展示了其在文本到图像生成领域的潜力。

2025-05-16 11:24:59 1475

原创在YOLOv5/YOLOv8数据集上应用数据增强的方法与代码实现结果

数据增强是机器学习或深度学习中的一种技术，通过应用各种变换（如翻转、旋转、改变亮度/对比度等）从现有数据创建新数据。它通常用于计算机视觉任务，但也适用于自然语言处理和语音识别等领域。

2025-05-15 23:52:20 1354

原创全面解析机器学习与深度学习中的模型权重文件格式与应用场景

模型权重文件格式在存储、共享和部署训练模型中的重要性日益凸显。这些格式不仅保存模型的学习参数，还支持模型的可复现性和跨平台部署。本文探讨了多种流行的模型权重文件格式，如PyTorch的.pt/.pth、TensorFlow的.ckpt、Keras的.h5、跨平台的.onnx等，分析了它们的起源、结构、用例及优势

2025-05-15 14:40:10 1323

原创 AI 在模仿历史语言方面面临挑战：大型语言模型在生成历史风格文本时的困境与研究进展

为了探索 AI 在生成具有历史准确性文本方面的潜力，研究人员尝试了多种方法。他们从使用 20 世纪早期的散文对模型进行简单提示入手，逐步深入到对商业模型在该时期的少量书籍上进行微调。此外，他们还将这些结果与一个完全在 1880 年至 1914 年间出版的书籍上训练的独立模型进行了对比分析。

2025-05-12 22:13:40 911

原创计算机视觉——MedSAM2医学影像一键实现3D与视频分割的高效解决方案

MedSAM2 是医学影像分析领域的一项重大突破，通过深度学习和先进的图像处理技术，显著提升了医学影像分割的效率和准确性。它能够自动识别和分割医学影像中的各种结构，无论是复杂的器官还是微小的病变，极大地简化了传统手动分割的繁琐过程。MedSAM2 的核心优势在于其强大的自动化能力和实时处理能力，能够在几秒钟内完成对大量影像数据的分析，为临床决策提供即时支持。在实际应用中，MedSAM2 已广泛应用于肿瘤治疗、急诊室诊断等多个场景，帮助医生快速识别病变区域，制定精准的治疗方案。

2025-05-09 12:06:59 2884 1

原创 LLMs模型应用研究——从元数据到预测电影大片票房的实践

尽管影视行业通常被视为富有创意且开放的领域，但它们长期以来一直对风险持谨慎态度。高昂的制作成本（美国项目可能很快会失去海外低成本拍摄地的优势）以及分散的制作格局，使得独立公司难以承受重大损失。因此，在过去十年中，该行业对机器学习是否能够检测观众对影视项目的反应趋势或模式越来越感兴趣。主要的数据来源仍然是尼尔森系统（尽管其基础在于电视和广告，但具有规模优势）以及基于样本的方法，例如焦点小组，这些方法以牺牲规模为代价换取特定人群的代表性。后一类还包括来自免费电影预览的评分反馈——然而，到那时，大部分制作预算已经

2025-05-08 09:44:30 804

原创在与大语言模型交互中的礼貌现象：技术影响、社会行为与文化意义的多维度探讨

目前，对于面向消费者的 LLM 的礼貌问题，似乎要么从（实用主义）的角度出发，认为经过训练的系统可能会对礼貌的询问做出更有用的回应；要么认为与这些系统进行无礼和粗鲁的交流会通过习惯的力量延续到用户的现实社交关系中。可以说，LLM 尚未在现实世界的社交环境中得到广泛使用，研究文献尚未确认后一种情况；但这篇新论文确实对将这种类型的人工智能系统拟人化的益处提出了有趣的质疑。去年十月斯坦福大学的一项研究（与2020年的一项研究。

2025-05-06 21:22:56 1013 2

原创基于 AI 的人像修复与编辑技术：CompleteMe 系统的研究与应用

加利福尼亚大学默塞德分校与 Adobe 的新合作在领域取得了突破性进展——人像补全是一项备受关注的任务，旨在“揭示”人像中被遮挡或隐藏的部分，可用于虚拟试穿、动画制作和照片编辑等场景。除了修复损坏的图像或根据用户意愿更改图像外，人像补全系统（如 CompleteMe）还可以将新服装（通过附加参考图像，如这两个示例中的中间列）引入现有图像。这些示例来自新论文的详细补充 PDF。

2025-05-04 21:22:35 1187 1

原创计算机视觉——基于树莓派的YOLO11模型优化与实时目标检测、跟踪及计数的实践

YOLO11模型是专门为边缘设备优化的目标检测模型，与YOLOv8相比，它在显著降低模型复杂度（最多降低37%）的同时，仍保持了较高的检测精度（约85%的平均精度均值）。这种优化使得YOLO11能够在资源受限的树莓派上实现高效的实时目标检测，为边缘设备上的复杂计算机视觉任务提供了可能。其轻量级的模型结构和高效的推理性能，使其成为在树莓派上部署目标检测应用的首选模型之一。

2025-05-01 18:19:05 5389 3

原创深入剖析扩散模型对镜子反射理解局限：MirrorVerse 项目改进数据集与训练方法以提升反射处理表现的研究

自从生成式人工智能开始引起公众关注以来，计算机视觉研究领域对开发能够理解和复制物理定律的人工智能模型的兴趣日益浓厚。然而，教导机器学习系统模拟诸如重力和等现象的挑战，至少在一直是研究工作的重点。自2022年（LDMs）主导生成式人工智能领域以来，研究人员LDM架构在理解和再现物理现象方面的有限能力。如今，随着OpenAI具有里程碑意义的生成式视频模型的推出，以及开源视频模型和的发布（后者可能影响更为深远），这一问题变得更加突出。

2025-04-29 11:30:28 966 1

原创计算机视觉——通过 OWL-ViT 实现开放词汇对象检测

传统的对象检测模型大多是封闭词汇类型，只能识别有限的固定类别。增加新的类别需要大量的注释数据。然而，现实世界中的物体类别几乎无穷无尽，这就需要能够检测未知类别的开放式词汇类型。对比学习（Contrastive Learning）使用成对的图像和语言数据，在这一挑战中备受关注。著名的模型包括 CLIP，但将其应用于物体检测，如在训练过程中处理未见类别，仍然是一个挑战。本文使用标准视觉转换器（ViT）建立了一个开放词汇对象检测模型——开放世界定位视觉转换器（OWL-ViT），只做了极少的修改。

2025-04-28 22:44:36 1483

原创 LLM开发——基于DeepSeek R1 和 Qwen 构建智能检索增强生成系统

在人工智能社区中，DeepSeek R1 作为一个具有革命性的开源推理大语言模型（LLM）引起了广泛关注。尽管大多数讨论都集中在它的原始能力上，但很少有人探索它在智能工作流中的潜力——即多个模型动态协作的系统。（70 亿参数的蒸馏模型）：用于复杂推理。阿里巴巴的 Qwen 2.5（70 亿参数）：用于快速对话流程。一个轻量级的智能体框架来协调它们。推理模型是智能体系统的核心，使它能够做出决策并从知识库中生成有见地的回答。

2025-04-27 21:56:46 1147

原创计算机视觉——对比YOLOv12、YOLOv11、和基于Darknet的YOLOv7的微调对比

目标检测领域取得了巨大进步，其中YOLOv12、YOLOv11 和基于 Darknet 的 YOLOv7在实时检测方面表现出色。尽管这些模型在通用目标检测数据集上表现卓越，但在HRSC2016-MS（高分辨率舰船数据集）上对 YOLOv12 进行微调时，却面临着独特的挑战。本文提供了一个详细的端到端流程，用于在 HRSC2016-MS 上微调 YOLOv12、YOLOv11 和基于 Darknet 的 YOLOv7。

2025-04-26 22:43:18 4999 14

原创计算机视觉——速度与精度的完美结合的实时目标检测算法RF-DETR详解

目标检测已经取得了长足的发展，尤其是随着基于 Transformer 的模型的兴起。，由 Roboflow 开发，就是这样一种模型，它兼顾了速度和精度。使用 Roboflow 的工具可以让整个过程变得更加轻松。他们的平台涵盖了从上传和标注数据到以正确格式导出数据的全过程。这意味着你可以节省设置的时间，将更多的时间用于训练和改进模型。

2025-04-24 10:30:24 2910 2

原创解读大型语言模型：从Transformer架构到模型量化技术

你可能会好奇，LLMs是如何学得如此之好的？LLMs最关键的成分是什么？答案是Transformer架构，它在论文“Attention is All You Need”中被提出。当然，还有其他同样重要的元素，例如LLMs使用的海量数据和训练算法，但Transformer架构是使现代LLMs能够充分利用其他组件的关键组成部分。与之前用于生成式人工智能任务的循环神经网络（RNNs）相比，使用Transformer架构可以显著提高性能。

2025-04-23 13:39:00 1047

原创人工智能中的注意力机制：原理、起源、发展及实现详解

在人工智能领域，注意力机制（Attention Mechanism）作为一种关键的技术，正在逐渐改变我们对模型处理数据方式的理解。本文将深入探讨注意力机制的原理、起源、发展以及其实现方式，旨在为读者提供一个全面且易于理解的视角。注意力机制的概念源于人类的认知过程。当人们面对复杂的信息时，往往会选择性地关注与当前任务最相关的部分，而忽略其他不重要的内容。这种能力使得人类能够在有限的认知资源下高效地处理信息。

2025-04-22 10:56:23 1504

原创计算机视觉——利用AI幻觉检测图像是否是生成式算生成的图像

俄罗斯的新研究提出了一种非常规方法，用于检测不真实的AI生成图像——不是通过提高大型视觉-语言模型（LVLMs）的准确性，而是故意利用它们的。这种新方法使用LVLMs提取图像的多个“原子事实”，然后应用（NLI），系统地衡量这些陈述之间的矛盾——有效地将模型的缺陷转化为检测违背常识的图像的诊断工具。WHOOPS!数据集中两张图片与LVLM模型自动生成的陈述。左侧图片是真实的，导致描述一致，而右侧不寻常的图片导致模型产生幻觉，产生矛盾或错误的陈述。

2025-04-21 16:35:45 1468 1

原创 PointCore——利用局部全局特征的高效无监督点云异常检测器论文与算法解读

三维点云异常检测旨在从训练集中检测出异常数据点，是工业检测、自动驾驶等众多应用的基础。然而，现有的点云异常检测方法通常采用多个特征存储库来充分保留局部和全局特征表示，这带来了高昂的计算成本以及特征之间的不匹配问题。为解决这些问题，我们提出了一种基于联合局部 - 全局特征的无监督点云异常检测框架PointCore。具体而言，PointCore仅需一个存储库来存储局部（坐标）和全局（PointMAE）特征表示，并为这些局部 - 全局特征分配不同的优先级，从而降低推理过程中的计算成本和不匹配干扰。

2025-04-19 23:33:28 1346 5

基于人脸检测与人脸关键点检测的人脸3维重建

3DDFA-V3的关键思想是将目标和预测的部件分割转化为语义点集，通过优化点集的分布来确保重建区域和目标具有相同的几何形态。具体来讲，3DDFA-V3提出了部件重投影距离损失(Part Re-projection Distance Loss, PRDL)。PRDL按照区域 left-eye, right-eye, left-eyebrow, right-eyebrow, up-lip, down-lip, nose, skin对人脸进行分块，针对二维部件分割的每个部分，PRDL首先在分割区域内采样点，得到目标点集。然后，PRDL将三维人脸重建结果重新投影到图像平面上，并根据人脸模型的masks获得与目标区域语义一致的预测点集│，是人脸模型的系数。接着PRDL对图像平面的网格点进行采样，得到锚点集合，并计算任意一个锚点到点集的各种统计距离（如最近距离、最远距离、平均距离等）来建立几何描述子。工程是Vs2019 C++，包含模型和依赖的库，下载直接运行。

2024-10-29

单目深度估计DepthAnything C++模型部署

单目深度估计（Monocular Depth Estimation, MDE）是一项在计算机视觉领域中非常重要的技术，它旨在从单张图像中恢复出场景的三维结构。这项技术对于机器人导航、自动驾驶汽车、增强现实（AR）和虚拟现实（VR）等应用至关重要。 "DepthAnything"是TikTok、香港大学和浙江大学共同研发的一种先进单目深度估计技术。这项技术能够从2D图像中提取深度信息，并将其转换为3D影像。与传统的MDE技术相比，"DepthAnything"在提高深度图质量方面取得了显著进步，这使得它能够更准确地估计场景的深度信息。这种技术的应用前景非常广泛：增强现实（AR）和虚拟现实（VR）：通过将2D图像转换为3D，可以为用户创造更加沉浸式的体验。机器人和自动驾驶汽车：更准确的深度估计可以帮助机器人和自动驾驶汽车更好地理解周围环境，从而提高它们的导航和决策能力。内容创作：摄影师和视频制作者可以使用这项技术将普通2D内容转换为3D，增加作品的吸引力和互动性。工程是vs2022,语言是C++,包含了所有的依赖库，下载直接运行就可以了。

2024-08-05

基于yolov8的面部七种表情识别C++部署工程

七种表情识别是一个多学科交叉的研究领域，它结合了心理学、认知科学、计算机视觉和机器学习等学科的知识和技术。 - **表情的定义**：表情是人们在情绪体验时面部肌肉活动的结果，是人类情感交流的基本方式之一。 - **基本表情理论**：心理学家Paul Ekman提出，人类有七种基本情绪，每种情绪都有其特定的面部表情模式。 ### 七种基本表情 1. **快乐**：通常与积极情绪相关，特征是嘴角上扬，眼睛周围肌肉收缩。 2. **悲伤**：与失落或痛苦相关，特征是眉毛下垂，嘴角下拉。 3. **愤怒**：与愤怒或挫败相关，特征是眉毛下压，嘴唇紧闭。 4. **惊讶**：与意外或震惊相关，特征是眼睛和嘴巴张开。 5. **恐惧**：与害怕或焦虑相关，特征是眼睛瞪大，眉毛提升。 6. **厌恶**：与反感或不喜欢相关，特征是上唇提升，嘴角下拉。 7. **轻蔑**：与鄙视或不屑一顾相关，特征是嘴角一侧上扬。

2024-08-04

万物分割（Segment Anything Model）C++模型推理部署

SAM 的独特之处之一是它具有执行全景分割的能力，这涉及将实例分割和语义分割相结合。实例分割涉及识别和划分图像内每个物体实例，而语义分割涉及为图像中的每个像素标记相应的类别标签。全景分割将这两种方法结合起来，以提供对图像更全面的理解。 SAM 的另一个关键特点是其灵活性。该模型可以针对特定的用例和领域进行微调，使其高度适应性。 SAM 的架构也非常高效，使其能够实时处理大量数据。这使其非常适合需要快速准确的图像分割的应用，例如安全监控、工业自动化和机器人技术。代码是Vs 2022 完整项目，包含整个依赖，下载之后直接运行就可以。

2024-08-02

盲道检测分割C++推理代码

盲道是视障人士安全出行的重要辅助设施。识别盲道的形状和位置，对于增强视障人士的自主移动能力至关重要，而视觉分割技术正是应对这一挑战的有效工具。为了显著提升盲道分割的精确度和稳定性，本文提出了一种创新的分割方法，该方法融合了UNet网络与多尺度特征提取技术。本方法在UNet架构中引入了组感受野块（GRFB）的设计，用以捕获盲道的多级视觉信息。通过应用组卷积，该方法有效降低了计算的复杂度。此外，在每个组卷积之后引入了小尺度卷积，以促进不同通道间的信息交流和融合，进而提取更为丰富和高层次的特征。在本研究中，我们构建并标注了一个包含多种环境条件下盲道的数据集，用以进行实验评估。我们还对本方法与现有的典型网络结构和模块进行了详尽的比较分析。实验结果表明，我们提出的网络在盲道分割任务上的表现超越了其他对比网络，为盲道的检测提供了一个有力的参考，这不仅证明了本方法的有效性，也为视障人士的导航辅助技术的发展做出了贡献。

2024-08-01

深度学习图像处理客户端与服务器.rar

代码包含了基于TCP的客户端与服务器端，功能是是基于OpenCV C++与Yolov5 face实现一个完整的深度学习模型推理部署与推流的过程。代码使用C++实现，包含所有用到的库与模型。

2024-07-29

低光照图像增强vs2019 C++代码

低光照图像增强（LLIE）是计算机视觉（CV）领域的一个重要且具有挑战性的任务。在低光照条件下捕获图像会显著降低其质量，导致细节和对比度的丧失。这种退化不仅会导致主观上不愉快的视觉体验，还会影响许多CV系统的性能。LLIE的目标是在提高可见度和对比度的同时，恢复暗环境中固有的各种失真。低光照条件指的是环境场景中的光照水平低于实现最佳可见性的标准要求。然而，在实际应用中，到目前为止，还无法确定特定的理论值来明确界定低光照环境。因此，对于识别和量化构成低光照条件的标准，尚未有统一的规定。 LLIE在各种计算机视觉任务中发挥着重要作用，如特征提取或基于内容的识别。此外，它还是更复杂系统在诸如医学成像、移动遥感、视频监控系统等不同领域中一个关键步骤。 LLIE解决方案随着卷积神经网络（CNN）的发展而进步，所提出的解决方案主要分为两类参考博客：http://t.csdnimg.cn/1Ny16

2024-07-31

yolov5-v7.0河道漂浮物检测.rar

河流作为水环境中的重要组成部分，在供给水源、维持生态、美化景观等诸多方面扮演着不可或缺的角色。但是，目前人类活动和自然因素导致河面频繁出现大量漂浮物，严重破坏了河道景观和水生态环境，已成为河道监管中重点关注的问题。在国内各省市全面推行落实“河长制”政策的背景下，很多地方开始采用摄像头进行河湖可视化监管以促进河湖面貌改善，但是人工参与程度依然较高，单纯依靠人力观看大量的监控资料来判断河湖状况。在这种情况下，推动当前河道视频分析的智能化与无人化已成为河流长效管护的迫切需求。但是，河流环境本身复杂多样，例如，河流结构性差、易受动态光影和水波扰动等噪声的影响，现有的视觉方法应用至水面漂浮物监测任务中仍存在一些问题需要解决。围绕上述需求及难点，本文开展了基于视觉分析的河道漂浮物检测与跟踪方法研究，并进行了实验应用。使用的算法是yolov5 v7.0这个版本，里面包含了5000多张已经标注好的数据集，下载之后直接训练就可以，算法训练可参考：https://blog.youkuaiyun.com/matt45m/article/details/138141616?spm=1001.2014.3001.5502

2024-04-24

YOLOv8与DeepSORT实现目标追踪

YOLOv8是一种基于图像全局信息进行预测并且它是一种端到端的目标检测系统，最初的YOLO模型由Joseph Redmon和Ali Farhadi于2015年提出，并随后进行了多次改进和迭代，产生了一系列不同版本的YOLO模型，如YOLOv2、YOLOv3、YOLOv4，YOLOv5等。这些更新和迭代旨在提高模型的性能、精度和速度，使其在实际应用中更具竞争力。 YOLOv8的核心思想是将图像划分为网格，并在每个网格单元中预测物体的边界框和类别。这种设计使得YOLO非常适合实时目标检测应用，因为它可以在较短的时间内完成目标检测任务。多目标跟踪往往面临一些挑战，例如需要同时跟踪多个目标、目标可能频繁遮挡，这些因素使得目标跟丢成为一个常见问题。为了解决这些问题，可以借助跟踪器 DeepSORT 以及检测器 YOLO v8，从而构建一个高性能的实时多目标跟踪模型。参考博客：https://blog.youkuaiyun.com/matt45m/article/details/134237238#comments_32297294

2024-04-18

手机目标检测数据集.rar

这是一个手机目标检测的数据集，数据集的标注工具是labelimg,数据格式是voc格式，要训练yolo模型的话，可以使用脚本改成txt格式，数据集标注了手机，标签名：telephone,数据集总共有1960张，有一部分是直实数据，有一部分是是真实数据。数据集下载之后就可以直接使用。

2024-04-14

标注扑克牌目标识别数据集

这是一个检测扑克牌种类的数据集，检测种类目前只有6种，分别是 ``` "queen", "ten", "nine", "king", "jack", "ace" ``` 数据集共含有363张图片，标注的工具是labelimg，数据标签是xml。

2024-04-13

实时语义分割ENet算法Pytorch复现与模型训练

ENet架构是专为语义分割而设计的。与成熟的深度学习工作站相比，主要目标是有效利用嵌入式平台上可用的稀缺资源。Enet工作在完成此任务方面取得了很大的收获，与此同时，匹配并有时超过了现有的baseline，这些baseline对计算和内存的要求更高。ENet在NVIDIA TX1硬件上的应用体现了实时便携式嵌入式解决方案。即使主要目标是在移动设备上运行网络，它在NVIDIA Titan X等高端GPU上也非常有效。在需要处理大量高分辨率图像的数据中心应用中，这可能被证明是有用的。ENet允许以更快，更高效的方式执行大规模计算，这可能会节省大量资金。资源是对论文的复现，可用于时实语义分割，转了模型之后可以部署在边缘设备上，关于算法的应用与理解可以参考个人的博客。里面有详细的介绍与训练方向。

2024-04-10

基于深度学习实现的复杂背景文档二值化的算法实现

阈值分割可以被视为一个分类问题，通常涉及两个类别，这也是为什么阈值分割也被称为二值化。对于文档图像，我们期望阈值算法能够正确地将墨水分类为黑色，将纸张分类为白色，从而得到二值化图像。对于数字灰度图像，最简单的实现方法是选择一个阈值值，比如图像二值化，并将高于这个值的灰度级别分配为白色，将剩余的级别分配为黑色。问题在于正确找到这个值，以便能够完美匹配前景和背景元素。在这里将探讨如何通过使用基于卷积神经网络（CNN）的U-Net架构训练的模型进行分类，来实现具有不同类型问题的文档二值化。CNN的典型用途在于分类任务，其中对图像的输出是一个单一的类别标签。然而，在许多视觉任务中，期望的结果不仅包括图像中物体是否存在，还包括其定位，即每个像素都应该被分配到一个类别标签。

2024-04-10

夜晚图像雾霾图像增强C++/python部署

在夜间雾霾场景中，可见性经常受到低光照、强烈光晕、光散射以及多色光源等多种因素的影响而降低。现有的夜间除雾方法常常难以处理光晕或低光照条件，导致视觉效果过暗或光晕效应无法被有效抑制。本文通过抑制光晕和增强低光区域来提升单张夜间雾霾图像的可见性。为了处理光晕效应，我们提出了一个光源感知网络来检测夜间图像的光源，并采用APSF（大气点扩散函数）引导的光晕渲染。我们的框架在渲染图像上进行训练，实现了光晕的抑制。此外，我们还利用梯度自适应卷积来捕捉雾霾场景中的边缘和纹理。通过提取的边缘和纹理，我们在不丢失重要结构细节的情况下增强了场景的对比度。为了提升低光强度，我们的网络学习了一个注意力图，然后通过伽马校正进行调整。这个注意力图在低光区域有较高的值，在雾霾和光晕区域有较低的值。通过在真实的夜间雾霾图像上进行广泛的评估，我们的方法证明了其有效性。

2024-04-10

基于NCNN轻量级PaddleOCRv4模型C++推理

PaddleOCR 提供了基于深度学习的文本检测、识别和方向检测等功能。其主要推荐的 PP-OCR 算法在国内外的企业开发者中得到广泛应用。在短短的几年时间里，PP-OCR 的累计 Star 数已经超过了32.2k，常常出现在 GitHub Trending 和 Paperswithcode 的日榜和月榜第一位，被认为是当前OCR领域最热门的仓库之一。 PaddleOCR 最初主打的 PP-OCR 系列模型在去年五月份推出了 v3 版本。最近，飞桨 AI 套件团队对 PP-OCRv3 进行了全面改进，推出了重大更新版本 PP-OCRv4。这个新版本预计带来了更先进的技术、更高的性能和更广泛的适用性，将进一步推动OCR技术在各个领域的应用。参考博客：https://blog.youkuaiyun.com/matt45m/article/details/134713935#comments_32019413

2024-04-02

检测出图像中的几何形状并测量出边长、直径、内角（python和opencv实现）

图像里面的线段测量，首先要理解“每度量比的像素”（pixels per metric ratio），它类似于比例尺，通过已知图像上一个对象的尺寸和该对象在图像中所占像素的数量，可以得到一个比例关系，从而可以将其他物体的像素转换为实际度量单位（如厘米、毫米等）。关键属性包括：已知长度：需要知道图像中一个物体的实际长度，通常是以某种可测量的单位（例如毫米、英寸等）来表示。像素数量：该已知长度物体在图像中所占据的像素数。这可以通过在图像中测量该物体的像素宽度或高度来获取。有了这两个属性，就可以计算出每个度量单位所对应的像素数。这个比例关系将图像中的像素转换为实际的度量单位，从而可以测量其他物体的大小或长度。

2024-03-29

YOLOv8目标检测、语义分割、状态估计、目标追踪模型部署带GUI界面

Ultralytics YOLOv8是一种前沿的、最先进的（SOTA）模型，它在前代YOLO版本的成功基础上进行了进一步的创新，引入了全新的特性和改进，以进一步提升性能和灵活性。作为一个高速、精准且易于操作的设计，YOLOv8在广泛的领域中，包括目标检测与跟踪、实例分割、图像分类以及姿势估计等任务中，都表现出色。实例分割在物体检测的基础上迈出了更进一步的步伐，它不仅可以识别图像中的单个物体，还能够精确地将这些物体从图像的其他部分中分割出来。这是一个集成了YoloV8目标检测、实例分割、姿态估计与目标追踪的项目，界面是用PyQt5写的，可以读入图像，视频与摄像头。可用于对比与参考这几个算法的差异与如何部署。关于源码的运行与部署可以参考博客《YOLOv8项目解析——一文搞定目标检测、语义分割、状态估计、目标追踪算法原理与模型部署》，博客地址：http://t.csdnimg.cn/PbVNu

2024-03-26

图像抠图DIS-自然图像中高精度二分图像抠图的方法（C++推理代码）

二分图像分割（DIS），旨在从自然图像中分割高精度的对象。为此，我们收集了第一个大规模DIS数据集，称为DIS5K，其中包含5470张高分辨率（例如2K、4K或更大）图像，涵盖各种背景中的伪装、突出或精细物体。DIS使用极细粒度的标签进行注释。此外，我们还引入了一个简单的中间监督基线（IS-Net），使用特征级和掩码级指导进行DIS模型训练。IS-Net在建议的DIS5K上优于各种前沿基线，使其成为一个通用的自学习监控网络，可以促进DIS的未来研究。此外，我们设计了一个新的度量，称为人类校正努力（HCE），它近似于纠正假阳性和假阴性所需的鼠标点击操作数。HCE用于测量模型和实际应用程序之间的差距，因此可以补充现有指标。最后，我们进行了最大规模的基准测试，评估了16种具有代表性的分割模型，对对象的复杂性进行了更深入的讨论，并展示了几种潜在的应用（例如背景去除、艺术设计、三维重建）。希望这些努力能为学术界和工业界开辟有希望的方向。

2024-03-24

百度人像抠图C++模型部署完整包

PP-HumanSeg v2人像分割方案是一项重要的突破，采用了深度学习技术，以96.63%的mIoU精度和仅15.86ms的推理耗时，在人像分割领域刷新了SOTA指标。该方案不仅支持商业应用，而且可零成本、开箱即用。相比于之前的版本，PP-HumanSeg v2在推理速度和精度上都有显著提升，肖像分割模型推理速度提升45.5%，mIoU精度提升3.03%。通用人像分割模型推理速度提升5.7%，mIoU精度提升6.5%。通过以上优化措施，PaddleSeg的肖像分割模型在保证分割精度的情况下，大幅减少了参数量，提高了模型的轻量化程度，并且通过全局上下文信息的汇集和特征融合，进一步提升了模型的语义理解能力和分割效果。

2024-03-23

人像自动抠图LFM训练代码与C++推理部署代码

图像抠图（Image Matting）是一个在工业界和视觉研究领域都非常重要的研究课题。从 2000 年开始，对图像抠图及相关研究问题进行了大量研究，产生了一系列对计算机视觉和计算机图形学研究都有深远影响的工作，例如 GrabCut、Guided Filter、Closed Form Matting、Poisson Matting、Bayesian Matting 等。在好莱坞的动作大片、迪士尼的动画巨作、Office 以及 Adobe Photoshop 的一些功能中都能看到抠图算法的应用。解决抠图问题需要我们分别求解出图像的前景、背景和 alpha matte。Alpha matte 即我们常说的 alpha 通道，基于 alpha 通道我们可以将前景和任意背景进行重新组合得到新的图像。因此，alpha matte 是和原图同大小的一个单通道图像，每个像素都对应于原 RGB 图像相同位置像素的 alpha 值。关于算法解析与实现具体步骤可看我的博客《人像抠图PP-Matting——支持多场景精细化高精度人像抠图（C++模型推理）》

2024-03-22

DeepSeek FastApi部署代码实现流式输出

API 是软件间相互传输数据的接口。它在生活中十分常见，比如博物馆订票系统中就使用了 API. 当你在手机应用上订票时，手机实际上发送了一个 HTTP 请求给远程服务器。远程服务器解析该请求。当确认所有字段信息均准确无误后，它才会把你的订票信息录入数据库，并回调成功标识。只有当上述操作全都被正确执行时，你的手机才会显示订票成功。这里实现了DeepSeek FastApi部署代码实现流式输出效果。

2025-03-01

使用代码部署DeepSeek-R1开源模型

DeepSeek-R1-Distill-Qwen 是 DeepSeek 团队基于 DeepSeek-R1 模型通过蒸馏技术生成的一系列轻量化模型。这些模型在保持高性能推理能力的同时，显著降低了计算资源和内存需求，适合在资源受限的环境中部署。DeepSeek-R1-Distill-Qwen 系列模型是通过从 DeepSeek-R1 模型中提取推理模式并迁移到更小的模型架构中生成的。这些模型基于 Qwen 系列架构，包括 1.5B、7B、14B 和 32B 等不同参数规模的版本，适用于多种任务场景，如数学推理、代码生成和逻辑推理等。为了方便嵌入自己的项目，这里演示如何基于python部署DeepSeek-R1模型，当前开发环境Win11,IDE是PyCharm，GPU是RTX 4080 8G，CUDA 是11.8。这里默认已安装好GPU驱动与CUDA与CUDNN环境。

2025-02-28

手机拍照文档版面分析1244张

真实手机拍照的文档版面分析数据集，标注了文本，图形，页脚，图形说明，页眉，表格说明，表格，标题，标注软件是Labelme，标签格式是.json文件，总共1245张文档，标签统计结果如下，可用于拍照文档OCR格式化识别或者文档版面分析。 Text: 4273 Fiqure: 1645 Fiqure caption: 348 Footer: 905 Table caption: 356 Table: 408 Title: 206 Header: 45

2025-02-11

边缘与中线实例分割数据集2264张

书本边缘与中线实例分割数据集，标注软件是Labelme，标签格式是.json文件，统计2264张图像,每张图像都标注了书本连续与中线，数据来部分来自互联网，部分是真实手机拍照，可用于计算机视觉目标检测或者实例分割。

2025-02-12

骑摩托车行人与安全头盔检测5448张.part1

骑在车上的行人与行人佩戴安全帽检测，只标注骑在车上的人与安全头盔，标注格式xml，标注工具是labelImg,数据数量5448张，可以使用脚本把xml转成txt或者json格式的标签，可用于深度学习计算机视觉目标检测。标注统计：two_wheeler: 16759，helmet: 15348，without_helmet: 7876

2025-02-09

骑摩托车行人与安全头盔检测5448张.part2

2025-02-09

猫实例分割数据集509张

猫语义分割数据集，标注软件是Labelme，标签格式是.json文件，统计508张图像共519个标签，数据来自互联网，可用于计算机视觉目标检测或者实例分割。

2025-02-11

气球实例分割数据集380张

气球语义分割数据集，标注软件是Labelme，标签格式是.json文件，统计380张图像2689个标签，数据来自互联网，可用于计算机视觉目标检测或者实例分割。

2025-02-11

手指纹斗与簸箕目标分割142张

真实拍照的手指纹斗与簸箕目标分割数据集，标注软件是Labelme，标签格式是.json文件，标签统计结果whorl194个目标，loop目标52个目标，可用于计算机视觉目标检测或者实例分割。

2025-02-11

视觉圆点标定板圆语义分割77张

在某些特定应用场景中，使用OpenCV提供的标定函数可能无法达到预期效果，尤其是在面对一些特殊定制的标定板时。通常情况下，OpenCV默认采用`cv::SimpleBlobDetector`作为检测器来识别标定板上的特征点，但在某些情况下，这种检测器可能无法准确识别出圆心。数据集是收集了一些特殊场景的圆点分割，标注软件是Labelme，标签格式是.json文件，总共标注了77张图像， 2743个目标，可用于计算机视觉目标检测或者实例分割。

2025-02-11

文档阴影语义分割数据集600张

真实拍照的文档目标分割数据集，标注软件是Labelme，标签格式是.json文件，标签统计结果SH656个，可用于计算机视觉目标检测或者实例分割。

2025-02-11

广角图像畸变矫正python模型部署

提出为校正后的广角图像构建一种双赢的表示，并设计了一种新颖的RecRecNet。配备灵活的TPS变换运动模型，RecRecNet可以以无监督的端到端方式构建从变形边界到直线边界的局部变形。此外，启发RecRecNet通过基于自由度的课程学习来学习渐进变形规则，这可以缓解非线性和非刚性变换的复杂性。此外，提供了详细的分析来解释为什么变形的图像边界会使当前的视觉感知变形。在未来的工作中，计划扩展到一个通用的范式，用于校正任何变形图像，并进一步研究图像边界和视觉感知性能之间的关系。此外，将矩形化算法嵌入到视觉模型训练的在线数据增强中也将是有趣的。参考博文：https://blog.youkuaiyun.com/matt45m/article/details/145547229?spm=1001.2014.3001.5502

2025-02-10

基于OpenCV部署RecRecNet广角图像畸变矫正C++代码

广角镜头在VR技术等领域有着诱人的应用，但它会使拍摄的图像产生严重的径向畸变。为了还原真实场景，以往的工作致力于校正广角图像的内容。然而，这种校正方法不可避免地会扭曲图像边界，改变相关的几何分布，并误导当前的视觉感知模型。在这项工作中，我们通过提出一种新的学习模型，即矩形校正网络（RecRecNet），探索在内容和边界上构建一种双赢的表示。特别是，我们提出了一个薄板样条（TPS）模块来构建用于图像矩形化的非线性和非刚性变换。通过学习校正后图像上的控制点，模型可以灵活地将源结构扭曲到目标域，并实现端到端的无监督变形。为了缓解结构逼近的复杂性，接着启发RecRecNet通过基于自由度（DoF）的课程学习来掌握渐进变形规则。通过在每个课程阶段增加自由度，即从相似变换（4自由度）到单应变换（8自由度），网络能够探究更详细的变形，在最终的矩形化任务上实现快速收敛。参考博客：https://blog.youkuaiyun.com/matt45m/article/details/145547229?spm=1001.2014.3001.5502

2025-02-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

基于人脸检测与人脸关键点检测的人脸3维重建

单目深度估计DepthAnything C++模型部署

基于yolov8的面部七种表情识别C++部署工程

万物分割（Segment Anything Model）C++模型推理部署

盲道检测分割C++推理代码

深度学习图像处理客户端与服务器.rar

低光照图像增强vs2019 C++代码

yolov5-v7.0河道漂浮物检测.rar

YOLOv8与DeepSORT实现目标追踪

手机目标检测数据集.rar

标注扑克牌目标识别数据集

实时语义分割ENet算法Pytorch复现与模型训练

基于深度学习实现的复杂背景文档二值化的算法实现

夜晚图像雾霾图像增强C++/python部署

基于NCNN轻量级PaddleOCRv4模型C++推理

检测出图像中的几何形状并测量出边长、直径、内角（python和opencv实现）

YOLOv8目标检测、语义分割、状态估计、目标追踪模型部署带GUI界面

图像抠图DIS-自然图像中高精度二分图像抠图的方法（C++推理代码）

百度人像抠图C++模型部署完整包

人像自动抠图LFM训练代码与C++推理部署代码

DeepSeek FastApi部署代码实现流式输出

使用代码部署DeepSeek-R1开源模型

手机拍照文档版面分析1244张

边缘与中线实例分割数据集2264张

骑摩托车行人与安全头盔检测5448张.part1

骑摩托车行人与安全头盔检测5448张.part2

猫实例分割数据集509张

气球实例分割数据集380张

手指纹斗与簸箕目标分割142张

视觉圆点标定板圆语义分割77张

文档阴影语义分割数据集600张

广角图像畸变矫正python模型部署

基于OpenCV部署RecRecNet广角图像畸变矫正C++代码

水面漂浮物目标检测数据集2400张

施工现场行人与佩带安全帽检测7544张txt格式

地上的烟头目标检测1023张xml格式

无人机目标检测识别无人机

道路缺陷目标检测xml格式共665张

鸟类目标检测xml与txt格式

MVANet最强大的前景抠图模型

空空如也