- 博客(785)
- 资源 (49)
- 收藏
- 关注
原创 计算机视觉——从环境配置到跨线计数的完整实现基于 YOLOv12 与质心追踪器的实时人员监控系统
本文档聚焦 YOLOv12 模型在实时人员追踪监控场景的应用,系统阐述了一套从技术原理到工程实现的完整解决方案。首先介绍 YOLOv12 的核心优势 —— 作为首个融合注意力机制的 YOLO 模型,其集成 RELAN 骨干网络、区域注意力及可选的 FlashAttention 技术,在保持 YOLO 系列高速推理特性的同时,提升了复杂场景下的目标检测精度,且兼容目标检测、分割、姿态估计等多任务,为实时监控应用奠定基础。
2025-10-24 17:04:35
1337
5
原创 计算机视觉——从YOLO系列演进到YOLOv12架构创新、注意力机制优化、推理实践与性能基准
YOLO(You Only Look Once)系列作为实时目标检测领域的标杆,始终致力于平衡检测速度与精度。从 YOLOv8 到 YOLOv11,每一代模型均通过架构优化实现性能突破,而 YOLOv12 更是首次将注意力机制引入核心设计,在保持实时性的同时突破传统 CNN 架构的局限。本章将首先梳理 YOLO 系列的关键演进,为理解 YOLOv12 的创新奠定基础。
2025-10-12 14:19:09
1344
1
原创 YOLOv8提升小目标检测策略——专为微小目标检测设计的 IoU 替代方案NWD原理解析、YOLO代码集成与验证
所提出的 NWD 度量方法可轻松嵌入到任何基于锚点的检测器的分配、非极大值抑制和损失函数中,以替代常用的 IoU 度量。在用于微小目标检测的新数据集(AI-TOD)上的评估表明,采用 NWD 度量方法后,性能比标准微调基线高出 6.7 个 AP 点,比最先进的竞争对手高出 6.0 个 AP 点。
2025-09-18 13:23:41
1178
原创 YOLOv8提升小目标检测策略 —— EFC(增强层间特征关联)与 FCM(特征互补映射)的原理与算法代码实现
EFC(增强层间特征关联):通过层间相关性增强与特征重构,减少冗余信息,突出小目标特征,提升复杂场景下的检测能力。FCM(特征互补映射):融合浅层空间位置信息与深层语义信息,缓解小目标信息丢失,优化定位精度,尤其适用于航拍等场景。文档包含原理解析、核心代码、配置方法和实验结果,便于快速理解和应用两种模块。
2025-09-16 12:33:36
661
原创 YOLOv8提升小目标检测策略——详细记录从 HCF-Net 的 DASI/PPA 到 SPD-Conv、MSCA 及 BoTNet加EMA优化原理到代码实现方法
本文围绕 YOLOv8 小目标检测性能提升展开,详细介绍了多种创新改进方案。包括 HCF-Net 中的维度感知选择性整合模块(DASI),其通过信道分区选择机制,自适应融合高维、低维和当前层特征,依据目标特征灵活侧重细粒度或上下文信息;HCF-Net 的小目标并行化注意力设计(PPA),采用多分支特征提取(局部分支、全局分支、串行卷积分支)和分层融合策略,增强小目标特征表示;SPD-Conv 空间深度转换卷积,通过空间到深度层和非步长卷积,替代传统步长卷积与池化层,避免细粒度信息丢失。
2025-09-12 14:05:26
500
原创 视觉语言模型应用开发——Qwen 2.5 VL模型视频理解与定位能力深度解析及实践指南
Qwen 2.5 VL 模型在视频理解领域的突破,不仅体现在技术创新层面,更在于其将复杂的视频分析任务变得更加易用和高效。未来,随着模型性能的进一步提升和应用场景的不断拓展,Qwen 2.5 有望在智能监控、内容创作、教育培训等多个领域发挥重要作用,推动视频理解技术的实际应用和产业发展。
2025-09-08 14:52:48
1558
2
原创 视觉语言模型应用开发——Qwen 2.5 视觉语言模型的零样本学习能力在多模态内容审核中的实践研究
近年来,视觉语言模型(VLMs)经历了从专用架构到通用模型的范式转变。早期模型(如 Visual BERT、ViLBERT)采用双编码器结构,需针对特定任务进行微调;而新一代 VLMs(如 GPT-4o、Qwen 2.5)采用统一的 Transformer 架构,实现了多模态输入的端到端处理。小型化已成为 VLMs 发展的重要趋势。如图 3 所示,Phi3.5-Vision、PaliGemma 3B、Qwen2.5-VL-3B 等模型在保持高性能的同时,将参数量控制在 10B 以内,显著降低了部署门槛。
2025-08-27 16:04:52
1053
原创 多模态大模型——Qwen2.5-Omni端到端实时多模态智能的技术架构与实现机制
Qwen2.5-Omni是阿里巴巴开发的多模态AI模型,支持文本、图像、音频和视频的实时处理与生成。其核心是Thinker-Talker框架:Thinker负责推理和文本生成,Talker专攻语音合成。创新点包括TMRoPE机制实现跨模态时间同步,以及流式优化设计降低延迟。模型训练分三阶段:编码器对齐、跨模态整合和长序列支持。该模型采用ChatML对话格式,适用于智能助手等实时交互场景,在架构设计和多模态处理能力上具有显著优势。
2025-08-26 13:39:35
1362
原创 大语言模型应用开发——利用OpenAI函数与LangChain结合从文本构建知识图谱搭建RAG应用全流程
从文本等非结构化数据中提取结构化信息并非新鲜事物,但大语言模型(LLMs)为该领域带来了重大变革。以往需要机器学习专家团队策划数据集并训练自定义模型,如今只需访问LLM即可实现,显著降低了技术门槛,让曾仅限领域专家使用的技术对非技术人员也更加友好。
2025-08-23 20:20:10
1096
3
原创 视觉语言大模型应用开发——基于 CLIP、Gemini 与 Qwen2.5-VL 的视频理解内容审核全流程实现
本文提出了一种基于多模型协同的视频处理框架,整合CLIP、Gemini和Qwen2.5-VL模型,实现高效视频内容审核与智能摘要生成。系统采用"检测-解释-总结"三阶段流水线,通过CLIP进行帧级违规内容识别(F1-score 0.91),Gemini生成结构化解释,Qwen2.5-VL输出内容摘要(ROUGE-L 0.76)。优化后的单视频处理延迟低于1.2秒,且帧采样数量减少60%仍保持95%内容覆盖率,满足实时处理需求。实验表明该框架在识别准确率和摘要质量上表现优异,为视频内容管理
2025-08-22 15:47:55
1914
原创 面向复杂场景的人脸识别——AdaFace 模型的理论基础与从数据到部署的实践路径
人脸识别技术作为深度学习在计算机视觉领域的重要分支,近年来在算法性能与实际应用中均取得了显著突破,已广泛渗透到安全防护、金融服务、智能终端等多元领域。模型的性能表现与环境鲁棒性作为决定其部署价值的核心指标,始终是研究与工程实践的焦点。AdaFace 作为当前先进的人脸识别框架,创新性地引入自适应特征归一化(Adaptive Feature Normalization)机制,显著提升了模型对复杂场景的泛化能力,为解决实际应用中的挑战性问题提供了有效方案。
2025-08-21 12:25:48
980
原创 YOLOv8 姿态估计模型的 OpenVINO 部署——从 IR 格式转换、精度评估到 NNCF 量化部署及性能对比
本文介绍了将YOLOv8姿态估计模型转换为OpenVINO IR格式并利用NNCF工具进行8位量化的完整流程。通过安装必要的依赖包,定义可视化工具函数绘制边界框和关键点,并准备测试数据进行验证。文中详细展示了模型转换、推理验证、精度评估及量化优化的技术方案,为计算机视觉领域的姿态估计部署提供了实用参考。实验结果表明,量化后的模型在保持精度的同时显著提升了推理性能。
2025-08-20 11:45:50
703
原创 姿态估计进阶:从 YOLO-NAS Pose 到 YOLOv8 Pose的技术探索与实践
摘要: YOLO-NAS Pose是Deci AI基于神经架构搜索(NAS)技术开发的新一代姿态估计模型,通过AutoNAC引擎优化架构,在精度与效率上超越YOLOv8 Pose。该模型提供四种尺寸变体,适配不同硬件需求,支持图像、视频等多源数据输入。实验显示其在直立人形检测中表现优异,但在水平姿态场景下略逊于YOLOv8。此外,文章还探讨了基于YOLOv8 Pose的瑜伽姿势分类实践,包括数据集准备与训练流程。YOLO-NAS Pose为实时姿态估计设定了新标杆,但在特定场景仍有优化空间。
2025-08-19 16:59:10
923
原创 从 3DCNN 到 Vision Transformer——视频动作识别技术的演进与 ViT 的突破性应用
视频处理是计算机视觉领域的重要研究方向,其中动作识别尤为关键,可用于安防监控、自动驾驶等多种场景。传统3D卷积神经网络(3DCNN)虽能处理视频数据,但存在无法捕捉长程依赖关系等局限。Vision Transformer(ViT)通过自注意力机制有效解决了这一问题,能学习视频帧间更广泛的上下文关系。研究表明,ViT在手术视频动作识别中表现优异,可准确分类手术子阶段、手势和技能水平,性能优于传统模型。这一突破为医疗、安防等领域的视频分析应用提供了新思路,展现了ViT在复杂动作识别任务中的巨大潜力。
2025-08-18 11:56:42
957
原创 微调 AnomalyCLIP——基于对象无关提示学习与全局 - 局部优化的零样本异常检测框架性能验证
AnomalyCLIP 针对传统视觉语言模型在零样本异常检测(ZSAD)中的局限,通过三项关键创新突破挑战:采用对象无关的提示学习,以 “正常的对象”“损坏的对象” 等通用模板替代特定类别提示,摆脱对对象语义的依赖;引入对角突出注意力图(DPAM),通过值 - 值(V-V)注意力增强对细粒度异常的捕捉;利用全局 - 局部上下文优化,结合图像级分类损失与像素级分割损失,兼顾异常判断与定位。
2025-08-17 14:54:32
1538
原创 基于CNN 的人体动作检测:训练过程、结果可视化及模型测试
本文介绍了一种基于深度学习的视频动作识别方法,使用Weismann数据集对7种人体动作(弯曲、开合跳、跳跃等)进行分类。该方法通过CNN提取视频帧的时空特征,构建序列模型进行分类。实施步骤包括:1)安装依赖项并整理数据集;2)创建标签和加载数据;3)构建CNN模型;4)分割训练集和验证集。该技术可应用于医疗监测、跌倒检测、安防监控等多个领域。实验结果显示,模型在3390个视频实例上实现了有效分类,训练集和验证集分别包含3051和339个样本。
2025-08-15 16:23:09
795
原创 视觉语言大模型应用开发——基于Qwen2.5-VL 实现视觉语言模型在目标检测中的层级结构与实现方法
目标检测作为计算机视觉领域的核心任务,传统方法依赖于 YOLO 等视觉模型对预定义类别进行位置预测。然而,此类方法受限于预训练类别体系,难以实现灵活的视觉交互。视觉语言模型(Vision-Language Models, VLMs)的问世打破了这一局限,其具备跨模态理解能力,能够实现图像与自然语言的双向交互,为目标检测领域带来范式革新。本文系统探讨基于 VLM 的目标检测技术,重点研究 Qwen2.5-VL 模型的技术特性与应用方法。
2025-08-14 15:51:01
2015
1
原创 视觉语言模型的空间推理缺陷——AI 在医学扫描中难以区分左右
最新研究发现,主流AI视觉语言模型(如GPT-4o)在医学影像诊断中存在重大缺陷。测试显示,这些模型往往依赖先验解剖学知识而非实际图像内容,导致在判断器官位置时准确率接近随机水平(50%)。当图像被旋转或翻转时,模型仍会给出标准解剖位置的错误答案。研究发现,使用视觉标记(如字母、数字或色点)并移除解剖术语后,模型准确率可提升至75%-85%。这表明当前AI系统可能无法正确处理非常规病例(如内脏反位),存在严重误诊风险。该研究由德美团队完成,相关数据集已公开发布。
2025-08-07 15:45:02
744
原创 LLM开发——语言模型会根据你的提问方式来改变答案
牛津大学研究发现,主流开源AI聊天模型存在隐藏偏见:根据用户语言中隐含的种族、性别等信息,在医疗、法律、薪资等关键领域给出差异化回答。研究测试了Meta的Llama3和阿里巴巴的Qwen3模型,发现: 非白人用户更常被建议就医,但薪资建议更低 非二元性别者获得法律建议概率更低 模型会从语言风格推断用户身份并调整回答 研究警告这种隐蔽偏见可能影响AI在医疗诊断、法律咨询等领域的应用公正性,呼吁开发新工具检测此类社会语言偏见。
2025-08-05 22:32:16
852
原创 LLM开发——基于Graph RAG知识图谱检索增强生成
Graph RAG:知识图谱增强的智能搜索新范式 摘要:Graph RAG(检索增强生成)通过整合知识图谱和大型语言模型(LLM),为传统搜索技术带来革命性突破。相比基于向量检索的原始RAG方法,Graph RAG利用结构化知识图谱中的节点(实体)和边(关系),显著提升了搜索的上下文理解能力、推理深度和领域适应性。本文系统阐述了Graph RAG的技术原理,包括知识图谱构建、图嵌入表示、LLM集成等关键技术环节,并通过NebulaGraph等图数据库的应用案例,展示了其在处理复杂查询和专业领域搜索中的优势。
2025-08-04 23:58:18
1342
2
原创 Text2SQL在Spark NLP中的实现与应用:将自然语言问题转换为SQL查询的技术解析
SQL 作为行业中最受欢迎的技能之一,随着数据量的指数级增长,其重要性日益凸显。然而,许多人缺乏编写 SQL 查询的知识或时间,导致大量数据无法被有效利用。Text2SQL 技术旨在通过自然语言接口,让用户能够直接用人类语言查询数据,从而简化这一过程。尽管当前最先进的模型在复杂数据集(如 Spider)上的准确率仅为 70%,但这一领域仍在不断发展。Spark NLP 作为增长最快的自然语言处理库之一,通过实现 IRNet 算法,提供了 Text2SQL 功能,帮助用户将自然语言查询转换为 SQL 语句。
2025-05-19 16:11:45
1592
1
原创 LLM开发——生成式智能体(Agents)的架构、工具与应用白皮书
宽泛地来说,生成式 AI Agent 可以被定义为一个**应用程序**, 通过**观察周围世界并使用可用的工具来实现其目标**。* Agent 是有自主能力的(autonomous),只要提供了合适的目标,它们就能独立行动,无需人类干预;* 即使是模糊的人类指令,Agent 也可以推理出它接下来应该做什么,并采取行动,最终实现其目标。在 AI 领域,Agent 是一个非常通用的概念。本文接下来要讨论的 Agent 会更具体, 指的是本文写作时,**基于生成式 AI 模型能够实现的 Agen
2025-05-18 20:43:59
935
原创 深度解析Diffusion Models模型——从原理、架构与条件生成技术到应用探索
扩散模型(Diffusion Model)是一种新兴的生成模型,通过模拟数据的扩散和去噪过程,能够从随机噪声中生成清晰、逼真的图像。其核心思想是通过逐步添加高斯噪声破坏数据,再学习逆转这一过程以恢复数据。与生成对抗网络(GAN)和变分自编码器(VAE)相比,扩散模型在生成多样性和训练稳定性上具有优势。扩散模型的发展得到了科技巨头的广泛关注,如OpenAI的DALL-E 2和Google的Imagen等应用展示了其在文本到图像生成领域的潜力。
2025-05-16 11:24:59
1475
原创 在YOLOv5/YOLOv8数据集上应用数据增强的方法与代码实现结果
数据增强是机器学习或深度学习中的一种技术,通过应用各种变换(如翻转、旋转、改变亮度/对比度等)从现有数据创建新数据。它通常用于计算机视觉任务,但也适用于自然语言处理和语音识别等领域。
2025-05-15 23:52:20
1351
原创 全面解析机器学习与深度学习中的模型权重文件格式与应用场景
模型权重文件格式在存储、共享和部署训练模型中的重要性日益凸显。这些格式不仅保存模型的学习参数,还支持模型的可复现性和跨平台部署。本文探讨了多种流行的模型权重文件格式,如PyTorch的.pt/.pth、TensorFlow的.ckpt、Keras的.h5、跨平台的.onnx等,分析了它们的起源、结构、用例及优势
2025-05-15 14:40:10
1323
原创 AI 在模仿历史语言方面面临挑战:大型语言模型在生成历史风格文本时的困境与研究进展
为了探索 AI 在生成具有历史准确性文本方面的潜力,研究人员尝试了多种方法。他们从使用 20 世纪早期的散文对模型进行简单提示入手,逐步深入到对商业模型在该时期的少量书籍上进行微调。此外,他们还将这些结果与一个完全在 1880 年至 1914 年间出版的书籍上训练的独立模型进行了对比分析。
2025-05-12 22:13:40
911
原创 计算机视觉——MedSAM2医学影像一键实现3D与视频分割的高效解决方案
MedSAM2 是医学影像分析领域的一项重大突破,通过深度学习和先进的图像处理技术,显著提升了医学影像分割的效率和准确性。它能够自动识别和分割医学影像中的各种结构,无论是复杂的器官还是微小的病变,极大地简化了传统手动分割的繁琐过程。MedSAM2 的核心优势在于其强大的自动化能力和实时处理能力,能够在几秒钟内完成对大量影像数据的分析,为临床决策提供即时支持。在实际应用中,MedSAM2 已广泛应用于肿瘤治疗、急诊室诊断等多个场景,帮助医生快速识别病变区域,制定精准的治疗方案。
2025-05-09 12:06:59
2882
1
原创 LLMs模型应用研究——从元数据到预测电影大片票房的实践
尽管影视行业通常被视为富有创意且开放的领域,但它们长期以来一直对风险持谨慎态度。高昂的制作成本(美国项目可能很快会失去海外低成本拍摄地的优势)以及分散的制作格局,使得独立公司难以承受重大损失。因此,在过去十年中,该行业对机器学习是否能够检测观众对影视项目的反应趋势或模式越来越感兴趣。主要的数据来源仍然是尼尔森系统(尽管其基础在于电视和广告,但具有规模优势)以及基于样本的方法,例如焦点小组,这些方法以牺牲规模为代价换取特定人群的代表性。后一类还包括来自免费电影预览的评分反馈——然而,到那时,大部分制作预算已经
2025-05-08 09:44:30
804
原创 在与大语言模型交互中的礼貌现象:技术影响、社会行为与文化意义的多维度探讨
目前,对于面向消费者的 LLM 的礼貌问题,似乎要么从(实用主义)的角度出发,认为经过训练的系统可能会对礼貌的询问做出更有用的回应;要么认为与这些系统进行无礼和粗鲁的交流会通过习惯的力量延续到用户的现实社交关系中。可以说,LLM 尚未在现实世界的社交环境中得到广泛使用,研究文献尚未确认后一种情况;但这篇新论文确实对将这种类型的人工智能系统拟人化的益处提出了有趣的质疑。去年十月斯坦福大学的一项研究(与2020年的一项研究。
2025-05-06 21:22:56
1013
2
原创 基于 AI 的人像修复与编辑技术:CompleteMe 系统的研究与应用
加利福尼亚大学默塞德分校与 Adobe 的新合作在领域取得了突破性进展——人像补全是一项备受关注的任务,旨在“揭示”人像中被遮挡或隐藏的部分,可用于虚拟试穿、动画制作和照片编辑等场景。除了修复损坏的图像或根据用户意愿更改图像外,人像补全系统(如 CompleteMe)还可以将新服装(通过附加参考图像,如这两个示例中的中间列)引入现有图像。这些示例来自新论文的详细补充 PDF。
2025-05-04 21:22:35
1187
1
原创 计算机视觉——基于树莓派的YOLO11模型优化与实时目标检测、跟踪及计数的实践
YOLO11模型是专门为边缘设备优化的目标检测模型,与YOLOv8相比,它在显著降低模型复杂度(最多降低37%)的同时,仍保持了较高的检测精度(约85%的平均精度均值)。这种优化使得YOLO11能够在资源受限的树莓派上实现高效的实时目标检测,为边缘设备上的复杂计算机视觉任务提供了可能。其轻量级的模型结构和高效的推理性能,使其成为在树莓派上部署目标检测应用的首选模型之一。
2025-05-01 18:19:05
5388
3
原创 深入剖析扩散模型对镜子反射理解局限:MirrorVerse 项目改进数据集与训练方法以提升反射处理表现的研究
自从生成式人工智能开始引起公众关注以来,计算机视觉研究领域对开发能够理解和复制物理定律的人工智能模型的兴趣日益浓厚。然而,教导机器学习系统模拟诸如重力和等现象的挑战,至少在一直是研究工作的重点。自2022年(LDMs)主导生成式人工智能领域以来,研究人员LDM架构在理解和再现物理现象方面的有限能力。如今,随着OpenAI具有里程碑意义的生成式视频模型的推出,以及开源视频模型和的发布(后者可能影响更为深远),这一问题变得更加突出。
2025-04-29 11:30:28
966
1
原创 计算机视觉——通过 OWL-ViT 实现开放词汇对象检测
传统的对象检测模型大多是封闭词汇类型,只能识别有限的固定类别。增加新的类别需要大量的注释数据。然而,现实世界中的物体类别几乎无穷无尽,这就需要能够检测未知类别的开放式词汇类型。对比学习(Contrastive Learning)使用成对的图像和语言数据,在这一挑战中备受关注。著名的模型包括 CLIP,但将其应用于物体检测,如在训练过程中处理未见类别,仍然是一个挑战。本文使用标准视觉转换器(ViT)建立了一个开放词汇对象检测模型——开放世界定位视觉转换器(OWL-ViT),只做了极少的修改。
2025-04-28 22:44:36
1483
原创 LLM开发——基于DeepSeek R1 和 Qwen 构建智能检索增强生成系统
在人工智能社区中,DeepSeek R1 作为一个具有革命性的开源推理大语言模型(LLM)引起了广泛关注。尽管大多数讨论都集中在它的原始能力上,但很少有人探索它在智能工作流中的潜力——即多个模型动态协作的系统。(70 亿参数的蒸馏模型):用于复杂推理。阿里巴巴的 Qwen 2.5(70 亿参数):用于快速对话流程。一个轻量级的智能体框架来协调它们。推理模型是智能体系统的核心,使它能够做出决策并从知识库中生成有见地的回答。
2025-04-27 21:56:46
1147
原创 计算机视觉——对比YOLOv12、YOLOv11、和基于Darknet的YOLOv7的微调对比
目标检测领域取得了巨大进步,其中YOLOv12、YOLOv11 和基于 Darknet 的 YOLOv7在实时检测方面表现出色。尽管这些模型在通用目标检测数据集上表现卓越,但在HRSC2016-MS(高分辨率舰船数据集)上对 YOLOv12 进行微调时,却面临着独特的挑战。本文提供了一个详细的端到端流程,用于在 HRSC2016-MS 上微调 YOLOv12、YOLOv11 和基于 Darknet 的 YOLOv7。
2025-04-26 22:43:18
4999
14
原创 计算机视觉——速度与精度的完美结合的实时目标检测算法RF-DETR详解
目标检测已经取得了长足的发展,尤其是随着基于 Transformer 的模型的兴起。,由 Roboflow 开发,就是这样一种模型,它兼顾了速度和精度。使用 Roboflow 的工具可以让整个过程变得更加轻松。他们的平台涵盖了从上传和标注数据到以正确格式导出数据的全过程。这意味着你可以节省设置的时间,将更多的时间用于训练和改进模型。
2025-04-24 10:30:24
2907
2
原创 解读大型语言模型:从Transformer架构到模型量化技术
你可能会好奇,LLMs是如何学得如此之好的?LLMs最关键的成分是什么?答案是Transformer架构,它在论文“Attention is All You Need”中被提出。当然,还有其他同样重要的元素,例如LLMs使用的海量数据和训练算法,但Transformer架构是使现代LLMs能够充分利用其他组件的关键组成部分。与之前用于生成式人工智能任务的循环神经网络(RNNs)相比,使用Transformer架构可以显著提高性能。
2025-04-23 13:39:00
1047
原创 人工智能中的注意力机制:原理、起源、发展及实现详解
在人工智能领域,注意力机制(Attention Mechanism)作为一种关键的技术,正在逐渐改变我们对模型处理数据方式的理解。本文将深入探讨注意力机制的原理、起源、发展以及其实现方式,旨在为读者提供一个全面且易于理解的视角。注意力机制的概念源于人类的认知过程。当人们面对复杂的信息时,往往会选择性地关注与当前任务最相关的部分,而忽略其他不重要的内容。这种能力使得人类能够在有限的认知资源下高效地处理信息。
2025-04-22 10:56:23
1504
原创 计算机视觉——利用AI幻觉检测图像是否是生成式算生成的图像
俄罗斯的新研究提出了一种非常规方法,用于检测不真实的AI生成图像——不是通过提高大型视觉-语言模型(LVLMs)的准确性,而是故意利用它们的。这种新方法使用LVLMs提取图像的多个“原子事实”,然后应用(NLI),系统地衡量这些陈述之间的矛盾——有效地将模型的缺陷转化为检测违背常识的图像的诊断工具。WHOOPS!数据集中两张图片与LVLM模型自动生成的陈述。左侧图片是真实的,导致描述一致,而右侧不寻常的图片导致模型产生幻觉,产生矛盾或错误的陈述。
2025-04-21 16:35:45
1468
1
原创 PointCore——利用局部全局特征的高效无监督点云异常检测器论文与算法解读
三维点云异常检测旨在从训练集中检测出异常数据点,是工业检测、自动驾驶等众多应用的基础。然而,现有的点云异常检测方法通常采用多个特征存储库来充分保留局部和全局特征表示,这带来了高昂的计算成本以及特征之间的不匹配问题。为解决这些问题,我们提出了一种基于联合局部 - 全局特征的无监督点云异常检测框架PointCore。具体而言,PointCore仅需一个存储库来存储局部(坐标)和全局(PointMAE)特征表示,并为这些局部 - 全局特征分配不同的优先级,从而降低推理过程中的计算成本和不匹配干扰。
2025-04-19 23:33:28
1345
5
基于人脸检测与人脸关键点检测的人脸3维重建
2024-10-29
单目深度估计DepthAnything C++模型部署
2024-08-05
基于yolov8的面部七种表情识别C++部署工程
2024-08-04
万物分割(Segment Anything Model)C++模型推理部署
2024-08-02
盲道检测分割C++推理代码
2024-08-01
深度学习图像处理客户端与服务器.rar
2024-07-29
低光照图像增强vs2019 C++代码
2024-07-31
yolov5-v7.0河道漂浮物检测.rar
2024-04-24
YOLOv8与DeepSORT实现目标追踪
2024-04-18
手机目标检测数据集.rar
2024-04-14
标注扑克牌目标识别数据集
2024-04-13
实时语义分割ENet算法Pytorch复现与模型训练
2024-04-10
基于深度学习实现的复杂背景文档二值化的算法实现
2024-04-10
夜晚图像雾霾图像增强C++/python部署
2024-04-10
基于NCNN轻量级PaddleOCRv4模型C++推理
2024-04-02
检测出图像中的几何形状并测量出边长、直径、内角(python和opencv实现)
2024-03-29
YOLOv8目标检测、语义分割、状态估计、目标追踪模型部署带GUI界面
2024-03-26
图像抠图DIS-自然图像中高精度二分图像抠图的方法(C++推理代码)
2024-03-24
百度人像抠图C++模型部署完整包
2024-03-23
人像自动抠图LFM训练代码与C++推理部署代码
2024-03-22
DeepSeek FastApi部署代码实现流式输出
2025-03-01
使用代码部署DeepSeek-R1开源模型
2025-02-28
手机拍照文档版面分析1244张
2025-02-11
边缘与中线实例分割数据集2264张
2025-02-12
骑摩托车行人与安全头盔检测5448张.part1
2025-02-09
骑摩托车行人与安全头盔检测5448张.part2
2025-02-09
猫实例分割数据集509张
2025-02-11
气球实例分割数据集380张
2025-02-11
手指纹斗与簸箕目标分割142张
2025-02-11
视觉圆点标定板圆语义分割77张
2025-02-11
文档阴影语义分割数据集600张
2025-02-11
广角图像畸变矫正python模型部署
2025-02-10
基于OpenCV部署RecRecNet广角图像畸变矫正C++代码
2025-02-10
水面漂浮物目标检测数据集2400张
2025-02-09
施工现场行人与佩带安全帽检测7544张txt格式
2025-02-09
地上的烟头目标检测1023张xml格式
2025-02-09
无人机目标检测识别无人机
2025-02-09
道路缺陷目标检测xml格式共665张
2025-02-09
MVANet最强大的前景抠图模型
2025-02-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅