自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

知来者逆的博客

计算机视觉学习笔记

  • 博客(735)
  • 资源 (49)
  • 收藏
  • 关注

原创 机器学习中的自监督学习概述与实现过程

这种学习方式通过使用带有标签的数据集进行训练,目的是使机器能够学习到数据之间的关联性,并能够对新的、未见过的数据做出预测或分类。应用领域包括语音识别、图像识别、医学诊断等。监督学习通常需要大量的标注数据,因此获取和维护这些数据集可能非常昂贵和耗时。:非监督式学习使用未标注的数据,通过算法来发现数据中的结构和模式。这种学习方式适合于市场细分、社交网络分析、异常检测等任务。自监督学习 (Self-Supervised Learning) 是非监督学习的一种,它通过从数据本身生成伪标签来训练模型。

2025-04-01 23:08:53 350

原创 深度学习——深入解读各种卷积的应用场景优劣势与实现细节

本文介绍了深度学习中常见的多种卷积类型,包括它们的定义、工作原理、优缺点以及应用场景。通过这些介绍,希望能帮助读者更好地理解卷积在深度学习中的作用,以及如何根据具体需求选择合适的卷积类型。

2025-03-31 14:02:00 721

原创 计算机视觉——传统数字图像处理中图像去噪原理与代码实现细节

在现实世界中捕获的图像常常受到噪声的影响,这些噪声可能来源于环境因素、信号不稳定、相机传感器问题、照明条件差、电损失等多种因素。为了进一步处理这些图像并对结果进行准确解释,拥有尽可能低噪声的图像至关重要。图像去噪是数字图像处理中的一个关键过程,其目标是通过减少噪声来提高图像的视觉质量。这一领域具有挑战性,因为它不仅需要理解图像中的噪声类型,还需要应用能够有效减少噪声并提供更准确原始图像表示的去噪方法。

2025-03-31 11:07:00 818

原创 Python实现概率分布公式及可视化

在机器学习或者深度学习课题里,时常要频繁地使用统计概率的理论来辅助进行数据处理与研究。因此,理解和掌握一定的统计概率知识是非常必要的。在科学研究和城市研究领域,统计概率理论的应用也十分常见。随机变量 (Random Variable):一个随机变量是一个可以取多个可能值的量,这些值是根据某种概率分布来确定的。密度函数 (Density Functions):在连续随机变量中,密度函数描述了随机变量的可能取值范围内每个值出现的概率密度。它通常用于计算概率、期望值等。

2025-03-30 19:36:39 948

原创 图像相似性搜索算法比较 ——对比EfficientNet、 ViT、 VINO 、 CLIP 、 BLIP2算法优劣与场景测试

EfficientNet(CNN 架构):不擅长捕捉超出像素信息的语义。:比 CNN 更好,但仍然专注于像素信息而不是图像的含义。DINO-v2:可以捕捉图像的语义,并且倾向于专注于前景物体。CLIP:可以捕捉语义,但有时可能会受到可以从图像中读取的语言信息的强烈影响。BLIP-2:可以捕捉语义,是其他模型中最优越的结果。综上所述,在进行图像相似性搜索时,应该优先选择 DINO-v2 或 BLIP-2 以获得更好的结果。如果专注于图像中的物体,应该使用 DINO-v2。

2025-03-30 10:09:40 1044

原创 DeepSeek-R1私有化部署——DeepSeek-R1模型微调原理与代码实现

在微调大语言模型(LLM)的过程中,开发者常常会面临一系列技术挑战。显存不足?如果显存资源有限,可以采用 LoRA(低秩适配)技术结合 4-bit 量化,显著降低显存占用,同时保持模型性能。此外,云端训练也是一个不错的选择,借助强大的云服务资源,可以轻松应对大规模模型的训练需求。数据集太小?当数据集规模较小时,模型容易出现过拟合现象,导致无法泛化到新的数据。此时,可以运用数据增强技术,如同义词替换、句子重组等,增加数据的多样性。

2025-03-20 16:40:29 702

原创 DeepSeek-R1私有化部署——基于 DeepSeek R1 和 Ollama 构建本地知识库(RAG)系统

随着人工智能(AI)、自然语言处理(NLP)、大语言模型(LLM)技术的不断进步,传统的 LLM 虽然强大,但存在知识有限、准确性不足等问题。而检索增强生成(RAG)的出现,大大弥补了 LLM 的不足,有效克服了这些缺点。

2025-03-18 10:57:20 821

原创 基于YOLOv8与SKU110K数据集实现超市货架物品目标检测与计算

本文旨在基于检测到的物品位置信息,分析、计数并提取相关目标。通过对检测结果的坐标数据进行分析,将确定货架的数量以及货架上的物品数量。为此,这里将使用 SKU110K 数据集来训练目标检测模型。该数据集包含商店货架上物品的边界框标注,仅包含一个名为“物品”的类别。

2025-03-17 09:58:55 580

原创 计算机视觉——深入理解卷积神经网络与使用卷积神经网络创建图像分类算法

卷积神经网络(Convolutional Neural Networks,简称 CNNs)是一种深度学习架构,专门用于处理具有网格结构的数据,如图像、视频等。它们在计算机视觉领域取得了巨大成功,成为图像分类、目标检测、图像分割等任务的核心技术。CNNs 的核心思想是利用卷积操作(convolution)来提取数据中的局部特征,并通过层次化的结构逐步学习更复杂的模式。

2025-03-16 14:41:32 3193 6

原创 3D点云目标检测——KITTI数据集读取与处理

KITTI数据集是由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创建的一个大规模自动驾驶场景下的计算机视觉算法评测数据集。KITTI数据集采集自德国卡尔斯鲁厄市,涵盖了市区、郊区、高速公路等多种交通场景。数据采集时间为 2011 年 09 月 26 日、28 日、29 日、30 日及 10 月 03 日的白天。KITTI数据采集平台如下图所示:IMU/GPS总结来说,KITTI数据集由 4 个相机、1 个激光雷达、1 个IMU/GPS惯导系统共同组成。

2025-03-14 19:53:32 1549

原创 利用稳定扩散模型和控制网架构调整生成物体背景

本文介绍了一种基于扩散模型的方法,用于在不改变对象边界的情况下生成背景。在设计和电子商务等应用中,保持对象特征至关重要。文章指出了对象扩展的问题,并提供了一种测量方法来捕捉这一问题。对不太突出的物体进行背景生成仍然是未来的挑战,这可能需要高质量的实例或全景分割掩码。此外,将调制 U-Net 编码器的 T2I 适配器作为 ControlNet 的替代品,与用于对象感知背景生成任务的新控制架构相结合,也能提高生成图像的整体精度和质量。

2025-03-13 09:00:00 978

原创 探索在生成扩散模型中基于RAG增强生成的实现与未来

这是一篇关于图像检索多模态生成系统的代表性而非穷尽性概述。一些此类系统仅使用检索来改善视觉理解或数据集策划,而不是寻求生成图像,例如。文献中还有许多其他基于 RAG 的项目尚未发布。只有发表研究论文的原型,例如Re-Imagen,尽管它来自谷歌,但只能访问本地自定义数据库中的图像。此外,2024 年 11 月,百度宣布了基于图像检索的增强生成(iRAG),这是一个使用“数据库”检索图像的新平台。尽管据报道 iRAG 可在 Ernie 平台上使用,但关于检索过程的细节似乎很少,它似乎依赖于一个本地数据库。

2025-03-10 22:12:21 756

原创 探索在直播中的面部吸引力预测新的基准和多模态方法

迄今为止,面部吸引力预测(FAP)主要是在心理学研究、美容化妆品行业以及整形手术领域进行研究。这是一个具有挑战性的研究领域,因为美的标准往往是。这意味着没有一个单一有效的基于人工智能的数据集是可行的,因为从所有文化中采样面部/评分得到的平均值会存在很大偏差(人口较多的国家会获得更多关注),否则就可能对任何文化都不适用(多种族/评分的平均值可能并不代表任何实际的种族)。相反,挑战在于开发出概念性的方法和工作流程,以便能够处理特定国家或文化的数据,从而开发出针对各个地区的有效FAP模型。

2025-03-09 21:28:15 912

原创 DeepSeek-R1私有化部署——基于Ollama与FastApi部署DeepSeek-R1-Distill-Qwen服务器

在前面的博客中,介绍了基于python私有化部署了DeepSeek-R1-Distill-Qwen的命令行对话与服务器客服端访问的方式,这两种方法都要基于torch算法框架,安装时还要对应torch的版本,假设安装的torch的版本小2.2,那么可以加载模型时可能获取到"triu_tril_cuda_template" not implemented for 'BFloat16'这个错误。

2025-03-04 20:50:43 675

原创 计算机视觉——YOLO11原理代码分块解读与模型基准对比测试

YOLO11 是 Ultralytics 推出的 YOLO 系列的最新版本。YOLO11 拥有超轻量级的模型,比之前的 YOLO 模型更快、更高效。YOLO11 能够处理更广泛的计算机视觉任务。Ultralytics 根据模型大小发布了五款 YOLO11 模型,涵盖所有任务的模型共有 25 款

2025-03-03 10:28:44 957

原创 DeepSeek-R1私有化部署——基于FastApi实现DeepSeek-R1-Distill-Qwen服务器部署与流式输出

上个实现了在命令行终端下DeepSeek-R1-Distill-Qwen的模型部署与流式输出,但在日常的生产环境中,基本上是会把模型推理部署在一个服务器上,然后使用客户端调用api接口实现对话。API 是软件间相互传输数据的接口。它在生活中十分常见,比如博物馆订票系统中就使用了 API. 当你在手机应用上订票时,手机实际上发送了一个 HTTP 请求给远程服务器。远程服务器解析该请求。当确认所有字段信息均准确无误后,它才会把你的订票信息录入数据库,并回调成功标识。

2025-03-02 10:37:49 1081

原创 DeepSeek-R1私有化部署——使用Python实现DeepSeek-R1-Distill-Qwen模型部署调用与流式输出

DeepSeek-R1-Distill-Qwen 是 DeepSeek 团队基于 DeepSeek-R1 模型通过蒸馏技术生成的一系列轻量化模型。这些模型在保持高性能推理能力的同时,显著降低了计算资源和内存需求,适合在资源受限的环境中部署。DeepSeek-R1-Distill-Qwen 系列模型是通过从 DeepSeek-R1 模型中提取推理模式并迁移到更小的模型架构中生成的。

2025-03-01 11:55:47 1152

原创 YOLOv12 ——基于卷积神经网络的快速推理速度与注意力机制带来的增强性能结合

实时目标检测对于许多实际应用来说已经变得至关重要,而Ultralytics公司开发的YOLO(You Only Look Once,只看一次)系列一直是最先进的模型系列,在速度和准确性之间提供了稳健的平衡。注意力机制的低效阻碍了它们在像YOLO这样的高速系统中的应用。YOLOv12旨在通过将注意力机制集成到YOLO框架中来改变这一现状。

2025-02-26 22:19:31 1952 4

原创 在不使用对抗性物体一种可规避街道摄像头行人检测的算法实现

以色列和日本的一项新的合作研究认为,行人检测系统存在固有弱点,这使得消息灵通的人能够通过精心规划路线,穿过监控网络效果最差的区域,从而避开人脸识别系统。借助来自东京、纽约和旧金山的,研究人员开发出了一种自动计算此类路线的方法,该方法基于公共网络中可能使用的最流行的物体识别系统。研究中使用的三个十字路口:日本东京的涩谷十字路口、纽约的百老汇和旧金山的卡斯特罗区。

2025-02-24 13:46:34 828

原创 大语言模型常用微调与基于SFT微调DeepSeek R1指南

方法特点适用场景优点缺点SFT全参数微调数据量大,资源充足完全适应任务计算成本高LoRA低秩分解,部分参数微调资源有限参数效率高,显存占用低需要额外实现P-tuning提示优化,不修改模型参数少样本学习显存占用低需要设计提示模板Freeze冻结大部分参数,微调部分层资源有限,数据量小计算成本低模型适应能力有限。

2025-02-15 14:28:16 1987

原创 Vript-Hard——一个基于高分辨率和详细字幕的视频理解算法

近年来,多模态学习的进步使人们越来越关注理解和生成视频的模型。这导致了对具有高分辨率视频和详细说明的高质量视频文本数据集的需求激增。然而,由于视频中增加了时间成分,因此获取和注释视频-文本对要比获取和注释图像-文本对更加困难。例如,旅游视频博客包含许多事件,每个事件由不同的场景组成,如准备旅行或参观目的地。视频字幕需要花费大量的时间和精力来查看整个视频并标注细节。因此,传统的视频文本数据集通常只包含简短粗糙的描述。

2025-02-13 19:23:17 1373

原创 数据集——个人收集的用于计算机视觉实例分割的数据集持续更新

个人收集的用于计算机视觉实例分割的数据集

2025-02-12 13:39:30 1246

原创 RecRecNet——基于薄板样条模型自由度的课程学习的广角图像畸变矫正算法实现与模型部署

广角镜头在VR技术等领域有着诱人的应用,但它会使拍摄的图像产生严重的径向畸变。为了还原真实场景,以往的工作致力于校正广角图像的内容。然而,这种校正方法不可避免地会扭曲图像边界,改变相关的几何分布,并误导当前的视觉感知模型。在这项工作中,我们通过提出一种新的学习模型,即矩形校正网络(RecRecNet),探索在内容和边界上构建一种双赢的表示。

2025-02-10 15:59:50 774

原创 数据集——个人收集的目标检测数据集待续更新

收集的目标检测数据集,包括鸟类检测,无人机检测,道路坑洼检测,地上烟头检测,骑车行人检测,施工现场安全帽检测

2025-02-09 15:10:46 1039

原创 基于Real3D-AD点云表面异常数据集与点云表面异常检测模型训练与测试

高精度点云异常检测是识别先进加工和精密制造缺陷的黄金标准。尽管该领域在方法上取得了一些进展,但数据集的稀缺和缺乏系统的基准阻碍了其发展。我们引入了 Real3D-AD,这是一个具有挑战性的高精度点云异常检测数据集,旨在解决该领域的局限性。Real3D-AD 包含 1254 个高分辨率 3D 物品(每个物品的点数从四万到数百万不等),是迄今为止用于高精度 3D 工业异常检测的最大数据集。

2025-02-08 22:00:43 407

原创 Windows下从零开始基于Ollama与Open-WebUI本地部署deepseek R1详细指南(包含软件包和模型网盘下载)

最近国产大模型DeepSeek很火,但有时因为访问人数过多导致反应慢甚至宕机。但好在DeepSeek是开源的,可以本地部署,这样就不用联网也能用了。但本地部署需要考虑硬件需求,比如是否有足够的GPU资源,存储空间,以及是否熟悉相关的技术步骤。本地部署的优势,比如离线使用、数据隐私、响应速度。是于本地部署,对硬件有一定的要求,特别是GPU,显然,GPU显存越大,就能部署参数更多的模型,通俗的讲,显存越大,模型越聪明。

2025-02-05 11:30:58 3073 1

原创 MVANet——小范围内捕捉高分辨率细节而在大范围内不损失精度的强大的背景消除模型

在这篇评论文章中,我们将高精度前景提取(背景去除)建模为一个多视角物体识别问题,提供了一个高效、简单的多视角聚合网络。这样做的目的是更好地平衡模型设计、准确性和推理速度。为解决多视图的目标对准问题,提出了多视图完成定位模块,以联合计算目标的共同关注区域。此外,提出的多视图完成细化模块被嵌入到每个解码器块中,以充分整合互补的本地信息,减少单视图补丁中语义的缺失。这样,只需一个卷积层就能实现最终的视图细化。广泛的实验表明,所提出的方法性能良好。

2025-02-02 19:23:11 1115

原创 智能鞋利用机器学习和深度学习技术进行患者监测和步态分析的演变与挑战

智能鞋是可穿戴技术领域的一大进步,在医疗保健、辅助技术和医疗应用方面有许多潜在的应用。先进的传感器技术、能量收集系统和机器学习算法的集成有望彻底改变个人医疗保健,并显著提高残疾人的生活质量。然而,在广泛采用这项技术之前,仍有一些挑战需要克服。改善智能鞋的舒适度和设计、降低成本以及确保数据隐私和安全都非常重要。未来还需要研究如何将智能鞋与其他智能设备集成,如何采用可持续材料和制造工艺,以及开发更高效的能量收集和储存系统。

2025-01-21 11:06:34 1054 1

原创 基于深度学习的Lidar 3D点云表面缺陷检测方法

三维点云异常检测旨在从训练集中检测异常数据点,常用的点云异常检测方法通常采用多个特征记忆库来完全保留局部和全局表示,这种要考虑高昂的计算复杂度和特征间的不匹配问题。

2025-01-20 20:59:25 1290 1

原创 基于ADAS 与关键点特征金字塔网络融合的3D LiDAR目标检测原理与算法实现

3D LiDAR目标检测是一种在三维空间中识别和定位感兴趣目标的技术。在自动驾驶系统和先进的空间分析中,目标检测方法的不断演进至关重要。3D LiDAR目标检测作为一种变革性的技术,在环境感知方面提供了前所未有的准确性和深度信息.在这里,我们将深入探讨使用关键点特征金字塔网络(K-FPN)结合KITTI 360 Vision数据集,融合RGB相机和3D LiDAR数据,实现自动驾驶的详细过程和训练方法。

2025-01-08 09:54:18 1126

原创 基于ViT、CLIP、EfficientNet、DINO-v2和BLIP-2构建AI图像相似性搜索

为了深入探究图像相似性,这里决定采用多种先进的人工智能模型进行分析。这些模型包括视觉变换器(ViT)、对比语言-图像预训练模型(CLIP)、基于双向编码器表示的图像描述模型(BLIP)、高效网络(EfficientNet)、DINO-v2以及经典的卷积神经网络VGG16。通过这些模型,能够从不同角度和层面捕捉到图像之间的相似之处。例如,视觉变换器(ViT)通过将图像分割成多个小块,并利用自注意力机制来分析这些图像块之间的关系,从而揭示出图像的内在相似性;

2025-01-07 12:56:29 1129

原创 基于CLIP和DINOv2实现图像相似性方面的比较

在人工智能领域,CLIP和DINOv2是计算机视觉领域的两大巨头。CLIP彻底改变了图像理解,而DINOv2为自监督学习带来了新的方法。在本文中,我们将踏上一段旅程,揭示定义CLIP和DINOv2的优势和微妙之处。我们的目标是发现这些模型中哪一个在图像相似性任务的世界中真正表现出色。让我们见证巨头的碰撞,看看哪个模型会脱颖而出。

2025-01-06 09:23:06 1259 1

原创 安卓NDK视觉开发——手机拍照文档边缘检测实现方法与库封装

安卓NDK开发,基于深度学习与OpenCV实现文档拍照扫描,实现边缘检测与边缘校正,可使用GPU进行推理,速度和精度都到商用级别。

2025-01-03 21:44:33 1008 2

原创 DBNet——基于区域分割的文本检测算法原理与实践

基于分割的文本检测方法对分割结果的概率图进行二值化后处理,然后来提取文本区域,可以检测任意形状的文本区域。但基于分割的文本检测算法一般都需要复杂的后处理,影响推理的性能。上图中,蓝色的路径表示传统的基于分割的文本检测,完整流程包括得到分割概率图,使用阈值二值化,然后通过像素聚类等手段得到最终的文本检测结果,红色路径是作者提出的新的方法,同时输出分割概率图和进行二值化使用的阈值图,之后,其中虚线表示操作只发生在预测阶段,实线表示在训练和预测阶段都会发生。

2024-12-31 21:23:25 1177

原创 SGOOL——侧重于优化图像的最有可能引起人类注意的区域用于改善人工智能生成的图像

传统方法,优化整个图像而新方法利用显著性检测器来识别和优先处理更“重要”的区域,就像人类一样。在定量和定性测试中,研究人员的方法在图像质量和文本提示的保真度方面都能够胜过以前基于扩散的模型。

2024-12-30 20:18:46 869

原创 TKG-DM – 基于Latent Diffusion模型的“原生”色度提取生成具有透明通道的图像

这篇新论文最值得注意的一点可能是潜在扩散模型的纠缠程度,这与公众普遍认为的在生成新内容时可以毫不费力地分离图像和视频的各个方面形成了鲜明对比。该研究进一步强调了研究和爱好者社区在多大程度上将微调作为事后修复模型的缺点——解决方案始终针对特定类别和类型的对象。在这种情况下,经过微调的模型要么在有限数量的类别上工作得很好,要么在有限数量的类别上工作得很好可以忍受根据训练集中的大量数据,可以很好地处理更多可能的类别和对象。因此,看到至少有一个不依赖于这种费力且可能不诚实的解决方案是令人欣慰的。

2024-12-29 15:50:45 1002

原创 Whiteboard-of-Thought——让大语言模型在白板上写下它们的推理过程,可以大大提高模型在视觉推理能力

近年来,以 ChatGPT 为代表的**大型语言模型(LLMs)通过思维链(CoT)**在文本中表示中间推理部分,在算术和符号推理中取得了优异的成绩。另一方面,即使进行了大量的多模态预训练,但无法回答人类通过视觉推理就能轻松解决的文本查询这一难题仍然令许多研究人员头疼不已。在此背景下,本文。

2024-12-28 13:34:48 1093

原创 MicroDiffusion——采用新的掩码方法和改进的 Transformer 架构,实现了低预算的扩散模型

现代图像生成模型擅长创建自然、高质量的内容,每年生成的图像超过十亿幅。然而,从头开始训练这些模型极其昂贵和耗时。文本到图像(T2I)扩散模型降低了部分计算成本,但仍需要大量资源。目前最先进的技术需要大约 18 000 个 A100 GPU 小时,而使用 8 个 H100 GPU 进行训练则需要一个多月的时间。此外,该技术通常依赖于大型或专有数据集,因此难以普及。在这篇评论性论文中,我们开发了一种低成本、端到端文本到图像扩散建模管道,目的是在没有大型数据集的情况下显著降低成本。

2024-12-26 13:34:44 1324

原创 整合语音命令与大型语言模型 (LLM) 及传感器在人类和机器人之间进行有效的自然语言交流 以简化装配操作并提高生产车间的安全性

本研究提出了一个使用大规模语言模型(LLM)的框架,以改善人机协作制造系统中的通信。在制造过程中,人类操作员要灵活应对动态情况,而机器人则要执行精确的重复性任务。然而,人类与机器人之间的沟通障碍阻碍了双方的协作。在这项研究中,我们提出了一个将自然语言语音命令整合到任务管理中的框架。一项装配任务案例研究表明,该框架可以处理自然语言输入并处理实时装配任务。研究结果表明,LLM 有潜力改善制造装配应用中的人机互动。介绍机器人技术的进步大大提高了生产效率,降低了成本,提高了生产率。

2024-12-25 13:41:27 1514 1

原创 Binoculars——分析证实大语言模型生成文本的检测和引用量按学科和国家明确显示了使用偏差的多样性和对内容类型的影响

人工智能技术的进步正在改变数字内容生产和消费的格局。尤其值得注意的是生成式人工智能的快速发展,包括大规模语言模型,如 ChatGPT,它出现于 2022 年,是基于 GPT-3 的大规模语言模型,能够生成质量非常接近人类文本的文本。这些模型可以自由生成考虑到用法、语气和上下文的文本,因此被广泛应用于内容创作。但与此同时,大规模语言模型所生成内容的可靠性、原创性和质量也引起了人们的关注。此外,人们还讨论了这些技术快速生成大量内容所导致的信息超载问题。

2024-12-24 12:50:40 1052

DeepSeek FastApi部署代码实现流式输出

API 是软件间相互传输数据的接口。它在生活中十分常见,比如博物馆订票系统中就使用了 API. 当你在手机应用上订票时,手机实际上发送了一个 HTTP 请求给远程服务器。远程服务器解析该请求。当确认所有字段信息均准确无误后,它才会把你的订票信息录入数据库,并回调成功标识。只有当上述操作全都被正确执行时,你的手机才会显示订票成功。这里实现了DeepSeek FastApi部署代码实现流式输出效果。

2025-03-01

使用代码部署DeepSeek-R1开源模型

DeepSeek-R1-Distill-Qwen 是 DeepSeek 团队基于 DeepSeek-R1 模型通过蒸馏技术生成的一系列轻量化模型。这些模型在保持高性能推理能力的同时,显著降低了计算资源和内存需求,适合在资源受限的环境中部署。DeepSeek-R1-Distill-Qwen 系列模型是通过从 DeepSeek-R1 模型中提取推理模式并迁移到更小的模型架构中生成的。这些模型基于 Qwen 系列架构,包括 1.5B、7B、14B 和 32B 等不同参数规模的版本,适用于多种任务场景,如数学推理、代码生成和逻辑推理等。为了方便嵌入自己的项目,这里演示如何基于python部署DeepSeek-R1模型,当前开发环境Win11,IDE是PyCharm,GPU是RTX 4080 8G,CUDA 是11.8。这里默认已安装好GPU驱动与CUDA与CUDNN环境。

2025-02-28

边缘与中线实例分割数据集2264张

书本边缘与中线实例分割数据集,标注软件是Labelme,标签格式是.json文件,统计2264张图像,每张图像都标注了书本连续与中线,数据来部分来自互联网,部分是真实手机拍照,可用于计算机视觉目标检测或者实例分割。

2025-02-12

猫实例分割数据集509张

猫语义分割数据集,标注软件是Labelme,标签格式是.json文件,统计508张图像共519个标签,数据来自互联网,可用于计算机视觉目标检测或者实例分割。

2025-02-11

手机拍照文档版面分析1244张

真实手机拍照的文档版面分析数据集,标注了文本,图形,页脚,图形说明,页眉,表格说明,表格,标题,标注软件是Labelme,标签格式是.json文件,总共1245张文档,标签统计结果如下,可用于拍照文档OCR格式化识别或者文档版面分析。 Text: 4273 Fiqure: 1645 Fiqure caption: 348 Footer: 905 Table caption: 356 Table: 408 Title: 206 Header: 45

2025-02-11

气球实例分割数据集380张

气球语义分割数据集,标注软件是Labelme,标签格式是.json文件,统计380张图像2689个标签,数据来自互联网,可用于计算机视觉目标检测或者实例分割。

2025-02-11

视觉圆点标定板圆语义分割77张

在某些特定应用场景中,使用OpenCV提供的标定函数可能无法达到预期效果,尤其是在面对一些特殊定制的标定板时。通常情况下,OpenCV默认采用`cv::SimpleBlobDetector`作为检测器来识别标定板上的特征点,但在某些情况下,这种检测器可能无法准确识别出圆心。数据集是收集了一些特殊场景的圆点分割,标注软件是Labelme,标签格式是.json文件,总共标注了77张图像, 2743个目标,可用于计算机视觉目标检测或者实例分割。

2025-02-11

文档阴影语义分割数据集600张

真实拍照的文档目标分割数据集,标注软件是Labelme,标签格式是.json文件,标签统计结果SH656个,可用于计算机视觉目标检测或者实例分割。

2025-02-11

手指纹斗与簸箕目标分割142张

真实拍照的手指纹斗与簸箕目标分割数据集,标注软件是Labelme,标签格式是.json文件,标签统计结果whorl194个目标,loop目标52个目标,可用于计算机视觉目标检测或者实例分割。

2025-02-11

广角图像畸变矫正python模型部署

提出为校正后的广角图像构建一种双赢的表示,并设计了一种新颖的RecRecNet。配备灵活的TPS变换运动模型,RecRecNet可以以无监督的端到端方式构建从变形边界到直线边界的局部变形。此外,启发RecRecNet通过基于自由度的课程学习来学习渐进变形规则,这可以缓解非线性和非刚性变换的复杂性。此外,提供了详细的分析来解释为什么变形的图像边界会使当前的视觉感知变形。在未来的工作中,计划扩展到一个通用的范式,用于校正任何变形图像,并进一步研究图像边界和视觉感知性能之间的关系。此外,将矩形化算法嵌入到视觉模型训练的在线数据增强中也将是有趣的。参考博文:https://blog.youkuaiyun.com/matt45m/article/details/145547229?spm=1001.2014.3001.5502

2025-02-10

基于OpenCV部署RecRecNet广角图像畸变矫正C++代码

广角镜头在VR技术等领域有着诱人的应用,但它会使拍摄的图像产生严重的径向畸变。为了还原真实场景,以往的工作致力于校正广角图像的内容。然而,这种校正方法不可避免地会扭曲图像边界,改变相关的几何分布,并误导当前的视觉感知模型。在这项工作中,我们通过提出一种新的学习模型,即矩形校正网络(RecRecNet),探索在内容和边界上构建一种双赢的表示。特别是,我们提出了一个薄板样条(TPS)模块来构建用于图像矩形化的非线性和非刚性变换。通过学习校正后图像上的控制点,模型可以灵活地将源结构扭曲到目标域,并实现端到端的无监督变形。为了缓解结构逼近的复杂性,接着启发RecRecNet通过基于自由度(DoF)的课程学习来掌握渐进变形规则。通过在每个课程阶段增加自由度,即从相似变换(4自由度)到单应变换(8自由度),网络能够探究更详细的变形,在最终的矩形化任务上实现快速收敛。参考博客:https://blog.youkuaiyun.com/matt45m/article/details/145547229?spm=1001.2014.3001.5502

2025-02-10

水面漂浮物目标检测数据集2400张

水面垃圾目标检测,标注格式xml,标注工具是labelImg,数据数量2400张,可以使用脚本把xml转成txt或者json格式的标签,可用于深度学习计算机视觉目标检测。数据质量不是很高,是用几百张原始数据增强做成2000多张。 标注统计: bottle: 1691 branch: 434 plastic-bag: 411 leaf: 267 milk-box: 255 plastic-garbage: 202 grass: 201 ball: 49

2025-02-09

施工现场行人与佩带安全帽检测7544张txt格式

施工现在行人与行人佩戴安全帽检测,标注了行人、没有带安全帽的人头、佩带安全帽的人头,标注格式txt,标注工具是labelImg,数据数量7492张,可用于深度学习计算机视觉目标检测,目标标签:person,head,helmet。

2025-02-09

地上的烟头目标检测1023张xml格式

地上烟头目标检测,标注格式xml,标注工具是labelImg,数据数量1023张,可以使用脚本把xml转成txt或者json格式的标签,可用于深度学习计算机视觉目标检测,数据质量并不是很高。 标签统计结果:Bud: 1063

2025-02-09

骑摩托车行人与安全头盔检测5448张.part2

骑在车上的行人与行人佩戴安全帽检测,只标注骑在车上的人与安全头盔,标注格式xml,标注工具是labelImg,数据数量5448张,可以使用脚本把xml转成txt或者json格式的标签,可用于深度学习计算机视觉目标检测。 标注统计:two_wheeler: 16759,helmet: 15348,without_helmet: 7876

2025-02-09

骑摩托车行人与安全头盔检测5448张.part1

骑在车上的行人与行人佩戴安全帽检测,只标注骑在车上的人与安全头盔,标注格式xml,标注工具是labelImg,数据数量5448张,可以使用脚本把xml转成txt或者json格式的标签,可用于深度学习计算机视觉目标检测。 标注统计:two_wheeler: 16759,helmet: 15348,without_helmet: 7876

2025-02-09

道路缺陷目标检测xml格式共665张

道路缺陷检测,标注道路上有坑洼,标注格式xml,标注工具是labelImg,数据数量665张,可以使用脚本把xml转成txt或者json格式的标签,可用于yolo目标检测,用于无人机道路检测维修。

2025-02-09

无人机目标检测识别无人机

无人机目标检测,只有无人机一个类别,标注格式xml,标注工具是labelImg,数据数量1097张,可以使用脚本把xml转成txt或者json格式的标签,可用于yolo目标检测。

2025-02-09

鸟类目标检测xml与txt格式

鸟类识别目标检测,只有bird一个类别,标注格式xml和txt两种,标注工具是labelImg,数据数量4849张,可用于yolo目标检测。

2025-02-09

MVANet最强大的前景抠图模型

前景提取(背景移除)任务的主要挑战是在小范围内捕捉高分辨率细节,而在大范围内不损失精度。 受人类视觉的启发,我们建议将 MVANet 视为从多个角度观察物体的问题。 这一新方法通过改善远距离视觉交互和关注细节,在 DIS-5K 数据集上的精度和速度都优于当前的 SOTA。

2025-02-02

基于人脸检测与人脸关键点检测的人脸3维重建

3DDFA-V3的关键思想是将目标和预测的部件分割转化为语义点集,通过优化点集的分布来确保重建区域和目标具有相同的几何形态。具体来讲,3DDFA-V3提出了部件重投影距离损失(Part Re-projection Distance Loss, PRDL)。PRDL按照区域 left-eye, right-eye, left-eyebrow, right-eyebrow, up-lip, down-lip, nose, skin对人脸进行分块,针对二维部件分割的每个部分 ,PRDL首先在分割区域内采样点,得到目标点集 。然后,PRDL将三维人脸重建结果重新投影到图像平面上,并根据人脸模型的masks获得与目标区域语义一致的预测点集│,是人脸模型的系数。接着PRDL对图像平面的网格点进行采样,得到锚点集合,并计算任意一个锚点到点集的各种统计距离(如最近距离、最远距离、平均距离等)来建立几何描述子。 工程是Vs2019 C++,包含模型和依赖的库,下载直接运行。

2024-10-29

单目深度估计DepthAnything C++模型部署

单目深度估计(Monocular Depth Estimation, MDE)是一项在计算机视觉领域中非常重要的技术,它旨在从单张图像中恢复出场景的三维结构。这项技术对于机器人导航、自动驾驶汽车、增强现实(AR)和虚拟现实(VR)等应用至关重要。 "DepthAnything"是TikTok、香港大学和浙江大学共同研发的一种先进单目深度估计技术。这项技术能够从2D图像中提取深度信息,并将其转换为3D影像。与传统的MDE技术相比,"DepthAnything"在提高深度图质量方面取得了显著进步,这使得它能够更准确地估计场景的深度信息。 这种技术的应用前景非常广泛: 增强现实(AR)和虚拟现实(VR):通过将2D图像转换为3D,可以为用户创造更加沉浸式的体验。 机器人和自动驾驶汽车:更准确的深度估计可以帮助机器人和自动驾驶汽车更好地理解周围环境,从而提高它们的导航和决策能力。 内容创作:摄影师和视频制作者可以使用这项技术将普通2D内容转换为3D,增加作品的吸引力和互动性。 工程是vs2022,语言是C++,包含了所有的依赖库,下载直接运行就可以了。

2024-08-05

基于yolov8的面部七种表情识别C++部署工程

七种表情识别是一个多学科交叉的研究领域,它结合了心理学、认知科学、计算机视觉和机器学习等学科的知识和技术。 - **表情的定义**:表情是人们在情绪体验时面部肌肉活动的结果,是人类情感交流的基本方式之一。 - **基本表情理论**:心理学家Paul Ekman提出,人类有七种基本情绪,每种情绪都有其特定的面部表情模式。 ### 七种基本表情 1. **快乐**:通常与积极情绪相关,特征是嘴角上扬,眼睛周围肌肉收缩。 2. **悲伤**:与失落或痛苦相关,特征是眉毛下垂,嘴角下拉。 3. **愤怒**:与愤怒或挫败相关,特征是眉毛下压,嘴唇紧闭。 4. **惊讶**:与意外或震惊相关,特征是眼睛和嘴巴张开。 5. **恐惧**:与害怕或焦虑相关,特征是眼睛瞪大,眉毛提升。 6. **厌恶**:与反感或不喜欢相关,特征是上唇提升,嘴角下拉。 7. **轻蔑**:与鄙视或不屑一顾相关,特征是嘴角一侧上扬。

2024-08-04

万物分割(Segment Anything Model)C++模型推理部署

SAM 的独特之处之一是它具有执行全景分割的能力,这涉及将实例分割和语义分割相结合。实例分割涉及识别和划分图像内每个物体实例,而语义分割涉及为图像中的每个像素标记相应的类别标签。全景分割将这两种方法结合起来,以提供对图像更全面的理解。 SAM 的另一个关键特点是其灵活性。该模型可以针对特定的用例和领域进行微调,使其高度适应性。 SAM 的架构也非常高效,使其能够实时处理大量数据。这使其非常适合需要快速准确的图像分割的应用,例如安全监控、工业自动化和机器人技术。 代码是Vs 2022 完整项目,包含整个依赖,下载之后直接运行就可以。

2024-08-02

盲道检测分割C++推理代码

盲道是视障人士安全出行的重要辅助设施。识别盲道的形状和位置,对于增强视障人士的自主移动能力至关重要,而视觉分割技术正是应对这一挑战的有效工具。为了显著提升盲道分割的精确度和稳定性,本文提出了一种创新的分割方法,该方法融合了UNet网络与多尺度特征提取技术。本方法在UNet架构中引入了组感受野块(GRFB)的设计,用以捕获盲道的多级视觉信息。通过应用组卷积,该方法有效降低了计算的复杂度。此外,在每个组卷积之后引入了小尺度卷积,以促进不同通道间的信息交流和融合,进而提取更为丰富和高层次的特征。 在本研究中,我们构建并标注了一个包含多种环境条件下盲道的数据集,用以进行实验评估。我们还对本方法与现有的典型网络结构和模块进行了详尽的比较分析。实验结果表明,我们提出的网络在盲道分割任务上的表现超越了其他对比网络,为盲道的检测提供了一个有力的参考,这不仅证明了本方法的有效性,也为视障人士的导航辅助技术的发展做出了贡献。

2024-08-01

低光照图像增强vs2019 C++代码

低光照图像增强(LLIE)是计算机视觉(CV)领域的一个重要且具有挑战性的任务。在低光照条件下捕获图像会显著降低其质量,导致细节和对比度的丧失。这种退化不仅会导致主观上不愉快的视觉体验,还会影响许多CV系统的性能。LLIE的目标是在提高可见度和对比度的同时,恢复暗环境中固有的各种失真。 低光照条件指的是环境场景中的光照水平低于实现最佳可见性的标准要求。然而,在实际应用中,到目前为止,还无法确定特定的理论值来明确界定低光照环境。因此,对于识别和量化构成低光照条件的标准,尚未有统一的规定。 LLIE在各种计算机视觉任务中发挥着重要作用,如特征提取或基于内容的识别。此外,它还是更复杂系统在诸如医学成像、移动遥感、视频监控系统等不同领域中一个关键步骤。 LLIE解决方案随着卷积神经网络(CNN)的发展而进步,所提出的解决方案主要分为两类 参考博客:http://t.csdnimg.cn/1Ny16

2024-07-31

深度学习图像处理客户端与服务器.rar

代码包含了基于TCP的客户端与服务器端,功能是是基于OpenCV C++与Yolov5 face实现一个完整的深度学习模型推理部署与推流的过程。代码使用C++实现,包含所有用到的库与模型。

2024-07-29

yolov5-v7.0河道漂浮物检测.rar

河流作为水环境中的重要组成部分,在供给水源、维持生态、美化景观等诸多方面扮演着不可或缺的角色。但是,目前人类活动和自然因素导致河面频繁出现大量漂浮物,严重破坏了河道景观和水生态环境,已成为河道监管中重点关注的问题。在国内各省市全面推行落实“河长制”政策的背景下,很多地方开始采用摄像头进行河湖可视化监管以促进河湖面貌改善,但是人工参与程度依然较高,单纯依靠人力观看大量的监控资料来判断河湖状况。在这种情况下,推动当前河道视频分析的智能化与无人化已成为河流长效管护的迫切需求。但是,河流环境本身复杂多样,例如,河流结构性差、易受动态光影和水波扰动等噪声的影响,现有的视觉方法应用至水面漂浮物监测任务中仍存在一些问题需要解决。围绕上述需求及难点,本文开展了基于视觉分析的河道漂浮物检测与跟踪方法研究,并进行了实验应用。使用的算法是yolov5 v7.0这个版本,里面包含了5000多张已经标注好的数据集,下载之后直接训练就可以,算法训练可参考:https://blog.youkuaiyun.com/matt45m/article/details/138141616?spm=1001.2014.3001.5502

2024-04-24

YOLOv8与DeepSORT实现目标追踪

YOLOv8是一种基于图像全局信息进行预测并且它是一种端到端的目标检测系统,最初的YOLO模型由Joseph Redmon和Ali Farhadi于2015年提出,并随后进行了多次改进和迭代,产生了一系列不同版本的YOLO模型,如YOLOv2、YOLOv3、YOLOv4,YOLOv5等。这些更新和迭代旨在提高模型的性能、精度和速度,使其在实际应用中更具竞争力。 YOLOv8的核心思想是将图像划分为网格,并在每个网格单元中预测物体的边界框和类别。这种设计使得YOLO非常适合实时目标检测应用,因为它可以在较短的时间内完成目标检测任务。 多目标跟踪往往面临一些挑战,例如需要同时跟踪多个目标、目标可能频繁遮挡,这些因素使得目标跟丢成为一个常见问题。为了解决这些问题,可以借助跟踪器 DeepSORT 以及检测器 YOLO v8,从而构建一个高性能的实时多目标跟踪模型。 参考博客:https://blog.youkuaiyun.com/matt45m/article/details/134237238#comments_32297294

2024-04-18

手机目标检测数据集.rar

这是一个手机目标检测的数据集,数据集的标注工具是labelimg,数据格式是voc格式,要训练yolo模型的话,可以使用脚本改成txt格式,数据集标注了手机,标签名:telephone,数据集总共有1960张,有一部分是直实数据,有一部分是是真实数据。数据集下载之后就可以直接使用。

2024-04-14

标注扑克牌目标识别数据集

这是一个检测扑克牌种类的数据集,检测种类目前只有6种,分别是 ``` "queen", "ten", "nine", "king", "jack", "ace" ``` 数据集共含有363张图片,标注的工具是labelimg,数据标签是xml。

2024-04-13

实时语义分割ENet算法Pytorch复现与模型训练

ENet架构是专为语义分割而设计的。与成熟的深度学习工作站相比,主要目标是有效利用嵌入式平台上可用的稀缺资源。Enet工作在完成此任务方面取得了很大的收获,与此同时,匹配并有时超过了现有的baseline,这些baseline对计算和内存的要求更高。ENet在NVIDIA TX1硬件上的应用体现了实时便携式嵌入式解决方案。即使主要目标是在移动设备上运行网络,它在NVIDIA Titan X等高端GPU上也非常有效。在需要处理大量高分辨率图像的数据中心应用中,这可能被证明是有用的。ENet允许以更快,更高效的方式执行大规模计算,这可能会节省大量资金。 资源是对论文的复现,可用于时实语义分割,转了模型之后可以部署在边缘设备上,关于算法的应用与理解可以参考个人的博客。里面有详细的介绍与训练方向。

2024-04-10

基于深度学习实现的复杂背景文档二值化的算法实现

阈值分割可以被视为一个分类问题,通常涉及两个类别,这也是为什么阈值分割也被称为二值化。对于文档图像,我们期望阈值算法能够正确地将墨水分类为黑色,将纸张分类为白色,从而得到二值化图像。对于数字灰度图像,最简单的实现方法是选择一个阈值值,比如图像二值化,并将高于这个值的灰度级别分配为白色,将剩余的级别分配为黑色。问题在于正确找到这个值,以便能够完美匹配前景和背景元素。 在这里将探讨如何通过使用基于卷积神经网络(CNN)的U-Net架构训练的模型进行分类,来实现具有不同类型问题的文档二值化。CNN的典型用途在于分类任务,其中对图像的输出是一个单一的类别标签。然而,在许多视觉任务中,期望的结果不仅包括图像中物体是否存在,还包括其定位,即每个像素都应该被分配到一个类别标签。

2024-04-10

夜晚图像雾霾图像增强C++/python部署

在夜间雾霾场景中,可见性经常受到低光照、强烈光晕、光散射以及多色光源等多种因素的影响而降低。现有的夜间除雾方法常常难以处理光晕或低光照条件,导致视觉效果过暗或光晕效应无法被有效抑制。本文通过抑制光晕和增强低光区域来提升单张夜间雾霾图像的可见性。为了处理光晕效应,我们提出了一个光源感知网络来检测夜间图像的光源,并采用APSF(大气点扩散函数)引导的光晕渲染。我们的框架在渲染图像上进行训练,实现了光晕的抑制。此外,我们还利用梯度自适应卷积来捕捉雾霾场景中的边缘和纹理。通过提取的边缘和纹理,我们在不丢失重要结构细节的情况下增强了场景的对比度。为了提升低光强度,我们的网络学习了一个注意力图,然后通过伽马校正进行调整。这个注意力图在低光区域有较高的值,在雾霾和光晕区域有较低的值。通过在真实的夜间雾霾图像上进行广泛的评估,我们的方法证明了其有效性。

2024-04-10

基于NCNN轻量级PaddleOCRv4模型C++推理

PaddleOCR 提供了基于深度学习的文本检测、识别和方向检测等功能。其主要推荐的 PP-OCR 算法在国内外的企业开发者中得到广泛应用。在短短的几年时间里,PP-OCR 的累计 Star 数已经超过了32.2k,常常出现在 GitHub Trending 和 Paperswithcode 的日榜和月榜第一位,被认为是当前OCR领域最热门的仓库之一。 PaddleOCR 最初主打的 PP-OCR 系列模型在去年五月份推出了 v3 版本。最近,飞桨 AI 套件团队对 PP-OCRv3 进行了全面改进,推出了重大更新版本 PP-OCRv4。这个新版本预计带来了更先进的技术、更高的性能和更广泛的适用性,将进一步推动OCR技术在各个领域的应用。 参考博客:https://blog.youkuaiyun.com/matt45m/article/details/134713935#comments_32019413

2024-04-02

检测出图像中的几何形状并测量出边长、直径、内角(python和opencv实现)

图像里面的线段测量,首先要理解“每度量比的像素”(pixels per metric ratio),它类似于比例尺,通过已知图像上一个对象的尺寸和该对象在图像中所占像素的数量,可以得到一个比例关系,从而可以将其他物体的像素转换为实际度量单位(如厘米、毫米等)。 关键属性包括: 已知长度:需要知道图像中一个物体的实际长度,通常是以某种可测量的单位(例如毫米、英寸等)来表示。 像素数量:该已知长度物体在图像中所占据的像素数。这可以通过在图像中测量该物体的像素宽度或高度来获取。 有了这两个属性,就可以计算出每个度量单位所对应的像素数。这个比例关系将图像中的像素转换为实际的度量单位,从而可以测量其他物体的大小或长度。

2024-03-29

YOLOv8目标检测、语义分割、状态估计、目标追踪模型部署带GUI界面

Ultralytics YOLOv8是一种前沿的、最先进的(SOTA)模型,它在前代YOLO版本的成功基础上进行了进一步的创新,引入了全新的特性和改进,以进一步提升性能和灵活性。作为一个高速、精准且易于操作的设计,YOLOv8在广泛的领域中,包括目标检测与跟踪、实例分割、图像分类以及姿势估计等任务中,都表现出色。实例分割在物体检测的基础上迈出了更进一步的步伐,它不仅可以识别图像中的单个物体,还能够精确地将这些物体从图像的其他部分中分割出来。这是一个集成了YoloV8目标检测、实例分割、姿态估计与目标追踪的项目,界面是用PyQt5写的,可以读入图像,视频与摄像头。可用于对比与参考这几个算法的差异与如何部署。关于源码的运行与部署可以参考博客《YOLOv8项目解析——一文搞定目标检测、语义分割、状态估计、目标追踪算法原理与模型部署》,博客地址:http://t.csdnimg.cn/PbVNu

2024-03-26

图像抠图DIS-自然图像中高精度二分图像抠图的方法(C++推理代码)

二分图像分割(DIS),旨在从自然图像中分割高精度的对象。为此,我们收集了第一个大规模DIS数据集,称为DIS5K,其中包含5470张高分辨率(例如2K、4K或更大)图像,涵盖各种背景中的伪装、突出或精细物体。DIS使用极细粒度的标签进行注释。此外,我们还引入了一个简单的中间监督基线(IS-Net),使用特征级和掩码级指导进行DIS模型训练。IS-Net在建议的DIS5K上优于各种前沿基线,使其成为一个通用的自学习监控网络,可以促进DIS的未来研究。此外,我们设计了一个新的度量,称为人类校正努力(HCE),它近似于纠正假阳性和假阴性所需的鼠标点击操作数。HCE用于测量模型和实际应用程序之间的差距,因此可以补充现有指标。最后,我们进行了最大规模的基准测试,评估了16种具有代表性的分割模型,对对象的复杂性进行了更深入的讨论,并展示了几种潜在的应用(例如背景去除、艺术设计、三维重建)。希望这些努力能为学术界和工业界开辟有希望的方向。

2024-03-24

百度人像抠图C++模型部署完整包

PP-HumanSeg v2人像分割方案是一项重要的突破,采用了深度学习技术,以96.63%的mIoU精度和仅15.86ms的推理耗时,在人像分割领域刷新了SOTA指标。该方案不仅支持商业应用,而且可零成本、开箱即用。 相比于之前的版本,PP-HumanSeg v2在推理速度和精度上都有显著提升,肖像分割模型推理速度提升45.5%,mIoU精度提升3.03%。通用人像分割模型推理速度提升5.7%,mIoU精度提升6.5%。 通过以上优化措施,PaddleSeg的肖像分割模型在保证分割精度的情况下,大幅减少了参数量,提高了模型的轻量化程度,并且通过全局上下文信息的汇集和特征融合,进一步提升了模型的语义理解能力和分割效果。

2024-03-23

人像自动抠图LFM训练代码与C++推理部署代码

图像抠图(Image Matting)是一个在工业界和视觉研究领域都非常重要的研究课题。从 2000 年开始,对图像抠图及相关研究问题进行了大量研究,产生了一系列对计算机视觉和计算机图形学研究都有深远影响的工作,例如 GrabCut、Guided Filter、Closed Form Matting、Poisson Matting、Bayesian Matting 等。在好莱坞的动作大片、迪士尼的动画巨作、Office 以及 Adobe Photoshop 的一些功能中都能看到抠图算法的应用。 解决抠图问题需要我们分别求解出图像的前景、背景和 alpha matte。Alpha matte 即我们常说的 alpha 通道,基于 alpha 通道我们可以将前景和任意背景进行重新组合得到新的图像。因此,alpha matte 是和原图同大小的一个单通道图像,每个像素都对应于原 RGB 图像相同位置像素的 alpha 值。关于算法解析与实现具体步骤可看我的博客《人像抠图PP-Matting——支持多场景精细化高精度人像抠图(C++模型推理)》

2024-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除