
计算机视觉
文章平均质量分 89
知来者逆
点错技能树了
展开
-
深度学习——深入解读各种卷积的应用场景优劣势与实现细节
本文介绍了深度学习中常见的多种卷积类型,包括它们的定义、工作原理、优缺点以及应用场景。通过这些介绍,希望能帮助读者更好地理解卷积在深度学习中的作用,以及如何根据具体需求选择合适的卷积类型。原创 2025-03-31 14:02:00 · 932 阅读 · 0 评论 -
图像相似性搜索算法比较 ——对比EfficientNet、 ViT、 VINO 、 CLIP 、 BLIP2算法优劣与场景测试
EfficientNet(CNN 架构):不擅长捕捉超出像素信息的语义。:比 CNN 更好,但仍然专注于像素信息而不是图像的含义。DINO-v2:可以捕捉图像的语义,并且倾向于专注于前景物体。CLIP:可以捕捉语义,但有时可能会受到可以从图像中读取的语言信息的强烈影响。BLIP-2:可以捕捉语义,是其他模型中最优越的结果。综上所述,在进行图像相似性搜索时,应该优先选择 DINO-v2 或 BLIP-2 以获得更好的结果。如果专注于图像中的物体,应该使用 DINO-v2。原创 2025-03-30 10:09:40 · 1066 阅读 · 0 评论 -
计算机视觉——深入理解卷积神经网络与使用卷积神经网络创建图像分类算法
卷积神经网络(Convolutional Neural Networks,简称 CNNs)是一种深度学习架构,专门用于处理具有网格结构的数据,如图像、视频等。它们在计算机视觉领域取得了巨大成功,成为图像分类、目标检测、图像分割等任务的核心技术。CNNs 的核心思想是利用卷积操作(convolution)来提取数据中的局部特征,并通过层次化的结构逐步学习更复杂的模式。原创 2025-03-16 14:41:32 · 3226 阅读 · 5 评论 -
在不使用对抗性物体一种可规避街道摄像头行人检测的算法实现
以色列和日本的一项新的合作研究认为,行人检测系统存在固有弱点,这使得消息灵通的人能够通过精心规划路线,穿过监控网络效果最差的区域,从而避开人脸识别系统。借助来自东京、纽约和旧金山的,研究人员开发出了一种自动计算此类路线的方法,该方法基于公共网络中可能使用的最流行的物体识别系统。研究中使用的三个十字路口:日本东京的涩谷十字路口、纽约的百老汇和旧金山的卡斯特罗区。原创 2025-02-24 13:46:34 · 830 阅读 · 0 评论 -
Vript-Hard——一个基于高分辨率和详细字幕的视频理解算法
近年来,多模态学习的进步使人们越来越关注理解和生成视频的模型。这导致了对具有高分辨率视频和详细说明的高质量视频文本数据集的需求激增。然而,由于视频中增加了时间成分,因此获取和注释视频-文本对要比获取和注释图像-文本对更加困难。例如,旅游视频博客包含许多事件,每个事件由不同的场景组成,如准备旅行或参观目的地。视频字幕需要花费大量的时间和精力来查看整个视频并标注细节。因此,传统的视频文本数据集通常只包含简短粗糙的描述。原创 2025-02-13 19:23:17 · 1375 阅读 · 0 评论 -
RecRecNet——基于薄板样条模型自由度的课程学习的广角图像畸变矫正算法实现与模型部署
广角镜头在VR技术等领域有着诱人的应用,但它会使拍摄的图像产生严重的径向畸变。为了还原真实场景,以往的工作致力于校正广角图像的内容。然而,这种校正方法不可避免地会扭曲图像边界,改变相关的几何分布,并误导当前的视觉感知模型。在这项工作中,我们通过提出一种新的学习模型,即矩形校正网络(RecRecNet),探索在内容和边界上构建一种双赢的表示。原创 2025-02-10 15:59:50 · 775 阅读 · 0 评论 -
MVANet——小范围内捕捉高分辨率细节而在大范围内不损失精度的强大的背景消除模型
在这篇评论文章中,我们将高精度前景提取(背景去除)建模为一个多视角物体识别问题,提供了一个高效、简单的多视角聚合网络。这样做的目的是更好地平衡模型设计、准确性和推理速度。为解决多视图的目标对准问题,提出了多视图完成定位模块,以联合计算目标的共同关注区域。此外,提出的多视图完成细化模块被嵌入到每个解码器块中,以充分整合互补的本地信息,减少单视图补丁中语义的缺失。这样,只需一个卷积层就能实现最终的视图细化。广泛的实验表明,所提出的方法性能良好。原创 2025-02-02 19:23:11 · 1115 阅读 · 0 评论 -
基于ADAS 与关键点特征金字塔网络融合的3D LiDAR目标检测原理与算法实现
3D LiDAR目标检测是一种在三维空间中识别和定位感兴趣目标的技术。在自动驾驶系统和先进的空间分析中,目标检测方法的不断演进至关重要。3D LiDAR目标检测作为一种变革性的技术,在环境感知方面提供了前所未有的准确性和深度信息.在这里,我们将深入探讨使用关键点特征金字塔网络(K-FPN)结合KITTI 360 Vision数据集,融合RGB相机和3D LiDAR数据,实现自动驾驶的详细过程和训练方法。原创 2025-01-08 09:54:18 · 1127 阅读 · 0 评论 -
基于ViT、CLIP、EfficientNet、DINO-v2和BLIP-2构建AI图像相似性搜索
为了深入探究图像相似性,这里决定采用多种先进的人工智能模型进行分析。这些模型包括视觉变换器(ViT)、对比语言-图像预训练模型(CLIP)、基于双向编码器表示的图像描述模型(BLIP)、高效网络(EfficientNet)、DINO-v2以及经典的卷积神经网络VGG16。通过这些模型,能够从不同角度和层面捕捉到图像之间的相似之处。例如,视觉变换器(ViT)通过将图像分割成多个小块,并利用自注意力机制来分析这些图像块之间的关系,从而揭示出图像的内在相似性;原创 2025-01-07 12:56:29 · 1135 阅读 · 0 评论 -
基于CLIP和DINOv2实现图像相似性方面的比较
在人工智能领域,CLIP和DINOv2是计算机视觉领域的两大巨头。CLIP彻底改变了图像理解,而DINOv2为自监督学习带来了新的方法。在本文中,我们将踏上一段旅程,揭示定义CLIP和DINOv2的优势和微妙之处。我们的目标是发现这些模型中哪一个在图像相似性任务的世界中真正表现出色。让我们见证巨头的碰撞,看看哪个模型会脱颖而出。原创 2025-01-06 09:23:06 · 1267 阅读 · 0 评论 -
安卓NDK视觉开发——手机拍照文档边缘检测实现方法与库封装
安卓NDK开发,基于深度学习与OpenCV实现文档拍照扫描,实现边缘检测与边缘校正,可使用GPU进行推理,速度和精度都到商用级别。原创 2025-01-03 21:44:33 · 1009 阅读 · 1 评论 -
DBNet——基于区域分割的文本检测算法原理与实践
基于分割的文本检测方法对分割结果的概率图进行二值化后处理,然后来提取文本区域,可以检测任意形状的文本区域。但基于分割的文本检测算法一般都需要复杂的后处理,影响推理的性能。上图中,蓝色的路径表示传统的基于分割的文本检测,完整流程包括得到分割概率图,使用阈值二值化,然后通过像素聚类等手段得到最终的文本检测结果,红色路径是作者提出的新的方法,同时输出分割概率图和进行二值化使用的阈值图,之后,其中虚线表示操作只发生在预测阶段,实线表示在训练和预测阶段都会发生。原创 2024-12-31 21:23:25 · 1183 阅读 · 0 评论 -
计算机视觉单阶段实例分割实践指南与综述
位置敏感的分数图可以被视为原型掩码,但 IntanceFCN 和 FCIS 使用一组固定的空间池操作来组合位置敏感的原型掩码,而不是学习线性系数。(Bottom-up Object Detection by Grouping Extreme and Center Points,CVPR 2019)通过使用四个极值点(因此是一个具有8个自由度的边界框而不是传统的4个DoF)进行检测,并且这种更丰富的参数化可以自然地扩展通过在其对应边缘上的两个方向上的极值点延伸到整个边缘长度的 1/4 的一段,到八边形掩模。原创 2024-12-16 22:19:32 · 1553 阅读 · 0 评论 -
Sapiens——人类视觉大模型的基础
大规模预训练以及随后针对特定任务的语言建模微调取得了显著成功,已将这种方法确立为标准做法。同样, 计算机视觉方法正逐步采用大规模数据进行预训练。LAION5B、Instagram-3.5B、JFT-300M、LVD142M、Visual Genome 和 YFCC100M 等大型数据集的出现使得人们能够探索远远超出传统基准范围的数据语料库。该领域的突出工作包括 DINOv2、MAWS 和 AIM。原创 2024-09-18 22:03:48 · 1472 阅读 · 0 评论 -
智慧农业——InsectMamba利用状态空间模型对害虫进行分类
害虫分类是农业中的一个重要问题。准确识别有害害虫可减少对作物的损害,确保粮食安全和环境的可持续发展。然而,害虫及其自然环境的高度拟态性和物种多样性使得视觉特征的提取极具挑战性。现有方法很难提取出区分近缘害虫物种所需的细节特征。即使采用了最先进的深度学习方法,由于害虫与背景之间存在很大的相似性,挑战依然存在。在此背景下,亟需开发更有效的害虫分类模型。原创 2024-09-13 10:29:19 · 950 阅读 · 0 评论 -
视频插帧—— RIFE 和 IFNet 的机制和应用
融合地图并不是人工智能的一种,它是人工智能创建的加权地图,是人工智能使用的类似工具的实体,如 IFNet。融合图的作用是确定像素的融合程度。它提供了权重信息,说明在对每个像素进行扭曲处理后,应从帧(扭曲帧 A 或扭曲帧 B)中提取多少信息。确定每个像素的权重,例如,一个像素的 70% 来自翘曲帧 A,30% 来自翘曲帧 B。这些权重信息用于融合两个帧并生成中间帧。融合制图是一种将不同来源的数据融合在一起以创建新图像的方法。'它将不同来源的数据结合起来,创造出新的图像。原创 2024-08-22 18:08:26 · 1695 阅读 · 0 评论 -
SAM 2——视频和图像实时实例分割的全新开源模型
过去几年,人工智能领域在文本处理的基础人工智能方面取得了显著进步,这些进步改变了从客户服务到法律分析等各个行业。然而,在图像处理方面,我们才刚刚开始。视觉数据的复杂性以及训练模型以准确解释和分析图像的挑战带来了重大障碍。随着研究人员继续探索图像和视频的基础人工智能,人工智能图像处理的未来有望为医疗保健、自动驾驶汽车等领域带来创新。对象分割是计算机视觉中的一项关键任务,它涉及精确定位图像中与感兴趣对象相对应的像素。传统上,这涉及创建专门的 AI 模型,这需要广泛的基础设施和大量带注释的数据。原创 2024-08-21 16:30:55 · 2353 阅读 · 0 评论 -
S2CNet——语义空间智能图像剪切
图片裁剪的目的是自动挖掘图片中最具美观的视图,广泛应用于图片美学构图,例如缩略 图生成[1]、摄影辅助[2]和肖像推荐[3]等。其中,图片缩略图或封面裁剪是新兴的 User Generated Content (UGC) 领域的重要应用。如上图公众号业务所示,需要将原图裁剪为一个 3:4 的尺寸图片作为文章封面展示。而封 面图的美观与完整性决定了用户是否愿意点击进入文章阅读,并直接影响文章或帖子的点击 率。同时,图片裁剪的输出尺寸(如 1:1,16:9,3:4 等)会随着业务的更替变化而进行切换。原创 2024-08-10 00:00:32 · 1212 阅读 · 0 评论 -
计算机视觉——凸包计算
现在有一大堆点,然后你要找出一个可以围住这些点且面积最小的凸多边形,这个凸多边形称为凸包。显而易见,如果要面积最小,那凸包的顶点势必得是这一大堆点的几个点,你也可以想成是用一条橡皮筋把这些点圈起来。先把各个点按坐标从小到大排序,坐标相同则再按坐标从小到大排序,排序之后的点顺序会是由左至右、由下至上,这样一来我们就可以按这个顺序遍历这些点,这种往固定方向扫描的方式,称为扫描线。先讨论一件事情:有一个凸多边形,它的顶点已经按逆时针顺序排好了,依次是p1p2...pn,那么pi。原创 2024-08-08 16:08:39 · 1402 阅读 · 0 评论 -
相机标定——小孔成像、相机模型与坐标系
用一个带有小孔的板遮挡在墙体与物之间,墙体上就会形成物的倒影,我们把这样的现象叫小孔成像。用一个带有小孔的板遮挡在墙体与物之间,墙体上就会形成物的倒影,我们把这样的现象叫小孔成像。前后移动中间的板,墙体上像的大小也会随之发生变化,这种现象说明了光沿直线传播的性质。在照相机被发明之前,人们就已经开始利用“小孔成像”原理制造各类光学成像装置,这种装置被称为“Camera obscura(暗箱)”。原创 2024-08-07 21:47:41 · 1725 阅读 · 0 评论 -
Depth Anything强大的单目深度估计Python与C++模型部署
最近看到一个叫单目深度估计模型火了,于是抽空把代码和模型下载下来体验了一下,发现确实是很强大。论文链接:https://arxiv.org/pdf/2401.10891.pdf代码链接:https://github.com/LiheYoung/Depth-Anything项目主页: https://depth-anything.github.io/本文只记录如何使用官方代码跑demo,以及如何导出onnx模型并用做部署。原创 2024-08-05 22:43:26 · 2404 阅读 · 0 评论 -
基于Yolov8面部七种表情检测与识别C++模型部署
七种表情识别是一个多学科交叉的研究领域,它结合了心理学、认知科学、计算机视觉和机器学习等学科的知识和技术。原创 2024-08-04 12:27:10 · 1945 阅读 · 0 评论 -
Depth Anything——强大的单目深度估计模型
本研究引入了Depth Anything模型,该模型在稳健的单目深度估计方面展现了高度实用性。通过强调廉价且多样化的未标记图像的价值,并采用两种有效策略,即在学习未标记图像时设定更具挑战性的优化目标以及保留预训练模型的丰富语义先验,使得该模型在零样本深度估计方面表现出色。此外,该模型还可作为有望初始化下游度量深度估计和语义分割任务的有效工具。原创 2024-08-03 18:38:54 · 3592 阅读 · 0 评论 -
万物分割(Segment Anything Model)C++模型推理部署
SAM 是一种先进的人工智能模型,已经证明了在分割复杂和多样化图像方面具有优异的表现。该模型是计算机视觉和图像分割领域的一个重大突破。SAM 的架构旨在处理各种图像分割任务,包括对象检测、实例分割和全景分割。这意味着该模型可以应用于各种用例,从医学图像分析到自主驾驶。SAM 的独特之处之一是它具有执行全景分割的能力,这涉及将实例分割和语义分割相结合。实例分割涉及识别和划分图像内每个物体实例,而语义分割涉及为图像中的每个像素标记相应的类别标签。全景分割将这两种方法结合起来,以提供对图像更全面的理解。原创 2024-08-02 22:47:08 · 1619 阅读 · 0 评论 -
GRFB UNet——基于多尺度注意网络盲道检测算法实现与模型C++部署
盲道是视障人士安全出行的重要辅助设施。识别盲道的形状和位置,对于增强视障人士的自主移动能力至关重要,而视觉分割技术正是应对这一挑战的有效工具。为了显著提升盲道分割的精确度和稳定性,本文提出了一种创新的分割方法,该方法融合了UNet网络与多尺度特征提取技术。本方法在UNet架构中引入了组感受野块(GRFB)的设计,用以捕获盲道的多级视觉信息。通过应用组卷积,该方法有效降低了计算的复杂度。此外,在每个组卷积之后引入了小尺度卷积,以促进不同通道间的信息交流和融合,进而提取更为丰富和高层次的特征。原创 2024-08-01 09:30:00 · 1118 阅读 · 0 评论 -
LYT-Net——轻量级网络低光照条件图像修复模型推理部署(C++/Python)
低光照图像增强(LLIE)是计算机视觉(CV)领域的一个重要且具有挑战性的任务。在低光照条件下捕获图像会显著降低其质量,导致细节和对比度的丧失。这种退化不仅会导致主观上不愉快的视觉体验,还会影响许多CV系统的性能。LLIE的目标是在提高可见度和对比度的同时,恢复暗环境中固有的各种失真。原创 2024-07-31 12:47:03 · 1204 阅读 · 0 评论 -
LYT-Net——轻量级YUV Transformer 网络低光照条件图像修复
低光照图像增强(LLIE)是计算机视觉(CV)领域的一个重要且具有挑战性的任务。在低光照条件下捕获图像会显著降低其质量,导致细节和对比度的丧失。这种退化不仅会导致主观上不愉快的视觉体验,还会影响许多CV系统的性能。LLIE的目标是在提高可见度和对比度的同时,恢复暗环境中固有的各种失真。低光照条件指的是环境场景中的光照水平低于实现最佳可见性的标准要求。然而,在实际应用中,到目前为止,还无法确定特定的理论值来明确界定低光照环境。因此,对于识别和量化构成低光照条件的标准,尚未有统一的规定。原创 2024-07-30 14:10:17 · 2397 阅读 · 0 评论 -
数字图像处理——颜色迁移N维pdf迁移
简单来说, 本文将图像看作是随机变量的一组样本, 图像之间的颜色迁移可以看作是样本之间分布的迁移. 因而本文的方法就是寻找样本分布之间的迁移方法.原创 2024-07-28 17:25:30 · 751 阅读 · 0 评论 -
用于大规模图像识别的深度卷积网络
这项研究探讨了卷积网络深度对图像识别准确性的影响。重要的是,对具有小型卷积滤波器的网络进行的评估表明,具有 16-19 个权重层的深度网络的性能优于传统配置。这些结果使得该模型在2014年ImageNet挑战赛中取得了成功,并在其他数据集上表现出色。研究人员的目标是向公众提供两个最有效的 ConvNet 模型,以促进深度视觉表示方面的研究。原创 2024-07-15 23:52:12 · 835 阅读 · 0 评论 -
connect-caption-and-trace——用于共同建模图像、文本和人类凝视轨迹预测
提出了Mirrored TransformeR(MITR),这是一个新颖的转化器架构,它对图像、标题和追踪三种模式进行联合建模。由于该模型有可能被用来解决各种社会问题,例如为社交媒体上的视障人士自动生成图片的本地化描述。未来的发展将受到密切关注。原创 2024-06-20 16:27:22 · 1039 阅读 · 0 评论 -
GIAOTracker——一个用于多类、多对象追踪的综合框架探索
(1).与SOTA(State-of-the-Art)的比较:在物体追踪领域,与现有最先进技术的比较是衡量新方法性能的重要标准。您提到的“最后一次与SOTA的比较”可能指的是在某个数据集或任务上,新方法与当前最佳方法的对比。如果使用所有SOTA的注释数据进行追踪,理论上可以更全面地评估新方法的性能,但这也可能受限于不同SOTA方法的兼容性和数据集的一致性。(2).JDE和公平比较:JDE(Joint Detection and Embedding)是一种多目标追踪算法。原创 2024-06-20 14:10:36 · 809 阅读 · 0 评论 -
深度学习的舌象诊断:从舌头上了解系统性疾病!
东方医学是以中药、针灸为主的东方传统医学。西医是直接用药物或手术治疗身体不好的部分,而东方医学的目的是着眼于整个身体,而不是只治疗不好的部分,方法有针灸、中医等。此外,它还有自己的"密约"概念。"密约"的意思是还没有生病,但还没有健康,目的是防止因疲劳和积累的抵抗力而引起的疾病。东方医学的诊断方法有"四诊",其中"望闻问切"是从面部表情、外貌等外在特征来把握身体状态的。其中,舌诊可以从舌头的状态中把握身体的状态,以无创的方式高准确度地找出病症点。原创 2024-06-07 23:55:54 · 2119 阅读 · 0 评论 -
证件拍照扫描——基于C++与深度神经网络实现证件识别扫描并1比1还原证件到A4纸上
用拍照的证件照片正反面,实现用证件去复印到A4纸上的效果,还有证件的格式化识别。原创 2023-04-23 14:42:24 · 2630 阅读 · 3 评论 -
深度学习模型部署——基于Onnx Runtime的深度学习模型CPU与GPU部署(C++实现)
以上就是在win 10下使用Onnx Runtime用CPU与GPU来对onnx模型进行推理部署的对比,可以明显的看出来,使用GPU之后的推理速度,但在正式的大型项目中,在win下使用GPU部署模型是不建议,一般都会选择Linux,那样对GPU的利用率会高出不少,毕竟蚊腿肉也是肉。原创 2024-05-18 18:17:38 · 12506 阅读 · 5 评论 -
探索执法部门如何在不依赖面部识别的情况下追踪感兴趣的人
随着人工智能与执法的日益融合,在保护隐私和确保公共安全之间取得平衡成为首要问题。虽然人工智能有望加强公共安全措施,但它也有可能侵犯隐私和滥用权力。通过正确的保障措施和实践,人工智能可以用来服务和支持更大的利益。对于组织来说,建立道德和法律框架来管理人工智能的使用和保护隐私权至关重要。这就需要制定旨在促进人工智能驱动系统的透明度、问责制和监督的立法举措和指导方针。实施数据匿名化和严格的安全协议等最佳实践也很重要,这将有助于减轻与人工智能技术相关的固有风险。原创 2024-05-14 17:53:52 · 862 阅读 · 0 评论 -
计算机视觉——基于改进UNet图像增强算法实现
在低光照条件下进行成像非常具有挑战性,因为光子计数低且存在噪声。高ISO可以用来增加亮度,但它也会放大噪声。后处理,如缩放或直方图拉伸可以应用,但这并不能解决由于光子计数低导致的低信噪比(SNR)。短曝光图像受到噪声的影响,而长曝光可能会引起模糊,通常也不切实际。已经提出了各种去噪、去模糊和增强技术,但在极端条件下,如夜间视频速率成像,它们的有效性是有限的。有物理手段可以增加低光照下的SNR,包括打开光圈、延长曝光时间以及使用闪光灯。原创 2024-05-12 11:06:41 · 3356 阅读 · 0 评论 -
实例分割——Mask R-CNN、YOLOV8、RTMDET、DeepLab四种实例分割算法比对
与目标检测不同,实例分割不仅识别对象的存在,还为每个检测到的对象生成一个像素级别的掩码,这允许更精细的分析和编辑。从上面这个例子可以看出,检测任务定位了对象的包围框,语义分割分割出了人这个类别,不过把所有的人一起分割了,实例分割区分出了每个人,并分别进行了分割。为了解决RoI Pooling中的量化问题,Mask R-CNN引入了RoIAlign层,它通过双线性插值精确地计算输入特征在RoI上的值,而不进行量化,从而更好地保持空间对齐,这对于生成高质量的分割掩码至关重要。原创 2024-05-09 20:44:48 · 8735 阅读 · 0 评论 -
ACC-UNet——基于Transformers与UNet的语义分割模型
在过去十年中,计算机视觉领域经历了一场根本性的变革,这主要归功于视觉转换器(Visual Transformers)的引入。这一变革同样影响了医学成像领域,其中UNet架构通过采用转换器技术进行了重要重构,成为了该领域内极具影响力的模型之一。近期的研究,如ConvNext,重新评估了卷积模型在视觉任务中的有效性,这一工作启发了我们对现有技术的进一步改进。我们的目标是提升传统的纯卷积UNet模型,使其在性能上能与基于Transformer的模型如Swin-Unet和UCTransNet相媲美。原创 2024-05-03 09:00:00 · 2551 阅读 · 2 评论 -
Swin Transformer—— 基于Transformer的图像识别模型
Swin Transformer是微软研究院于2021年在ICCV上发表的一篇论文,因其在多个视觉任务中的出色表现而被评为当时的最佳论文。它引入了移动窗口的概念,提出了一种层级式的Vision Transformer,将Shifted Windows(移动窗口)作为其主要贡献。这个概念使得Swin Transformer可以像卷积神经网络一样进行分块,并进行层级式的特征提取,从而在特征表示中引入多尺度的概念。原创 2024-04-27 10:47:45 · 2385 阅读 · 1 评论 -
计算机视觉——图像特征之FAST角点检测(OpenCV/Python)
FAST角点定义为:若某像素点与周围邻域足够多的像素点处于不同区域,则该像素可能为角点。考虑灰度图像,即若某像素点的灰度值比周围邻域足够多的像素点的灰度值大或小,则该点可能为角点。原创 2024-04-22 23:32:00 · 1810 阅读 · 0 评论