自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 基于MATLAB的图像增强

视觉是人类获取外界信息的重要途径之一,但在图像采集过程中,受到多种因素的影响。例如,拍摄设备的硬件条件会限制图像质量。一些低端相机可能存在传感器性能不佳、镜头分辨率低等问题,导致拍摄出的图像存在亮度不足、对比度差或者边缘模糊等情况。拍摄条件也对图像质量有重要影响。在不良的光照条件下,如阴天、夜晚或室内光线昏暗的环境中,拍摄的图像可能会过暗,无法清晰地呈现物体的细节。此外,拍摄角度、距离以及环境中的干扰因素(如雾气、灰尘等)也可能导致图像质量下降。图像处理需求的增长。

2024-12-21 20:15:00 2290 1

原创 ViG:图像分类领域前沿

发展背景: CNN的出现标志着深度学习在图像识别领域的重大突破。最早的CNN模型可以追溯到1998年的LeNet,而2012年的AlexNet模型在ImageNet竞赛中取得优异成绩,使得CNN成为图像分类任务的主流方法。局部感知野: 通过卷积操作,CNN能够捕捉图像的局部特征,减少参数数量。参数共享: 卷积核在整张图像上共享,提高了模型的泛化能力。平移不变性: CNN具有平移不变性,能够识别图像中的物体,即使它们的位置发生变化。

2024-12-21 16:00:21 939

原创 丹摩 | 深度探索UNet模型:从理论到实践,全面剖析训练与测试的核心精粹

在医学图像处理、卫星遥感分析以及众多需要精确分割任务的领域中,卷积神经网络(CNN)的发展极大地推动了技术的边界。其中,UNet作为一种专为图像分割任务设计的网络架构,自其诞生以来便以其独特的U型结构、跳跃连接以及高效的性能,在学术界和工业界引起了广泛关注。本文旨在深入探讨UNet模型的训练与测试过程,从理论基础到实践应用,为读者提供一份详尽的指南。

2024-11-25 14:40:51 1264

原创 丹摩 | 利用丹摩智算平台部署SD3与ComfyUI实现文本生成图像技术

随着人工智能技术的飞速发展,文本生成图像(Text-to-Image, T2I)技术逐渐成为计算机视觉与自然语言处理交叉领域的研究热点。这一技术不仅打破了传统图像创作的界限,更让创意的边界无限延伸。在众多T2I模型中,SD3(Stable Diffusion系列的一个新版本,尽管“SD3”并非官方直接命名的版本,这里我们假设其为Stable Diffusion的一个高级或特定版本)以其卓越的生成质量和灵活性脱颖而出,而结合ComfyUI这一直观易用的界面,更是极大地降低了T2I技术的使用门槛。

2024-11-25 14:35:43 821

原创 丹摩 | 探秘Faster RCNN:细致剖析其训练与测试的完整流程

链接:https://www.damodel.com/console/overviewDAMODEL(丹摩智算)是专为 AI 打造的智算云,致力于提供丰富的算力资源与基础设施助力 AI 应用的开发、训练、部署。在计算机视觉领域,目标检测作为一项核心技术,旨在从图像或视频中自动识别出特定类别的对象,并同时定位这些对象的位置。

2024-11-25 14:31:27 1277

原创 【传知代码】VRT_ 关于视频修复的模型

随着数字媒体的广泛应用,视频内容的制作和传播变得越来越普遍。然而,由于各种原因,如传输、存储、录制设备等,视频中常常存在各种质量问题,包括模糊、噪音、低分辨率等。这些问题直接影响了用户体验和观看效果,因此视频修复技术变得至关重要。视频修复的定义: 视频修复是一种通过应用计算机视觉和图像处理技术,从低质量的视频帧中重建高质量的视频序列的过程。其目标是改善视频质量,使得观众在观看时能够获得更清晰、更真实的视觉体验。

2024-11-24 12:53:42 1936

原创 交通路口智能监测平台实现

这里的监测模型使用的是旷视科技提出的YOLOX检测模型,并且权重文件也使用的是官方提供的s版,能够检测的类别有二十种,这里只选取了三种监测模型进行了统计结果显示。当用户点击打开摄像头后,系统将打开电脑的默认摄像头进行画面获取,并将获取的画面进行监测,这里最重要的代码就是定时器函数,因为用户点击打开摄像头后,只是一个瞬间事件,而系统需要将摄像头拍摄的画面进行实时检测,这是一个连续性事件,而下面这两行代码很重要。在模型训练完成后,我们只需要修改yolo.py文件中的几个地方,就能用我们自己训练的模型了。

2024-11-24 12:53:11 943

原创 智慧医疗:纹理特征VS卷积特征

今天我们把视线转回到AI应用的另外一个大领域——智慧医疗,来看看目前人工智能在这一领域的最新进展。

2024-11-24 12:52:36 905

原创 ChatGPT多模态命名实体识别

我们在两个公共 MNER 数据集上进行了实验:Twitter-2015和 Twitter-2017。这两个数据集都是从Twitter平台上收集的,包含了文本和图像的配对信息,主要用于研究在社交媒体短文本场景下的多模态命名实体识别和情感分析等任务。Twitter-2015: 推文中的文本部分被手动标注了命名实体,并使用BIO2(Beginning- Inside-Outside)标注方案对命名实体进行分类。实体类别包括人物(Person)、组织(Organization)、地点(Location)等。

2024-11-22 16:00:00 1730

原创 KAN卷积

在本文中深入探讨KAN卷积在医学图像分割领域的创新应用,特别是通过引入Tokenized KAN Block(Tok Kan)这一突破性设计,将深度学习中的图像分割技术推向了新的高度。KAN作为一种能够替代传统MLP(多层感知机)的网络结构,以其独特的优势在多个领域展现出强大的潜力。而在医学图像分割这一复杂且关键的领域,KAN卷积更是凭借其高效处理图像特征的能力,成为了研究的热点。

2024-11-22 12:00:00 1356 1

原创 让机器来洞察他的内心!

对于话语级特征提取层,为了从模态内和模间间捕获更丰富的有效信息,首先使用单模态编码器和话语级注意力分别获取文本、音频和视觉特征。对于不一致学习网络层,首先需要确定主要模态,然后采用交叉注意机制来捕获不一致信息,最后采用自注意机制来获取增强的不一致信息。为了解决这些难点,我提出了一种用于多模态讽刺检测的新型话语级不一致学习网络,其中多模态话语级注意力和不一致学习网络是两个核心模块。同时,我在流行的多模态任务–多模态讽刺的数据集–MUStARD 上对模型进行了测试,得到了不错的效果,证明了该模型的可靠性。

2024-11-22 08:00:00 703

原创 【机器学习】解锁AI密码:神经网络算法详解与前沿探索

神经网络作为机器学习的重要分支,在人工智能领域具有广泛的应用前景。随着计算能力的提升和算法的优化,神经网络的性能将不断提升,应用领域也将不断扩展。未来,神经网络将在更多领域发挥重要作用,推动人工智能技术的持续发展。

2024-11-21 22:24:28 1184 2

原创 【机器学习】机器学习在深度学习领域中的作用:半监督学习的视角

半监督学习是一种结合了监督学习和非监督学习的机器学习技术,旨在利用少量标注数据和大量未标注数据来提高学习器的性能。在实际应用中,标注数据的获取往往需要人工参与,成本高昂且耗时。而大量的未标注数据则相对容易获取,但难以直接用于监督学习。半监督学习通过利用未标注数据中的信息,辅助标注数据进行模型训练,从而提高了模型的泛化能力和准确性。

2024-11-21 22:19:46 1137 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除