- 博客(147)
- 收藏
- 关注
原创 别再只会说AI了!人工智能6大方向全梳理,看完你就懂了
从刷脸支付、AI绘画,到工厂里的智能质检和能源系统的预测性维护,人工智能正在改变我们的生活和生产方式。通过摄像头获取视觉信息,再结合深度学习算法,机器不仅能“看”,还能“理解”。随着大模型的兴起,NLP 已经从“能听懂关键词”发展到“理解上下文并推理”,这意味着机器正在向真正的“智能助手”迈进。未来,随着AI算法、传感器和5G的加持,机器人将更灵活、更智能,成为工厂里“不可或缺的同事”。,钡铼技术都在用“边缘智能+AI”的组合,帮助客户实现更高效、更安全、更智能的运维和生产。”的规则来解决问题。
2025-10-30 11:35:13
1050
原创 我如何用一份模型地图,避开了90%的深度学习坑
当理论撞上实战,你是否卡在了"选模型"的十字路口?学完反向传播和神经网络原理,信心满满打开GitHub想找项目练手,却被五花八门的项目标题搞得晕头转向:"基于Transformer的文本生成模型"和"Diffusion模型实现文生图"有什么区别?医学影像分割该用U-Net还是Swin Transformer?推荐算法里的双塔模型和图神经网络到底怎么选?太多初学者困在这一步:懂理论却看不懂项目技术栈,想实战却不知道从哪个方向切入。本篇文章,就用两张"导航地图"带你。
2025-10-28 16:17:12
881
原创 可以说这10本深度学习算法书籍,是大家公认的最好的入门AI算法电子书!
书籍 PDF+人工智能算法籽料包合集,自行或取学习!!学习深度学习知识除了博客文章、视频外,从书本中汲取知识也非常重要。那么今天就给大家推荐下面这几本深度学习领域的极佳书籍!希望对你有帮助!书籍 PDF+人工智能算法籽料包合集,自行或取学习!!
2025-10-22 16:42:28
908
原创 【入门清单】盘点入门人工智能的主流书籍,从夯到拉让你少走自学AI算法的弯路!
虽然定位的是初学者入门书籍,但里面的内容有一定的难度,要求初学者有一定的数学基础和编程经验,而且内容比较偏理论化,但考虑到逻辑严谨、层次分明,对于希望打下扎实理论基础、走得更远的同学来说是必读书籍,所以给到顶级。国内机器学习领域的经典教材,内容涵盖了现在常用的各种算法,但算法的推导不是很详尽,这一点比李航的统计学习方法要差不少,可能周老师写这本书的目的是做教材,个人认为不适合自学,这里也是给到人上人。各位研究生大家好,这里给大家盘点下市面上入门人工智能主流的书籍,从夯到拉让你少走弯路,以下为个人观点。
2025-10-22 16:39:40
696
原创 万字解析!一文带你了解卷积神经网络(CNN)各层的基本知识以及作用
在 CNN 结构中,经多个卷积层和池化层后,连接着1个或1个以上的全连接层.与 MLP 类似,全连接层中的每个神经元与其前一层的所有神经元进行全连接,全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息,为了提升 CNN 网络性能,全连接层每个神经元的激活函数(按你的任务目的选择,分类or回归)。边缘填充:在这里还要注意一点,即zero pad项,即为图像加上一个边界,边界元素均为0,这就叫做边缘填充,是为了更好的提取边界的每个部分的特征,让边界点也可以多次的提取特征,这就是padding的作用。
2025-10-17 15:49:56
853
原创 一网打尽!5大深度学习模型!RNN、CNN、Transformer、BERT、GPT
相较于RNN,CNN在处理图像数据方面更胜一筹,它能够自动学习图像中的局部特征,无需人工设计繁琐的特征提取器,从而实现了更高效、更精准的处理效果。这种设计赋予了RNN在处理具有时序关系的数据时得天独厚的优势,因此,在自然语言处理、语音识别等任务中,RNN均展现出了卓越的性能与广泛的应用前景。首先,在关键技术方面,这五种模型各具特色,它们通过不同的算法和结构来提取数据中的深层信息,实现了高效的特征学习和模式识别。GPT在自然语言处理领域获得了显著的突破和广泛的应用,成为众多NLP任务中的佼佼者。
2025-10-17 14:58:35
1084
原创 性能炸场!YOLO 又更新了!
在目标检测领域,YOLO 系列绝对是绕不开的 “顶流”—— 从最初开创实时检测范式,到 YOLOv13 凭性能炸场刷新行业认知,再到 YOLOv14 即将登场的消息引发热议,它每一次迭代都在推动技术边界向前突破。如果你想理清 YOLO 各版本的技术脉络;或是在工程落地中卡壳,需要借鉴成熟的改进思路;又或是单纯想紧跟目标检测的前沿动态,那今天这篇 YOLO 系列论文推荐,可以自行或取学习!戳这里自行或取YOLO合集学习~~!
2025-10-17 14:14:22
692
原创 大盘点|2025最新即插即用的涨点神器!
籽料合集自行或取学习噢~~深度学习“水”论文,最好用的方法,莫过于缝合网络,这其中即插即用的模块则是必备利器!它能够无缝集成,高效涨点!为节省大家时间,快速做出文章,我给大家准备了165个即插即用模块和源码,2025最新的和验证有效的经典都有!此外还给大家进行了模块的分类,方便适配!主要涵盖通用模块(注意力机制、卷积、特征提取、特征融合、轻量化、多模态融合……);各类任务专用(时间序列、医学图像、目标检测、3D任务……)所有原文和源码都已打包,需要的伙伴,可以无偿分享给你!
2025-10-17 13:56:42
704
原创 目标检测YOLOv1-YOLO11,算法进化全记录!2025年超详细总结梳理
YOLO(You Only Look Once)系列模型自2015年推出以来,彻底变革了目标检测领域,以其单一回归问题设计提升检测效率。文章详述了YOLO从v1到11的演变历程,每一代均在精度和速度上有所突破,特别是最新的YOLO11,在实时检测和多任务应用中表现出色。YOLO(You Only Look Once)系列模型是一类非常高效的目标检测模型。其主要特点是能够在单次前向传播中同时进行目标的定位和分类,实现实时的目标检测。
2025-10-14 17:17:26
1729
原创 图解卷积神经网络!看完还不懂什么是卷积神经网络的概率基本为零!
然而,直到20世纪80年代,卷积才在杨立昆(Yann LeCun)、杰弗里·辛顿(Geoff Hinton)和约书亚·本吉奥(Yoshua Bengio)等研究人员的开创性工作推动下,进入计算机视觉领域。卷积是一种简单的数学运算,它涉及使用一个小矩阵(称为核或滤波器),在输入图像上滑动,在滤波器与图像重叠的每个点处执行点积运算,并对所有像素重复此过程。从上面的GIF图中可以看出,我们每“跳跃”一次核,就对矩阵执行一次点积运算,并将结果作为卷积中的一个新像素。卷积神经网络学习籽料合集整理,自取学习!
2025-10-14 16:54:42
339
原创 kaggle十大竞赛类型,你都了解吗?(2025年最新)
评估指标常见的有准确率(Accuracy)、均方误差(MSE)、AUC - ROC 等。图像分割:将图像中的每个像素分类到特定类别(如医学图像中的肿瘤分割)。目标检测:识别图像中的目标并定位其位置(如自动驾驶中的行人检测)。图像分类:将图像分类到预定义的类别(如猫狗分类、医学图像分类)。文本分类:将文本分类到预定义的类别(如情感分析、新闻分类)。命名实体识别(NER):识别文本中的实体(如人名、地名)。分类问题:预测离散类别(如垃圾邮件分类、客户流失预测)。
2025-10-07 16:05:30
1209
原创 强推!七个值得实践的kaggle机器学习入门实战项目(2025年最新)
Kaggle 是世界上最大的数据科学社区,拥有强大的工具和资源来帮助我们实现数据科学目标。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。实践出真知,为此我整理了 10 个值得在 2024 年学习的 Kaggle 机器学习项目,通过这些项目我们可以获得涵盖从数据预处理和探索性数据分析到高级机器学习模型开发数据科学等各个方面的全面学习体验和实践经验。1.小狗品种分类2.使用 NLP 检测假新闻3.电影推荐系统4.客户细分5.股票价格预测6.语音情感识别。
2025-10-07 15:30:17
1629
原创 不懂就问,Kaggle竞赛类型有哪些?一文讲清楚!
Kaggle新手如何入门?首先可以了解一下Kaggle的竞赛类型图像分类任务文本分类任务目标检测任务语音识别任务时间序列预测任务自然语言处理任务结构化数据任务强化学习任务图像分类任务图像分类是将一张图片分类到预定义的类别中的机器学习任务。在 Kaggle 竞赛中,比如 “Dogs vs. Cats” 竞赛,参赛者需要训练一个模型,来准确地识别出一张图片是一只猫还是一只狗。这类竞赛中常用的算法包括卷积神经网络(CNN)和深度学习等。文本分类任务。
2025-10-07 14:47:37
1135
原创 CVPR 2025图像/视频/3D生成论文汇总(附论文呢/代码)
多模态大语言模型(Multi-Modal Large Language Model)图像生成(Image Generation/Image Synthesis)视频生成(Video Generation/Image Synthesis)3D生成(3D Generation/3D Synthesis)2025年CVPR可复现论文合集,含代码。图像编辑(Image Editing)视频编辑(Video Editing)3D编辑(3D Editing)其他多任务(Others)
2025-06-11 15:44:12
1600
原创 CVPR2025 | 遥感深度学习方向论文列表合集!
主页:https://likyoo.github.io/SegEarth-OV/论文:https://arxiv.org/abs/2503.00467。论文:https://arxiv.org/abs/2411.15497。论文:https://arxiv.org/abs/2411.16733。论文:https://arxiv.org/abs/2503.03115。论文:http://arxiv.org/abs/2410.01768。
2025-06-11 15:33:59
3010
原创 CVPR 2025 最佳论文候选出炉!AIGC、SLAM、3D 视觉齐飞!论文大合集整理,含代码!
CV方向的硕博士一定要看啊,作为计算机视觉领域的顶级盛会,CVPR堪称论文界的“奥斯卡”,每一篇被录用的论文都代表着行业前沿的方向,CVPR 2025收到了创新高的13008份论文,比CVPR 2024增加了12.8%,共录用了2878篇论文,接收率为22.1%。目前 CVPR 2025 录用的全部论文已正式公开,研究者和爱好者们可以提前一睹为快,这些论文涵盖了从图像识别、目标检测、三维重建,到视觉语言模型、生成模型等前沿方向,内容丰富、干货满满。2025年CVPR可复现论文合集,含代码。
2025-06-11 15:23:08
5826
原创 顶刊SCS | 基于视觉语言大模型推理分割的建筑足迹尺度功能分类, 样本数据和代码已开源!
题目:Visual-language reasoning segmentation (LARSE) of function-level building footprint across Yangtze River Economic Belt of China期刊:Sustainable cities and society(中科院一区TOP,IF=10.5)论文:https://doi.org/10.1016/j.scs.2025.106439。
2025-05-30 19:39:33
1466
原创 水下检测+扩散模型:或成明年CVPR最大惊喜!
提出了一种基于条件去噪扩散概率模型(DDPM)的UIE方法(DiffWater),该方法利用了DDPM的优点,训练了一个稳定且收敛良好的能够生成高质量和多样化样本的模型。考虑到真实水下环境的多样性和复杂性,以及在DDPM中直接使用简单先验导致的图像质量差和颜色偏差的问题,提出了一种优化的扩散水方法。在所提出的扩散水方法中,利用优化的条件机制,通过去噪过程从条件图像中提取更多的信息。扩散模型通过其去噪和逐层细化的过程,可以增强水下图像的清晰度,去除水下环境中存在的噪声和模糊效果,从而提升水下检测的准确性。
2025-05-30 14:33:34
553
原创 入门必看:图像分割知识点总结
原始图像,(b)语义分割,(c)实例分割和(d)全景分割。尽管FCN意义重大,在当时来讲效果也相当惊人,但是FCN本身仍然有许多局限。比如:1)没有考虑全局信息;2)无法解决实例分割问题;3)速度远不能达到实时;4)不能够应对诸如3D点云等不定型数据基于此。下图给出了部分研究成果与FCN的关系。
2025-05-30 14:29:27
1043
原创 用于图像分割的自监督学习(Self-Supervised Learning)方法综述
魔方重排(Rubik’s Cube):Zhuang 等(Selfsupervised feature learning for 3d medical images by playing a rubik's cube,MICCAI 2019)将3D医学体数据视为「魔方」,对体素网格块进行重排,并训练网络恢复原始体块顺序。此任务可扩展2D拼图思想,尤其适合医学体数据。后来版本(Rubik’s Cube++)通过同时预训练上采样和下采样模块改进效果。损失一般为预测每块正确位置的分类损失。
2025-05-30 14:16:41
738
原创 科研小白扫盲:kaggle平台使用指导指南!一文说清楚!
kaggle是世界上最大的数据科学社区,是一个为数据科学和机器学习提供竞赛、数据集和工具的在线平台。该网站通过向用户提供不同领域的实际问题和数据集,吸引了全球数据科学家和机器学习从业者的关注。kaggle还为用户提供机器学习模型的开发、部署和管理工具,以及数据可视化和其他特定于数据科学领域的工具。通过kaggle,用户可以学习和交流最新的数据科学技术,同时也有机会参加实际的竞赛并赢得丰厚的奖金,提高自己的数据科学技能和经验。
2025-05-30 14:05:25
9751
3
原创 机器人顶刊TRO最新接收的触觉传感器前沿技术汇总赏析
触觉传感器技术是一种用于感知物理接触信息的先进技术,旨在模拟和扩展人类触觉功能。它通过敏感元件和信号处理系统,将接触表面或物体的压力、振动、温度、形状、湿度等物理量转换为可处理的电信号,从而实现对外界环境的准确感知。这项技术的核心依赖于材料科学、传感原理和数据处理算法的创新,涉及多个学科领域的交叉。【视频教程,戳蓝字即可学习】:通过检测两个电极之间的电容变化来感知压力或形变,优点是灵敏度高,适合大面积触觉检测。:利用压电材料在受到外力作用时产生的电荷变化来感知压力或振动,广泛应用于动态力检测。
2025-05-29 20:04:35
1450
原创 ICLR 2025 端到端自动驾驶佳作汇总赏析(全部开源)
端到端自动驾驶(E2EAD)方法通常依赖监督式感知任务来提取显式场景信息(如物体、地图)。这种依赖性不仅需要昂贵的标注成本,还制约了实时应用中的部署与数据扩展能力。本文提出SSR框架,仅用16个导航引导的稀疏场景表征令牌,即可高效提取E2EAD所需的关键场景信息。该方法摒弃了人工设计的监督式子任务,使计算资源集中处理与导航意图直接相关的核心要素。我们进一步引入时序增强模块,通过自监督机制对齐预测的未来场景与实际场景。
2025-05-29 19:50:59
1446
原创 一文总结:强化学习算法——强化学习中的 Transformer
该图展示了训练强化学习代理的高级流程。代理从环境中获取状态和奖励,并据此决定采取哪些行动。强化学习与机器学习和深度学习的区别在于训练结构。广义上讲,强化学习是指训练一个代理(或模型)在特定环境中执行特定任务。与监督学习等更常见的深度学习和机器学习方法不同,强化学习使用奖励而非损失。奖励可以有效地理解为代理在整个训练过程中学习最大化的值。如何分配奖励可以有无数种形式,并且是许多领域的一个活跃研究领域。一个简单的例子就是接球游戏。
2025-05-29 19:44:47
1376
原创 CVPR2025重磅突破:AnomalyAny框架实现单样本生成逼真异常数据,破解视觉检测瓶颈!
本文介绍了一种名为AnomalyAny的创新框架,该方法利用Stable Diffusion的强大生成能力,仅需单个正常样本和文本描述,即可生成逼真且多样化的异常样本,有效解决了视觉异常检测中异常样本稀缺的难题,为工业质检、医疗影像等领域提供了新的解决方案。在工业质检、医疗影像等领域,视觉异常检测(Visual Anomaly Detection, AD)是保障质量与安全的关键技术。然而,
2025-05-29 11:48:22
1080
原创 强烈推荐18 个最佳计算机视觉图像标注工具(2025版)
Encord 的评分为 4.8/5(基于 60 条评论)。用户更青睐 Encord 强大的本体功能,该功能能够为各种规模的数据定义丰富的分类法。此外,该平台的协作功能和精细的注释工具有助于用户提升注释质量。Amazon SageMaker Ground Truth 的评分为 4.1/5(基于 19 条评论)。用户喜欢它的易用性和高级注释功能。然而,他们认为它价格昂贵,而且追踪标记性能具有挑战性。Scale Rapid 的评分为 4.4/5(基于 11 条评论)。用户表示它易于学习,无需复杂的安装程序。
2025-05-29 11:33:45
1941
原创 2025年强化学习科研创新大杀器!登上《Nature》正刊!
9年前AlphaGo杀穿围棋界,如今的Deepseek-R1引爆AI圈,强化学习的长久影响力有目共睹。作为当今AI领域最热门的词汇之一,2025年强化学习依然会是重点研究方向。在最近的RL研究成果中,《Nature》正刊上的Dreamer算法值得关注,它涉及到了未来不可忽视的方向:“通用强化学习”。如果是想要发RL相关论文的同学,强烈推荐研读。另外还有一些RL研究方向,比如当下正热门的RLHF、样本效率提升、多智能体强化学习等,创新多容易出成果。
2025-05-29 11:10:57
1255
原创 【图像识别利器OpenCV】7个计算机视觉技巧,识别准确率提升60%!
搞计算机视觉的小伙伴们肯定听说过OpenCV这个神器。它是个开源的计算机视觉库,用Python玩起来超级方便。今天我就给大家分享几个用OpenCV做图像识别的小技巧,保证让你的识别准确率蹭蹭往上涨!
2025-05-28 17:03:25
504
原创 计算机视觉工程师必须熟悉的10个Python库
计算机视觉正在快速发展,保持领先地位意味着掌握正确的工具。到 2025 年,这些 Python 库将在计算机视觉领域占据主导地位,为实时应用程序、深度学习和生产级管道提供支持。无论您是初学者还是高级工程师,本指南都涵盖了您今天应该使用的基本库。【计算机视觉入门到进阶教程】
2025-05-28 16:49:02
1391
原创 建议收藏起来:一文看懂目前端到端自动驾驶算法实现原理
端到端自动驾驶基本流程:(1)子任务模型被更大规模的神经网络模型取代,最终即为端到端神经网络模型;(2)由数据驱动的方式来解决长尾问题,取代rule-based的结构。优点:(1)直接输出控车指令,避免信息损失;(2)具备零样本学习能力,更好解决OOD问题;(3)数据驱动方式解决自动驾驶长尾问题;(4)避免上下游模块误差的过度传导;(5)模型集成统一,提升计算效率。● 开环指标○ L2误差○ 碰撞率● 闭环仿真○ 路线完成率(RC)路线完成的百分比。
2025-05-28 16:39:33
2820
原创 视觉Transformer(ViT )超越CNN,原来是因为这些创新!
视觉Transformer(ViT)作为计算机视觉领域的重要突破,成功将Transformer架构引入图像任务,通过自注意力机制建模全局依赖,为图像生成、视频理解等任务带来全新思路。然而,早期ViT在语义分割、实例分割等密集预测任务中表现受限,主要因其局部细节建模和多尺度特征能力不足。为此,研究者提出多种改进方案:构建CNN与Transformer的混合架构,结合CNN的局部感受野与ViT的全局建模优势;引入多尺度融合与双向交互机制,提升小目标识别与复杂结构解析能力;
2025-05-28 16:23:37
840
原创 真不是吹!研0靠时空预测模型,实现顶刊发文自由!
在时间序列预测领域,时空预测是一种广泛应用的方法,旨在对特定时间和空间位置上的变量进行未来趋势的推断。由于待预测数据同时具备时间维度和空间维度,该任务也被称为时空数据分析或时空建模。时空预测已广泛应用于交通流量预测、气候变化模拟、人类行为移动分析以及疾病传播追踪等多个领域。常见的时空预测方法主要包括基于统计模型的传统方法,以及近年来发展迅速的机器学习和深度学习方法。这些技术不断推动着时空建模在精度与实用性方面的提升。
2025-05-28 16:17:40
957
原创 2025年了,小样本学习还可以继续做吗?可以参考这些登上Nature的小样本学习模型
1:2023 - 2025 年间小样本学习取得了不少突破。如 2024 年发表在《Nature》上的 SBeA 框架,无需标签即可达到 90% 以上准确率,克服了小样本学习中的数据集限制。此外,开放世界小样本学习方法如 DyCE 和 OpTA 处理动态、不完整数据的能力有所提升,扩展了小样本学习的应用范围。:在医疗诊断领域,医疗影像分析和稀有疾病诊断等场景中数据标注成本高且样本稀缺,小样本学习可以利用少量标注数据进行模型训练,有助于疾病的早期检测和诊断1。
2025-05-28 16:08:38
1695
原创 高效特征提取之道!“注意力+多尺度卷积”这组模型搭配你必须掌握!助你抢发Nature
在计算机视觉领域,如何从图像中精准提取多层次特征始终是研究重点。当前,多尺度卷积+注意力机制成为主流前沿方案。该方法通过多种卷积核(如1×1、3×3、5×5)并行捕获不同粒度的特征,覆盖从纹理到语义的丰富信息;再结合注意力机制动态调整特征权重,抑制干扰、突出关键区域,显著提升识别精度与模型可解释性。这一组合已在图像分类、目标检测、医学影像等任务中广泛应用,尤其在小样本与复杂背景场景下表现突出。研究方向也日益多元:轻量化设计、多分支结构优化、与Transformer融合、跨模态迁移等均展现出广阔前景。
2025-05-28 16:01:26
1083
原创 时序预测中的深度学习算法解析与应用
深度学习为时序预测提供了从 “特征工程” 到 “端到端建模” 的范式变革,不同模型在计算效率、预测精度、可解释性上各有侧重。实际应用中,需结合数据特性(如长度、周期性、变量维度)与业务目标,通过实验对比选择最优方案,并借助自动化调优工具(如 Hyperopt)与分布式训练框架(如 Horovod)提升开发效率。未来,随着注意力机制的持续创新与多模态技术的融合,深度学习在时序预测领域将展现更广阔的应用前景。
2025-05-27 15:43:44
827
原创 我的机器学习入门清单及路线!
1、线性代数基础,如果没的话,还是先学了这门课在研究吧,不然会哭的。2、学会python就行了。R也可以用用。3、英语。起码能基本的听和读吧,感觉中文的资料还不够多,很难避免要看很多英文资料。建议学习某些教程时看英文版的tutorial,YouTube可以开字幕。做了个流程图,来展示下我的学习路线。除了入门课程外,其他四项其实不完全是按照流程的(但总体上是),有时实战时需要学新模型。有时学了某些模型再选方向也未迟。但是入门课程,尤其是Coursera那个,一定要看完了才开始后面的学习。
2025-05-27 11:41:12
974
原创 适合初学者的机器学习教程2025
这就是关于2024初学者机器学习的教程的全部内容,后续我们会聊聊基础算法,学习更多回归、分类、聚类算法(如决策树、随机森林、支持向量机、K-均值聚类等)。探索深度学习基础,如神经网络、卷积神经网络(CNN)、递归神经网络(RNN)等。参与实际项目,应用所学知识解决真实问题。保持进步吧!
2025-05-27 11:12:28
943
原创 ACM MM 2024 | 基于逐步伪装学习的文本提示伪装实例分割
在本研究中,我们提出了TPNet,这是首个基于文本提示的伪装实例分割框架,旨在利用图像和文本流中的视觉和语义信息进行伪装实例的掩码分割。在伪掩码生成和自训练阶段,我们分别引入了语义空间迭代融合(SSIF)和渐进式伪装学习(GCL)模块。SSIF将空间信息与语义洞察相结合,在掩码评估器的指导下迭代地优化伪掩码。此外,我们引入了GCL,这是一种自训练策略,使用不同伪装级别的图像来建立一个受伪装级别影响的梯度,以克服伪装图像导致的精度问题。实验结果表明,我们提出的网络在两个常见的基准测试中取得了优异的性能。
2025-05-24 13:48:01
586
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅