
计算机视觉
文章平均质量分 92
人工智能-研究所
SCI/论文带读/本硕博毕业论文/中文核心期刊/EI会议/期刊/顶会发刊论文指导
文章相关资源可关注V.X【服务号】:AI技术星球 发送:211C 自取
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
清华等开源YOLOv13:基于超图增强的实时目标检测
YOLOv13 是一次“结构级的飞跃”。它把高阶相关建模真正带进了实时检测任务里,并通过轻量优化和全流程融合机制,把速度、精度和部署成本三者做到了真正意义上的平衡。未来,如果你想做目标检测模型优化、端侧部署,或者需要一个“复杂场景也能应对”的强大检测模型,YOLOv13 一定是你绕不开的一环。原创 2025-06-26 10:44:00 · 596 阅读 · 0 评论 -
终于把 LSTM 算法搞懂了!
LSTM (长短期记忆网络) 是一种特殊的循环神经网络算法 (RNN),旨在解决传统 RNN 在处理长序列数据时面临的梯度消失和梯度爆炸问题,从而更好地捕捉序列中的长期依赖关系。资料包:一、 人工智能学习路线及大纲二、计算机视觉OpenCV【视频+书籍】三、AI基础+ 深度学习 + 机器学习 +NLP+ 机器视觉 教程四、李飞飞+吴恩达+李宏毅合集五、自动驾驶+知识图谱等资料六、人工智能电子书合集【西瓜书、花书等】七、各阶段AI论文攻略合集【论文带读/代码指导/本硕博/SCI/EI/中文核心】原创 2025-06-21 14:23:45 · 301 阅读 · 0 评论 -
3D点云算法概述与核心技术解析
3D 点云算法体系庞大,从基础预处理到深度学习驱动的智能分析,覆盖了从数据清洗到语义理解的全流程。随着自动驾驶和机器人技术的发展,点云算法将更注重实时性、鲁棒性和多模态融合,而深度学习的引入正推动点云处理向端到端智能决策迈进。如需深入某类算法(如 PointNet 网络结构),可进一步探讨具体技术细节。3D点云资料+AI学习路线可以上图扫码获取资料包:一、 人工智能学习路线及大纲二、计算机视觉OpenCV【视频+书籍】三、AI基础+ 深度学习 + 机器学习 +NLP+ 机器视觉 教程。原创 2025-06-18 14:21:27 · 882 阅读 · 0 评论 -
2025好发论文的方向:卡尔曼滤波与 DeepSort:目标跟踪中的核心技术组合
卡尔曼滤波与 DeepSORT 的结合,实现了动态目标跟踪中 “运动预测” 与 “外观识别” 的优势互补。卡尔曼滤波通过数学建模解决目标的动态估计问题,而 DeepSORT 通过深度学习增强外观特征的区分能力,两者共同推动了目标跟踪技术在复杂场景下的实用化。未来,随着边缘计算技术和轻量化模型的发展,这一组合将在更多实时跟踪场景中发挥关键作用。有以下论文写作问题的可以扫下方名片详聊前沿顶会、期刊论文、综述文献浩如烟海,不知道学习路径,无从下手?原创 2025-06-12 16:33:27 · 936 阅读 · 0 评论 -
自动驾驶必学:基于深度学习的车道线检测:原理、技术与应用
基于深度学习的车道线检测已从实验室研究走向实际应用,但仍需在鲁棒性、实时性和泛化能力上持续突破。随着自动驾驶技术的发展,车道线检测将与更多环境感知技术融合,成为智能驾驶系统的关键基础模块。有以下论文写作问题的可以扫下方名片详聊前沿顶会、期刊论文、综述文献浩如烟海,不知道学习路径,无从下手?没时间读、不敢读、不愿读、读得少、读不懂、读不下去、读不透彻一篇完整的论文?CVPR、ICCV、ECCV、ICLR、NeurlPS、AAAI……想发表顶会论文,找不到创新点?读完论文,仍旧无法用代码复现……原创 2025-06-12 16:10:42 · 1018 阅读 · 0 评论 -
10%训练数据超越100%表现,机器人学习领域迎来重要突破
密歇根大学和瑞典皇家理工学院的研究团队提出了 ViSA-Flow 框架,这是一种革命性的机器人技能学习方法,能够从大规模人类视频中提取语义动作流,显著提升机器人在数据稀缺情况下的学习效率。2. 连续任务性能:在 5 个连续任务完成方面,ViSA-Flow 达到 31.4% 的成功率,几乎是使用 10% 数据的次佳方法 GR-MG(16.2%)的两倍,甚至超过了使用 100% 数据训练的 SuSIE(26.0%)。由于语义分割在连续帧间的不稳定性,研究团队提出跟踪正确分割的手 - 物体交互掩码。原创 2025-06-11 16:12:57 · 547 阅读 · 0 评论 -
毕设党福音!OpenCV 实战:掌握视觉处理技巧
在当下,AI 大模型的热潮可谓席卷全球,从能与我们流畅对话、撰写文案的语言模型,到能根据只言片语创作出精美画作的图像生成模型,它们不断刷新着大众对人工智能的认知,也切实改变着众多行业的运作模式。事实并非如此,计算机视觉技术正凭借自身的独特优势不断创新,展现出强大的生命力与发展潜力。今天我将以下几个方面来带领大家快速了解计算机视觉这个领域。原创 2025-05-24 11:06:27 · 583 阅读 · 0 评论 -
使用代码深入了解自动编码器(AE、VAE 和 VQ-VAE)
自动编码器是一类无监督神经网络,可以在低维空间(也称为潜在空间)中表示数据,以学习有效的表示。应用包括压缩、降噪、特征提取和生成模型。自动编码器的训练方式是:首先将数据编码到潜在空间中,然后将它们解码回原始表示形式,也称为重建,同时最大限度地减少原始输入和重建数据之间的差异。在扩展中,变分自动编码器(VAE) 学习潜在空间上的概率分布,这使它们能够生成全新的数据,同时牺牲了完美重建现有数据的能力。这种权衡由向量量化变分自动编码器(DQ-VAE) 解决,它用学习到的字母或码本。原创 2025-05-23 20:25:07 · 693 阅读 · 0 评论 -
了解图像补丁嵌入,从简单的展开到 2D 卷积
transformer 架构如此强大,因为它不会在文本、图像或任何数据及其组合之间产生任何差异。“Attention” 模型计算序列中每个标记之间的自相似性,允许汇总和生成任何类型的数据。Vision Transformer 通过将图像分解为二次色块来实现这一点,然后将其展平为单个矢量嵌入。此时,可以像处理文本嵌入(或任何其他嵌入)一样处理它们,甚至可以与其他数据类型连接。通常,创建 patchs 的步骤与使用 2D 卷积的第一个可学习的非线性转换相结合,这可能很难解包。本文将深入探讨这一步。原创 2025-05-23 15:57:41 · 621 阅读 · 0 评论 -
使用 PyTorch 进行超大规模训练深度学习模型(对训练并行性基础知识的概念深入探讨)
我们每个人都在跟上 LLM 研究社区的步伐。似乎每天都会带来一个新的最先进的模型,打破以前的基准。如果您曾经想过是什么带来了这种创新的加速 — 基本上是研究人员能够在超大规模上进行训练和验证 — 这一切都归功于并行性。如果您还没听说过,5D 并行这个术语最早是由 Meta AI 的论文 The Llama 3 Herd of Models 推广的。传统上,它是指结合数据、张量、上下文、管道和专家并行的技术。原创 2025-05-22 20:21:31 · 1211 阅读 · 0 评论 -
如何选择神经网络?CNN、RNN、LSTM八大经典神经网络
终于有博士将深度学习顺序讲清楚了!深度神经网络算法入门到实战最佳学习路径!CNN RNN LSTM GAN一口气学爽!根据具体任务需求、数据类型和计算资源选择模型,并结合迁移学习、模型压缩等技术优化性能。以下是机器学习和深度学习中。原创 2025-05-21 21:05:11 · 784 阅读 · 0 评论 -
八年Java转AI算法工程师自学路线!别再看乱七八糟的教程了(人工智能/计算机视觉/深度学习系统)
精通机器学习算法,主攻计算机视觉方向,线上选课学员30W+,累计开发课程50余门覆盖人工智能热门方向。联通,移动,中信等公司特邀企业培训导师,全国高校教师培训讲师,开展线下与直播培训百余场,具有丰富的授课经验。课程风格通俗易懂,擅长有最接地气的方式讲解复杂的算法问题。具体了解这套计算机视觉【机器学习+深度学习】课程的微信扫码人工智能已从实验室的前沿技术演变为重塑社会的核心力量。它既是职业发展的 “硬通货”,也是参与全球竞争的 “入场券”;既是解决现实问题的工具,也是推动文明进步的杠杆。原创 2025-05-21 15:42:24 · 1155 阅读 · 0 评论 -
【计算机视觉】从AlexNet到Vision Transformer
在正文开始之前,先给大家带来一个超值福利!为了方便同学们快速开启人工智能学习计划,在学习过程中少走弯路用最快的效率入门Ai并开始实战项目。我们整理了近200个Ai实战案例和项目,这些并不是网上搜集来的,而是我们这五年线上线下教学所开发和积累的案例。-* 可以说都是反复迭代更新出来的,适合同学们来进行循序渐进的学习与练手。需要的扫码。原创 2025-05-16 21:12:00 · 857 阅读 · 0 评论 -
为什么大厂都看重Kaggle竞赛?一文带你准备Kaggle!
打开各大厂算法岗招聘页面,“” 的要求屡见不鲜。在科技行业,Kaggle 竞赛成绩已成为数据科学家和 AI 工程师求职时的 “硬通货”。谷歌、微软、Meta 等大厂在招聘数据相关岗位时,常将 Kaggle 排名、Kernel 质量、竞赛成果作为核心筛选标准。原创 2025-05-16 20:53:04 · 1240 阅读 · 0 评论 -
面试官必问:一文读懂VGG、GoogleNet、ResNet到底是什么?
VGG(Visual Geometry Group)是由牛津大学视觉几何组提出的深度卷积神经网络,它在 2014 年的 ImageNet 大规模视觉识别挑战赛(ILSVRC)中取得了优异的成绩。VGG 的主要贡献在于证明了增加网络的深度可以显著提高模型的性能,其网络结构简单且规整,具有很强的可扩展性。GoogleNet(也称为 Inception 网络)是由 Google 团队在 2014 年提出的深度卷积神经网络,它在 ImageNet 挑战赛中夺冠。原创 2025-05-15 16:52:06 · 759 阅读 · 0 评论 -
研究生零基础,想学CV,机器学习正确学习路线是什么?
对于零基础的研究生而言,机器学习(ML)的学习需系统规划,结合数学基础、编程能力、经典算法、现代技术及学术研究逐步推进。以下是分阶段的学习路线,兼顾理论深度与实践应用:机器学习算法本质是什么?逼自己一周学完12大机器学习算法,人工智能系统的核心规则集!决策树、回归算法、聚类算法、神经网络。原创 2025-05-13 20:24:32 · 706 阅读 · 0 评论 -
研究生零基础,想学CV,计算机视觉正确学习路线是什么?
对于没有基础的研究生而言,计算机视觉(CV)的学习需系统规划,分阶段推进。以下是结合数学、编程、理论、实践的完整路线:从零到实战上岸AI算法工程师—机器学习、计算机视觉、深度学习、神经网络。原创 2025-05-13 20:13:33 · 1029 阅读 · 0 评论 -
当Transformer遇到调优困境:工程师必备的模型性能提升路线图
本文探讨了机器学习项目中模型性能调优的系统方法论,强调了在超参数优化过程中探索与利用的平衡,以及参数间的关联性。文章提出了科学调优的四个关键步骤:目标定义、实验设计、结果分析和决策上线,并介绍了增量式演进策略和空间搜索的三维平衡方法。此外,文章还提供了训练曲线诊断法、方差分解模型和隔离图技术等结果验证工具,以及终局优化策略,包括验证集折叠技术、集成搜索策略和硬件感知优化。最后,文章提醒读者在调优前应确保数据清洗和模型框架选择等前期工作已完成,并提供了丰富的AI学习资源和论文指导服务。原创 2025-05-12 20:48:25 · 591 阅读 · 0 评论 -
毕设项目|基于OpenCV的疲劳检测
基于眼睛6个关键点的垂直和水平距离计算眼睛纵横比(Eye Aspect Ratio, EAR),公式为: EAR = \frac{||P2-P6|| ||P3-P5||}{2 \times ||P1-P4||}:利用OpenCV的solvePnP函数将3D人脸模型(预设的头部三维坐标)与检测到的2D关键点匹配,计算俯仰角(Pitch)、偏航角(Yaw)和滚转角(Roll):在标准测试集(如YawDD)中,EAR算法对闭眼检测准确率可达97.5%,结合头部姿态后综合准确率提升至98.3%原创 2025-04-24 14:11:25 · 639 阅读 · 0 评论 -
写论文为啥喜欢将YOLO作为第一学习目标
在学术论文中,YOLO(You Only Look Once)算法常被作为目标检测领域的“第一学习目标”,这一现象与其独特的设计理念、广泛的适用性以及学术界与工业界的双重认可密切相关。原创 2025-04-22 20:22:47 · 760 阅读 · 0 评论 -
Transformer必学哪些视觉?
ViT将输入图像分割为固定大小的16×16像素块(如224×224图像分为196个块),每个块展平后通过线性投影层(嵌入矩阵)转换为向量。例如,ViT的嵌入层将每个16×16×3的块转换为768维向量(以ViT-Base为例)。传统ViT为单一尺度特征,而PVT(Pyramid Vision Transformer)等模型构建多级金字塔特征,适配检测、分割等任务。总结来看,掌握ViT基础架构、自注意力机制及层次化改进是核心,同时需熟悉其在检测、分割等任务中的变体。原创 2025-04-19 11:57:11 · 808 阅读 · 0 评论