- 博客(149)
- 收藏
- 关注

原创 硕士论文写YOLO可以毕业吗?
YOLO算法是一种革命性的目标检测方法,它巧妙地将复杂的问题转化为简单的回归任务。通过,每个网格负责预测位于其中心的目标,实现了端到端的目标检测。这种方法不仅简化了问题,还显著提升了检测速度。YOLO的核心创新在于,无需额外的候选区域生成步骤。这种统一的框架使得YOLO能够在保证较高准确率的同时,实现极高的检测速度,成为实时目标检测领域的里程碑式算法。YOLO算法自2016年问世以来,经历了多个重要版本的演进,不断推动着实时目标检测技术的进步。以下是各版本的主要特点和发展时间线:YOLOv6。
2024-12-07 17:00:14
1584

原创 人工智能对图像处理常用的四大算法
欢迎大家扫描文末的二维码进行咨询(学习交流、大牛答疑、大厂内推)另外我还整理了整整200G的人工智能学习笔记、课程视频、面试宝典一并可以无套路免费分享给大家!这是小编的其他文章,希望对大家有所帮助,点击即可阅读人工智能常用的十大算法 人工智能数学基础(一) 人工智能数学基础(二)人工智能数学基础(三) 人工智能数学基础(四)遗传算法(Genetic Algorithm,GA)遗传算法是计算数学中用于解决最佳化的搜索算法,是进化算法的一种。进化算法最初是...
2021-10-08 19:20:56
7978
1

原创 人工智能必备数学基础(一)
导读:数学基础知识蕴含着处理智能问题的基本思想与方法,也是理解复杂算法的必备要素。今天的种种人工智能技术归根到底都建立在数学模型之上,要了解人工智能,首先要掌握必备的数学基础知识。整理了有关人工智能的资料,有python基础,图像处理opencv\自然语言处理、机器学习数学基础等资源库,想学习人工智能或者转行到高薪资行业的,大学生也非常实用,无任何套路免费提供,,加我裙【966367816】下载,或者扫码+vx 也可以领取的内部资源,人工智能题库,大厂面试题 学习大纲 自学课程大纲还有200G人工智
2021-09-18 14:31:16
2668
原创 毕设党福音!OpenCV 实战:掌握视觉处理技巧
在当下,AI 大模型的热潮可谓席卷全球,从能与我们流畅对话、撰写文案的语言模型,到能根据只言片语创作出精美画作的图像生成模型,它们不断刷新着大众对人工智能的认知,也切实改变着众多行业的运作模式。事实并非如此,计算机视觉技术正凭借自身的独特优势不断创新,展现出强大的生命力与发展潜力。今天我将以下几个方面来带领大家快速了解计算机视觉这个领域。
2025-05-24 11:06:27
343
原创 使用代码深入了解自动编码器(AE、VAE 和 VQ-VAE)
自动编码器是一类无监督神经网络,可以在低维空间(也称为潜在空间)中表示数据,以学习有效的表示。应用包括压缩、降噪、特征提取和生成模型。自动编码器的训练方式是:首先将数据编码到潜在空间中,然后将它们解码回原始表示形式,也称为重建,同时最大限度地减少原始输入和重建数据之间的差异。在扩展中,变分自动编码器(VAE) 学习潜在空间上的概率分布,这使它们能够生成全新的数据,同时牺牲了完美重建现有数据的能力。这种权衡由向量量化变分自动编码器(DQ-VAE) 解决,它用学习到的字母或码本。
2025-05-23 20:25:07
398
原创 了解图像补丁嵌入,从简单的展开到 2D 卷积
transformer 架构如此强大,因为它不会在文本、图像或任何数据及其组合之间产生任何差异。“Attention” 模型计算序列中每个标记之间的自相似性,允许汇总和生成任何类型的数据。Vision Transformer 通过将图像分解为二次色块来实现这一点,然后将其展平为单个矢量嵌入。此时,可以像处理文本嵌入(或任何其他嵌入)一样处理它们,甚至可以与其他数据类型连接。通常,创建 patchs 的步骤与使用 2D 卷积的第一个可学习的非线性转换相结合,这可能很难解包。本文将深入探讨这一步。
2025-05-23 15:57:41
466
原创 创新点+1 仅需一行代码即可提升训练效果!
在这篇文章中只做了一个出人意料的简单调整,作者建议忽略来自优化器、与最近反向传播中当前梯度符号相反的任何更新。换句话说,建议只应用与当前梯度一致的更新,使更新更稳定,并与最新数据保持一致。他们发现这个小小的调整可以显著加快训练速度,大致梳理了下内容,一起看看。
2025-05-23 13:59:27
172
原创 使用 PyTorch 进行超大规模训练深度学习模型(对训练并行性基础知识的概念深入探讨)
我们每个人都在跟上 LLM 研究社区的步伐。似乎每天都会带来一个新的最先进的模型,打破以前的基准。如果您曾经想过是什么带来了这种创新的加速 — 基本上是研究人员能够在超大规模上进行训练和验证 — 这一切都归功于并行性。如果您还没听说过,5D 并行这个术语最早是由 Meta AI 的论文 The Llama 3 Herd of Models 推广的。传统上,它是指结合数据、张量、上下文、管道和专家并行的技术。
2025-05-22 20:21:31
1063
原创 Transformer原作、斯坦福、清华交大三篇论文共识:基座模型边界锁死RL能力上限
1、能力来源(source)语言模型的推理能力 = f(模型架构, token量, 训练数据多样性, 泛化能力)2、RL的作用(作用机制)RL ≈ 一个奖励驱动的路径偏移器• 将已存在于模型分布中的推理路径偏移为更高 reward 的选项• 提高成功率,但不生成新“知识”或“能力”3、提升路径(有效方向)想要获得新的 reasoning 能力 ≠ 强化训练需要更强的知识/经验(知识注入+架构优化+认知行为引导)RL不是创造能力,而是优化选择。
2025-05-22 17:28:32
600
原创 如何选择神经网络?CNN、RNN、LSTM八大经典神经网络
终于有博士将深度学习顺序讲清楚了!深度神经网络算法入门到实战最佳学习路径!CNN RNN LSTM GAN一口气学爽!根据具体任务需求、数据类型和计算资源选择模型,并结合迁移学习、模型压缩等技术优化性能。以下是机器学习和深度学习中。
2025-05-21 21:05:11
679
原创 八年Java转AI算法工程师自学路线!别再看乱七八糟的教程了(人工智能/计算机视觉/深度学习系统)
精通机器学习算法,主攻计算机视觉方向,线上选课学员30W+,累计开发课程50余门覆盖人工智能热门方向。联通,移动,中信等公司特邀企业培训导师,全国高校教师培训讲师,开展线下与直播培训百余场,具有丰富的授课经验。课程风格通俗易懂,擅长有最接地气的方式讲解复杂的算法问题。具体了解这套计算机视觉【机器学习+深度学习】课程的微信扫码人工智能已从实验室的前沿技术演变为重塑社会的核心力量。它既是职业发展的 “硬通货”,也是参与全球竞争的 “入场券”;既是解决现实问题的工具,也是推动文明进步的杠杆。
2025-05-21 15:42:24
1112
原创 图解AI三大核心技术:RAG、大模型、智能体,大模型算法工程师
文章详细介绍了Transformer和混合专家(MoE)两种深度学习架构的差异,包括模型结构、工作原理、性能、计算资源与训练难度以及应用场景。Transformer以其自注意力机制在自然语言处理任务中表现出色,而MoE通过组合多个专家模型处理复杂任务,具有较好的泛化能力。此外,文章还探讨了五种大模型微调技术,如LORA及其变体,以及传统RAG与Agentic RAG的对比,智能体设计模式和文本分块策略。这些内容为Java开发者提供了全面的学习指南,帮助他们在AI大模型领域实现职业转型。
2025-05-20 21:08:07
707
原创 Java转行大模型工程师必看AI大模型零基础到商业实战全栈学习路线
人人都要学的AI大模型全栈课》,包含26+真实项目-案例实战演示、24+动手实践、4+原创项目部署大模型,从理论到实践,我们都将给予最大程度的支持,课程学习的目标是,可达到应聘大模型岗位的要求和标准,同时,也能完整掌握AI方面的技术技能,为自己的职业方向赋能。【终于有人讲透大模型工程师自学路线了】别再学乱七八糟的教程了,构建专属大模型!提示工程、 LangChain/NLP/神经网络/数据预处理/LLM生成模型。
2025-05-20 16:03:06
910
原创 大模型入门指南 - Prompt Engineering:小白也能看懂的“提示词工程”全解析
通过身份设定框定AI的思考边界,让输出更专业。用于规避通用型废话,提升行业针对性,适用场景:法律文书生成、医疗报告撰写、营销文案创作。【角色】你现在是拥有10年经验的母婴电商运营【任务】分析2024年Q3纸尿裤销售数据【要求】用小红书爆款笔记风格总结增长亮点。
2025-05-19 19:50:29
804
原创 大模型入门指南 - MoE:小白也能看懂的“模型架构”全解析
随着国产模型DeepSeekMoE、Qwen-2.5 Max、国际标杆GPT-4的实践验证,MoE已成为下一代大模型的核心架构。路由器(Router)输出概率,用于混合专家(MoE)模型选择最佳匹配专家(Expert),选择的专家(Expert)也是一个前馈神经网络(FFNN)。混合专家(MoE)模型的路由器(Router)是什么?MoE模型:可以堆叠1000个专家,但每次只激活10个(“脑容量”飙升,耗电量不变)。稠密模型:参数越多,计算越慢(“脑容量”和“耗电量”同步增长)。(2)专家越多,能力越强。
2025-05-19 19:43:34
371
原创 大模型入门指南 - Fine-tuning:小白也能看懂的“模型微调”全解析
通用模型可能生成“看似合理但错误”的答案(如法律条款引用错误)。微调通过损失函数设计(如增加法律条款一致性约束),让模型输出更符合领域逻辑(如引用《民法典》第X条)。(如法律需判例库),而非通用文本。数据需“小而精”,而非“大而杂”。例如,1000条标注的法律案例数据,可能比100万条通用文本更有效。微调:注入领域专属知识(如医疗术语、金融逻辑),使模型具备特定场景下的专业能力。预训练模型:已在大规模无标注数据上学习通用特征(如语言规则、物体识别)。
2025-05-19 19:36:14
604
原创 惊爆!调参黑科技曝光,导师为何刻意隐瞒?错过再等一年
当你深入深度学习,调参却成 “拦路虎”。学习率、权重系数等参数稍调不对,模型就 “罢工”,最优参数组合更是难寻。花大量时间调参,模型准确率却 “原地踏步”,过拟合、欠拟合还常来捣乱,不禁让人感叹:调参咋这么难?神经网络架构复杂,参数设置变化无穷,尝试新组合不仅耗费资源,效果还不理想,调参痛点亟待破解。今天就和大家好好聊聊调参这件事。本章节内容颇为丰富,我们会以多篇文章的形式,逐一展开讲述。接下来,为大家呈现关于深度学习调参指南的内容导图。在正式开始之前,我把我们整理的。
2025-05-17 15:40:59
908
原创 用AI写代码,怎么问问题啊!?大模型、机器学习入门到实战
别让大模型成你的遮羞布!90%开发者被AI坑在『不会问问题』一位高级工程师描述,他有次带人用AI优化SpringBoot接口,实习生兴奋地说:“大模型生成CRUD这样的基础内容太强了!根本就不用人来干预。”但我注意到生成的代码缺少事务管理,问他为什么不用@Transactional注解,实习生居然反问:"那个注解是干什么的?
2025-05-17 11:22:10
540
原创 【计算机视觉】从AlexNet到Vision Transformer
在正文开始之前,先给大家带来一个超值福利!为了方便同学们快速开启人工智能学习计划,在学习过程中少走弯路用最快的效率入门Ai并开始实战项目。我们整理了近200个Ai实战案例和项目,这些并不是网上搜集来的,而是我们这五年线上线下教学所开发和积累的案例。-* 可以说都是反复迭代更新出来的,适合同学们来进行循序渐进的学习与练手。需要的扫码。
2025-05-16 21:12:00
829
原创 为什么大厂都看重Kaggle竞赛?一文带你准备Kaggle!
打开各大厂算法岗招聘页面,“” 的要求屡见不鲜。在科技行业,Kaggle 竞赛成绩已成为数据科学家和 AI 工程师求职时的 “硬通货”。谷歌、微软、Meta 等大厂在招聘数据相关岗位时,常将 Kaggle 排名、Kernel 质量、竞赛成果作为核心筛选标准。
2025-05-16 20:53:04
1050
原创 面试官必问:一文读懂VGG、GoogleNet、ResNet到底是什么?
VGG(Visual Geometry Group)是由牛津大学视觉几何组提出的深度卷积神经网络,它在 2014 年的 ImageNet 大规模视觉识别挑战赛(ILSVRC)中取得了优异的成绩。VGG 的主要贡献在于证明了增加网络的深度可以显著提高模型的性能,其网络结构简单且规整,具有很强的可扩展性。GoogleNet(也称为 Inception 网络)是由 Google 团队在 2014 年提出的深度卷积神经网络,它在 ImageNet 挑战赛中夺冠。
2025-05-15 16:52:06
633
原创 掌握反向传播:神经网络综合指南
反向传播算法于 1970 年代推出,是一种根据前一次迭代或纪元中获得的误差率微调神经网络权重的方法,这是训练人工神经网络的标准方法。你可以把它看作是一个反馈系统,在每一轮训练或 “纪元” 之后,网络都会审查其在任务上的表现。它计算其输出与正确答案之间的差异,称为错误。然后,它会调整其内部参数或 'weights' 以减少下次的误差。这种方法对于调整神经网络的准确性至关重要,并且是学习做出更好预测或决策的基础策略。
2025-05-14 22:21:43
929
原创 研究生零基础,想学CV,机器学习正确学习路线是什么?
对于零基础的研究生而言,机器学习(ML)的学习需系统规划,结合数学基础、编程能力、经典算法、现代技术及学术研究逐步推进。以下是分阶段的学习路线,兼顾理论深度与实践应用:机器学习算法本质是什么?逼自己一周学完12大机器学习算法,人工智能系统的核心规则集!决策树、回归算法、聚类算法、神经网络。
2025-05-13 20:24:32
676
原创 研究生零基础,想学CV,计算机视觉正确学习路线是什么?
对于没有基础的研究生而言,计算机视觉(CV)的学习需系统规划,分阶段推进。以下是结合数学、编程、理论、实践的完整路线:从零到实战上岸AI算法工程师—机器学习、计算机视觉、深度学习、神经网络。
2025-05-13 20:13:33
912
原创 当Transformer遇到调优困境:工程师必备的模型性能提升路线图
本文探讨了机器学习项目中模型性能调优的系统方法论,强调了在超参数优化过程中探索与利用的平衡,以及参数间的关联性。文章提出了科学调优的四个关键步骤:目标定义、实验设计、结果分析和决策上线,并介绍了增量式演进策略和空间搜索的三维平衡方法。此外,文章还提供了训练曲线诊断法、方差分解模型和隔离图技术等结果验证工具,以及终局优化策略,包括验证集折叠技术、集成搜索策略和硬件感知优化。最后,文章提醒读者在调优前应确保数据清洗和模型框架选择等前期工作已完成,并提供了丰富的AI学习资源和论文指导服务。
2025-05-12 20:48:25
577
原创 研究生必看:学术入门,少走三年弯路,加快论文进度
温馨提示:本文适合研0的同学快速入门一篇论文,想冲顶刊的学霸可以期待我们后续的文章哦~在正文开始之前,我们为大家整理了【】,主要包括了:1、SCI论文写作、投稿、修改助手、插图规范2、SCI管理软件、英语写作辅助和润色、写作与画图必备神器3、SCI 写作套路化模板(高级句型)4、上千份八大主流神经网络及变体、大模型、AIGC等AI各方向论文及代码5、写论文必备书籍6、历年及最新优秀顶刊论文合集。
2025-05-12 20:35:13
575
原创 揭秘 Transformer 用 PyTorch 实现全过程,附 200 个 AI 实战案例免费领!
在深度学习的广阔宇宙中,Transformer 架构无疑是一颗耀眼的明星。它凭借其强大的并行计算能力和出色的序列建模能力,在自然语言处理、计算机视觉等众多领域取得了卓越的成就。今天,我们将一起探索如何使用 PyTorch 来实现 Transformer 架构,为你的深度学习之旅增添新的动力!2025年Transformer必学:从零详解VIT、DETR、Loftr、BEVFormer、DeformableDetr一口气学爽。
2025-05-10 10:49:54
902
原创 LoRI比Lora精简95%参数的同时,实现更强性能,Lora到底有多少参数是冗余的?
马里兰大学和清华大学的研究团队提出的LoRI技术,犹如一把精巧的瑞士军刀,以惊人的95%参数削减,不仅解决了资源消耗问题,更在多任务协同和持续学习方面展现出非凡潜力。以 Llama-3-8B 和 Mistral-7B 作为基础模型,他们的结果表明,LoRI 达到或超过了全量微调(FFT)、LoRA 和其他 PEFT 方法的性能,同时使用的可训练参数比 LoRA 少 95%。通过使用固定的、随机初始化的投影 A,LoRI 将任务特定的适配器映射到近似正交的子空间,从而减少合并多个 LoRI 时的干扰。
2025-05-09 16:10:56
656
原创 ICML 2025 | 清华、上海AI Lab等提出傅里叶位置编码,多项任务远超RoPE
|机器之心长文本能力对语言模型(LM,Language Model)尤为重要,试想,如果 LM 可以处理无限长度的输入文本,我们可以预先把所有参考资料都喂给 LM,或许 LM 在应对人类的提问时就会变得无所不能。但是,LM 通常只在较短窗长下进行训练,可能产生过拟合,只学习到指定范围内的位置关系,但是无法理解没学习过的位置关系。为了缓解这个问题,当下最流行的便是引入具有周期性的旋转位置编码(Rotary Position Embedding,RoPE)。由于周期性编码每间隔一定距离就会出现数值重复,所以 L
2025-05-08 15:10:34
614
原创 遇事不决贝叶斯!贝叶斯分析,机器学习算法/人工智能/概率论
贝叶斯分析是一种基于概率论与统计学结合的推断方法,其核心是通过贝叶斯定理将先验知识与新证据结合,动态更新对事件概率的认知。以下从基本原理、应用领域及优缺点三个维度展开深度解析:【图解贝叶斯公式】1小时吃透大学四年没整明白的贝叶斯分析推导及垃圾邮件过滤实例(朴素贝叶斯/机器学习算法/MCMC算法/人工智能高数)
2025-05-06 22:21:09
609
原创 频上Nature中科院一区!?多尺度注意力,显著涨点效果与强大的启发性
今天要给大家分享一个极具潜力的创新点 ——多尺度注意力,凭借其显著的涨点效果与强大的启发性,近来在学术界热度持续飙升。在目标检测领域,多尺度特征融合技术发挥着关键作用。将浅层网络细腻的细节特征,与深层网络富含语义的特征相结合,让小目标和遮挡目标无所遁形,显著提升检测性能。医学影像分割领域亦是如此,借助多尺度特征融合,能够精准捕捉病灶区域形态的多样性以及边界的模糊性,极大提高分割精度,为医疗诊断提供有力支持。不过,当下这一领域仍存在诸多挑战。
2025-04-28 15:30:26
648
原创 TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨
另一个值得注意的现象是,随着模型大小的增加(从 1.5B 到 7B),其在 AIME 2024 和 AMC 上的性能提升也在增加,这凸显了 TTRL 的自然扩展行为:更大的模型可以在自我改进过程中产生更准确的多数投票奖励,从而更有效地学习新数据。值得注意的是,虽然 TTRL 仅依靠 Maj@N 指标进行监督,但其表现不仅能持续超越初始模型的性能上限,更能接近于那些直接在有标注测试数据上进行监督训练的模型性能。在 RL 中,奖励通常是模糊的,主要是作为探索的方向信号,这导致了 RL 对奖励噪声的鲁棒性。
2025-04-25 19:39:17
874
原创 毕设项目|基于OpenCV的疲劳检测
基于眼睛6个关键点的垂直和水平距离计算眼睛纵横比(Eye Aspect Ratio, EAR),公式为: EAR = \frac{||P2-P6|| ||P3-P5||}{2 \times ||P1-P4||}:利用OpenCV的solvePnP函数将3D人脸模型(预设的头部三维坐标)与检测到的2D关键点匹配,计算俯仰角(Pitch)、偏航角(Yaw)和滚转角(Roll):在标准测试集(如YawDD)中,EAR算法对闭眼检测准确率可达97.5%,结合头部姿态后综合准确率提升至98.3%
2025-04-24 14:11:25
593
原创 写论文为啥喜欢将YOLO作为第一学习目标
在学术论文中,YOLO(You Only Look Once)算法常被作为目标检测领域的“第一学习目标”,这一现象与其独特的设计理念、广泛的适用性以及学术界与工业界的双重认可密切相关。
2025-04-22 20:22:47
732
原创 Transformer必学哪些视觉?
ViT将输入图像分割为固定大小的16×16像素块(如224×224图像分为196个块),每个块展平后通过线性投影层(嵌入矩阵)转换为向量。例如,ViT的嵌入层将每个16×16×3的块转换为768维向量(以ViT-Base为例)。传统ViT为单一尺度特征,而PVT(Pyramid Vision Transformer)等模型构建多级金字塔特征,适配检测、分割等任务。总结来看,掌握ViT基础架构、自注意力机制及层次化改进是核心,同时需熟悉其在检测、分割等任务中的变体。
2025-04-19 11:57:11
791
原创 微软TimeDP:创新时间序列生成模型,突破跨领域应用局限性
编者按:随着人工智能技术的飞速发展,时间序列数据的应用价值在众多领域崭露头角。然而,现有方法往往难以有效应对不同领域之间的差异性,这在很大程度上限制了其广泛应用。在此背景下,微软亚洲研究院提出了一种创新的时间序列扩散生成模型 TimeDP。该模型通过引入时间序列原型和领域提示,突破了传统方法的局限,实现了高效的跨领域时间序列生成,显著提升了模型的泛化能力和灵活性。人工智能技术的持续演进,让时间序列数据在众多领域中的应用价值愈发凸显,尤其是在医疗健康、金融市场、气象预测和交通管理等行业。
2025-04-19 11:01:04
582
原创 频域+PINN新风向!好发不卷!上Nature!发高分SCI易如反掌!
PINN一直是火爆且好发论文的方向,目前已有多篇成果登上Nature及Science正刊。今天再给大家介绍一个好发又不卷的新风向——PINN+频域!:这是一种新的PINN变体,它通过将偏微分方程在周期性空间维度上进行离散傅里叶变换,将原始的偏微分方程转化为频域中的低维微分方程组。这种方法不仅减少了自变量的数量,而且降低了求解难度。与经典的PINN相比,FD-PINN能够减少输入样本的数量和优化难度,从而在降低训练成本的同时提高求解精度。
2025-04-19 10:49:18
747
原创 使用 BERT 进行自然语言处理:动手指南
什么是自然语言处理 (NLP)?了解什么是自然语言处理 (NLP) 并发现其实际应用,使用 Google BERT 处理文本数据集。自然语言处理 (NLP) 通过使用机器学习来指示文本的结构和含义,从而改善了人类和计算机相互交流的方式。借助自然语言处理应用程序,组织可以通过分析文本和提取更有意义的信息来改善客户体验,从而提高工作效率并降低成本。读研期间如何快速入门NLP?博士花17小时精讲Transformer+Huggingface+自然语言处理12大项目实战—HMM、贝叶斯算法、LSTM。
2025-04-18 20:10:45
867
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人