自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1057)
  • 资源 (1)
  • 收藏
  • 关注

原创 Coursera吴恩达《深度学习》课程总结(全)

01 神经网络和深度学习(Neural Networks and Deep Learning)1-1 深度学习概论主要介绍:主要对深度学习进行了简要概述。首先,我们使用房价预测的例子来建立最简单的单个神经元组成的神经网络模型。然后,我们将例子复杂化,建立标准的神经网络模型结构。接着,我们从监督式学习入手,介绍了不同的神经网络类型,包括Standard NN,CNN和RNN。不同的神经网络模型适合处理不同类型的问题。对数据集本身来说,分为结构化数据和非结构化数据。近些年来,深度学习对非结构化数据的处理

2021-09-24 19:01:44 39742 4

原创 机器学习与数学 | 本地部署大模型实现扫描版 PDF 文件 OCR 识别,笔记本可跑

在使用大模型处理书籍 PDF 时,有时你会遇到扫描版 PDF,也就是说每一页其实是图像形式。这时,大模型需要先从图片中提取文本,而这就需要借助 OCR(光学字符识别)技术。

2025-05-11 11:03:46 772

原创 python | nicegui,一个非常好用的 Python 库!

nicegui是一个Python库,为开发者提供了一种极其简便的方式来构建现代化Web用户界面。与传统Web开发不同,使用NiceGUI无需编写HTML、CSS或JavaScript代码,开发者只需使用熟悉的Python语法即可创建响应式、美观的Web应用。NiceGUI基于FastAPI和Socket.IO构建,具备高性能和实时通信能力,同时保持极简的API设计理念。

2025-05-11 11:00:14 391

原创 CV技术指南 | 动态视觉Backbone!港大团队开源TransXNet,入选顶刊TNNLS 2025

与以往的卷积和 self-attention 混合模块或全局与局部信息融合模块不同,D-Mixer 专注于动态性的捕捉。具体来说,D-Mixer 能够利用网络上一层的 feature maps 信息,生成用于提取当前 feature maps 的全局和局部动态权重,从而显著增强模型对多尺度特征的动态表征能力。 

2025-05-10 01:00:00 655

原创 python | Python 事件驱动:观察者、发布 - 订阅模式的代码实现与场景对比

事件驱动编程是一种编程范式,程序的执行流程由事件的发生来决定。事件可以是用户的操作,如鼠标点击、键盘输入,也可以是系统发生的特定状况,像定时事件、网络数据到达等。在事件驱动编程里,程序会等待事件的触发,接着执行对应的事件处理程序。这种编程方式能让程序及时响应外部变化,增强程序的交互性与实时性。

2025-05-10 00:30:00 1196

原创 OpenCV与AI深度学习 | 使用 YOLOv10 实现姿态检测

姿态估计就是从给定的输入图像中识别出称为关键点的特殊坐标。如上图所示,人体关节、面部特征就是关键点。从技术上讲,人工智能算法必须从大量带注释的图像中学习这些关键点的物理表征,然后在新的未见过的图像上预测这些关键点。

2025-05-09 15:06:02 615

原创 架构师炼丹炉 | 大语言模型引擎全解析:Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama

本文将带你深入了解 Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama 这些引擎,帮助你找到最适合的工具,释放大语言模型的全部潜力!

2025-05-09 15:00:09 926

原创 数据派THU | 9个主流GAN损失函数的数学原理和Pytorch代码实现:从经典模型到现代变体(建议收藏!)

生成对抗网络(GANs)的训练效果很大程度上取决于其损失函数的选择。本研究首先介绍经典GAN损失函数的理论基础,随后使用PyTorch实现包括原始GAN、最小二乘GAN(LS-GAN)、Wasserstein GAN(WGAN)及带梯度惩罚的WGAN(WGAN-GP)在内的多种损失函数。

2025-05-07 16:58:00 929

原创 NLP奇幻之旅 | Redis进阶(一)使用Redis实现分布式锁(建议收藏!)

笔者最近在使用定时任务的时候,发现一个问题:如果多台机器同时部署了同一个定时任务,则会出现同一资源被重复消费的问题。解决的方案是使用分布式锁。

2025-05-07 16:55:26 1145

原创 数据派THU | 独家 | 用图逐层解析Transformer(推荐收藏!)

它很漂亮!如果不是因为它非常有用,我可能不会这么想。我现在体会到了人们第一次看到它工作时的感觉。这个用很少代码就能表达的优雅、可训练的模型学会了如何翻译人类语言,并击败了几十年来建立的复杂机器翻译系统。它神奇、聪明,令人难以置信。你可以看到下一步是怎么说的,而不用在意翻译的句子。让我们在互联网上的每一点文本上使用这种技术—大语言模型就这样诞生了!

2025-05-06 16:37:40 621

原创 算法进阶 | 一文归纳常用数据结构与算法(推荐收藏!)

程序员,也就是"通过编码操作数据容器构建起数字世界的总工程师",从这角度看,数据结构及算法是构建虚拟世界的一系列基础的元件及方法。

2025-05-06 10:52:33 982

原创 周报 | 25.4.28-25.5.4文章汇总

为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!

2025-05-06 10:49:04 285

原创 python | scalene,一个超酷的 Python 库!

Scalene是一个高性能的Python分析器,专为发现CPU和内存使用效率问题而设计。它由马萨诸塞大学开发,区别于传统分析器,Scalene能够精确定位Python代码和原生代码的性能瓶颈,并提供内存分配和内存泄漏的详细分析。

2025-05-03 08:15:00 1461

原创 极市平台 | 首篇MCP技术生态全面综述:核心组件、工作流程、生命周期

模型上下文协议(MCP):一种标准化接口,旨在实现AI模型与外部工具和资源之间的无缝交互,打破数据孤岛,促进不同系统之间的互操作性。

2025-05-03 03:30:00 872

原创 Coggle数据科学 | 小白学大模型:多模态 Qwen2.5-VL

Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。Qwen-VL 系列模型性能强大,具备多语言对话、多图交错对话等能力,并支持中文开放域定位和细粒度图像识别与理解。

2025-05-02 10:20:45 464

原创 码科智能 | 从分割一切到描述一切!从笼统概括到细粒度区域描述!英伟达开源DAM模型:指令控制的字幕生成

如果AI能像上述一样事无巨细地观察世界,会发生什么?之前爆火的SAM模型让我们能"分割一切",但分割后的区域到底意味着什么?进一步地给出该区域的目标类别显然不够,我们还是希望AI能描述该区域的细节内容!

2025-05-02 10:19:27 741

原创 NLP奇幻之旅 | Redis快速入门(推荐阅读!)

Redis是一个开源的使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API,如Java, Python, PHP等。

2025-04-30 02:15:00 661

原创 江大白 | PyTorch CUDA 内存管理优化:深度理解GPU资源分配与缓存机制!

本文深入理解 PyTorch 是如何管理和分配 GPU 显存的,并结合实战经验,探讨如何通过定制内存策略和调度机制,最大化你的 GPU 集群性能,摆脱 CUDA out of memory 恐惧症。

2025-04-29 21:55:46 1053

原创 小白学视觉 | 小白看得懂的 Transformer (图解)

谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务,当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率。在本文中,我们将研究Transformer模型,理解它的工作原理。

2025-04-29 21:52:56 876

原创 集智书童 | 新一代LMM基线发布 | 早期自回归融合+预训练先验驱动,性能直追组合模型,训练资源大幅精简!

近年来,大语言模型(LLMs)的进展显著推动了大型多模态模型(LMMs)的发展,突显了通用和智能助手的潜力。然而,大多数LMMs分别对视觉和文本模态进行建模,导致近期努力开发使用单个transformer的局部LMM。尽管前景看好,但这些局部模型资源密集,通常与它们的组合对应模型相比存在性能差距。

2025-04-28 16:28:51 975

原创 周报 | 25.4.21-25.4.27文章汇总

了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!

2025-04-28 16:27:48 508

原创 江大白 | DeepSeek的风吹到了多模态,Visual-RFT发布,视觉任务性能飙升20%!(附论文及源码)

上交大提出 Visual-RFT,将 RFT 扩展至视觉任务,借可验证奖励函数(如 IoU、分类准确率奖励)与策略优化,提升 LVLMs 性能。实验显示,少样本场景下视觉任务性能飙升 20%+,相关成果开源。

2025-04-27 17:24:19 316

原创 CV技术指南 | CVPR‘2025 | AA-CLIP:赋予CLIP模型对异常的感知能力

为解决CLIP的“异常无意识”问题,作者提出了Anomaly-Aware CLIP(AA-CLIP),通过增强CLIP在文本和视觉空间中的异常辨别能力,同时保留其泛化能力,从而提高零样本AD任务的性能。

2025-04-27 16:53:08 1109

原创 AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(二)

不同领域的交互式人工智能策略,扩展了调用大型基础模型的范式,训练有素的智能体会积极收集用户反馈、动作信息、用于生成和交互的有用知识。有时,大语言模型/视觉语言模型无需再次训练,我们可以通过在测试时为智能体提供改进的上下文提示来提高其性能。另一方面,它总是涉及通过三重系统的组合进行知识/推理/常识/推断交互式建模—— 一个系统从多模态查询中执行知识检索,第二个系统从相关智能体执行交互式生成,最后一个系统通过强化学习或改进的模仿学习方法,进行新的、有信息的自监督训练或预训练。

2025-04-25 16:26:56 893

原创 AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(一)

你能想象未来的AI不仅能听懂你的话、看懂你做的事,还能像人一样在真实和虚拟世界中灵活行动、与你自然互动吗?Agent AI的出现正让这个想象逐渐成为现实!它融合了多种前沿技术,在游戏、医疗、机器人等领域掀起了创新浪潮,但同时也面临着不少难题。想知道它究竟是如何做到的,又有哪些挑战吗?快来一探究竟!

2025-04-25 16:17:34 842

原创 CourseAI | 【综述:入门必读】RAG演变到MRAG的三个阶段

多模态检索增强生成 (MRAG) 通过将多模态数据(例如文本、图像和视频)集成到检索和生成过程中。MRAG 通过扩展 RAG 框架以包含多模态检索和生成来解决此限制,从而实现更全面和上下文相关的响应。在 MRAG 中,检索步骤涉及从多种模态中定位和整合相关知识,而生成步骤则利用多模态大型语言模型 (MLLM) 来生成包含多种数据类型信息的答案。

2025-04-24 17:27:06 830

原创 AI生成未来 | 只需一张图,万物皆可插!Insert Anything开源啦!开创AI图像插入新时代|浙大&哈佛等(推荐收藏!)

本文提出统一框架Insert Anything,通过支持掩码/文本双引导模式突破专用方法局限。基于12万提示-图像对的AnyInsertion数据集和DiT架构,创新性地采用双联画/三联画提示策略实现上下文编辑机制,在保持身份特征的同时确保视觉协调性。三大基准测试表明,本方法在人物/物体/服装插入任务中全面超越现有技术,为基于参考的图像编辑树立新标杆,为实际创意应用提供通用解决方案。

2025-04-24 17:25:40 664

原创 kaggle竞赛宝典 | 国内最快的推理模型!效果比肩 DeepSeek R1,速度快 8 倍!

以前,大家往往比拼模型的参数规模、模型效果;后来,大家开始卷价格;就在今天,智谱 AI 这位老哥,突然开源了一个速度起飞的推理模型,直接把“速度”这张牌打成了王炸。

2025-04-23 16:29:47 809

原创 Zilliz | 风口|继MoE、MCP与A2A之后,下一个模型协作风口是MoA

真的存在所谓的SOTA模型吗?

2025-04-23 16:28:21 1201

原创 码科智能 | 细节超越SAM2!商汤开源视频抠图新标杆:MatAnyone一次指定全程追踪,发丝级还原

当SAM2引爆图像分割革命,MatAnyone这种设置既兼顾用户可控性,又具有更强的实用性和鲁棒性,正在视频抠图领域竖起新的技术标杆。

2025-04-22 17:07:52 640

原创 集智书童 | 45倍加速+最新SOTA!VAE与扩散模型迎来端到端联合训练:REPA-E让VAE自我进化!

本文探讨了一个基本问题:“我们是否能够实现基于隐空间扩散 Transformer 的端到端训练,从而释放 VAE 的潜力?”具体来说,观察到,直接将扩散损失反向传播到 VAE 是无效的,甚至会降低最终的生成性能。尽管扩散损失无效,但可以使用最近提出的表示对齐损失进行端到端训练。所提出的端到端训练方案(REPA-E)显著改善了隐空间结构,并展现出卓越的性能:相较于 REPA 和传统训练方案,扩散模型训练速度分别提升了超过 17× 和 45×。

2025-04-22 16:27:08 743

原创 周报 | 25.4.14-25.4.20文章汇总

为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!

2025-04-21 17:34:07 323

原创 Coggle数据科学 | 从零实现 DeepSeek R1:从基础模型到强化推理模型

在人工智能领域,语言模型的推理能力一直是研究的热点和难点。DeepSeek R1 作为一款专注于推理的先进语言模型,其训练过程和技术创新为自然语言处理领域带来了新的突破。

2025-04-21 17:29:44 1376

原创 python | segno,一个神奇的 Python 库!

二维码已成为现代生活中不可或缺的一部分,从支付到登录,从信息分享到物联网设备配置,二维码以其高效和便捷广泛应用于各个领域。对于 Python 开发者来说,Segno 是一个强大且灵活的二维码生成库。它提供了多种功能,包括生成高质量的静态和动态二维码、支持多种标准格式,并允许高度定制化。Segno 的设计注重易用性,帮助开发者快速实现复杂的二维码生成需求。

2025-04-20 00:30:00 946

原创 我爱计算机视觉 | 2025 TPAMI综述 | 全新视角红外与可见光图像融合完整理解与入门!附GitHub最全开源对比方法结果!

红外与可见光图像融合,正站在从理论研究走向实际应用的关键十字路口。本综述不仅系统梳理了当前主流方法与数据集,也首次从“数据-融合-任务”的完整链路出发,搭建起了一个统一的研究框架。我们希望这份工作,能为研究者提供参考,为工程实践者带来启发,也为未来的发展方向提供一些思路。欢迎关注本文的 GitHub 项目,共同完善红外与可见光融合技术的知识地图!

2025-04-20 00:15:00 793

原创 新智元 | 全网最全「吉卜力」AI神器总结!只要2分钟,照片秒变吉卜力

一起来试试吧!【新智元导读】不止GPT-4o可以制作吉卜力风格图像!更多工具都可以制作吉卜力风图像。甚至2分钟之内,还能用照片生成吉卜力风格动画:蒙娜丽莎给你说Hello。

2025-04-19 17:28:53 383

原创 AI生成未来 | Seedream 3.0技术细节重磅发布!中文图文生成再进化,2K高清+爆改文字渲染,远超Canva!

在 Seedream 2.0 中,采用了一种严格的数据过滤策略,系统性地剔除包含轻微缺陷(如水印、覆盖文字、字幕、马赛克等)的图像数据。这种严格的过滤显著限制了训练所用数据量,尤其考虑到此类缺陷样本约占原始数据集的 35%。为解决这一问题,Seedream 3.0 引入了一种创新的“缺陷感知训练范式”。该范式包含一个专门训练的缺陷检测器,基于 15,000 张由主动学习引擎挑选并人工标注的样本构建。该检测器可通过边界框预测精确定位缺陷区域。

2025-04-19 17:27:17 985

原创 python | Python开发进阶:构建可复用工具类的3种核心模式

在专业的Python开发过程中,代码复用是提高开发效率和代码质量的关键。通过创建自定义工具类,可以将常用功能封装起来,使其更易于维护和使用。

2025-04-18 20:22:58 415

原创 易安说AI | GPT-4o的吉卜力魔法让所有人都成了动画大师

一起来试试吧!无论GPT-4o背后的具体技术是什么,它的确展示了AI图像生成的惊人进步。从吉卜力风格的创意插图到产品合成图,从概念可视化到精美海报,GPT-4o为创意工作者提供了一个强大的新工具。 虽然它还不能完全替代专业设计师和摄影师,但对于快速创意概念验证、简单图像编辑以及日常视觉内容创作来说,GPT-4o已经足够强大且易于使用。

2025-04-17 17:32:39 1011

原创 @算法进阶 | 首次!抖音公开算法原理

近日抖音相关业务负责人基于网站版块,就社会关切的算法和治理问题展开介绍。推荐算法作为人工智能机器学习技术的重要应用场景,本质上是一套高效的信息过滤系统。在抖音的实际应用中,推荐系统采取“人工+机器”协同的方式进行风险治理,始终有人工运营和治理体系为算法导航;多目标体系算法能主动打破 “信息茧房”,为用户带来更丰富多元、实用可靠的推荐结果。

2025-04-17 17:12:26 678

全国省-市-区城市经纬度汇总.csv

简介:全国主要区县城市经纬度汇总。我国省级行政区划分:23个省、5个自治区、4个直辖市、2个特别行政区,合计34个省级行政区。 省:河北省、山西省、辽宁省、吉林省、黑龙江省、江苏省、浙江省、安徽省、福建省、江西省、山东省、河南省、湖北省、湖南省、广东省、海南省、四川省、贵州省、云南省、陕西省、甘肃省、青海省、台湾省。 自治区:内蒙古自治区,广西壮族自治区,宁夏回族自治区,新疆维吾尔自治区,西藏自治区。 直辖市:北京市,天津市,上海市,重庆市。 特别行政区:香港特别行政区,澳门特别行政区。

2020-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除