- 博客(991)
- 资源 (1)
- 收藏
- 关注

原创 Coursera吴恩达《深度学习》课程总结(全)
01 神经网络和深度学习(Neural Networks and Deep Learning)1-1 深度学习概论主要介绍:主要对深度学习进行了简要概述。首先,我们使用房价预测的例子来建立最简单的单个神经元组成的神经网络模型。然后,我们将例子复杂化,建立标准的神经网络模型结构。接着,我们从监督式学习入手,介绍了不同的神经网络类型,包括Standard NN,CNN和RNN。不同的神经网络模型适合处理不同类型的问题。对数据集本身来说,分为结构化数据和非结构化数据。近些年来,深度学习对非结构化数据的处理
2021-09-24 19:01:44
38450
4
原创 Coggle数据科学 | 行业落地分享:FastGPT企业Agent落地实践
大模型的优势在于其知识面广,能够涵盖众多领域的知识,为用户提供丰富的信息。它们能够理解复杂问题,通过大量的数据学习和分析,找到问题的核心所在。然而,大模型也存在一些问题。它们基于概率进行判断,这使得它们在某些情况下不够稳定,可能会出现错误或不准确的回答。
2025-04-02 17:50:17
543
原创 数据派THU | 大语言模型中的归一化技术:LayerNorm与RMSNorm的深入研究
在LLama等大规模Transformer架构的语言模型中,归一化模块是构建网络稳定性的关键组件。本文将系统分析归一化技术的必要性,并详细阐述为何原始Transformer架构中的LayerNorm在LLama模型中被RMSNorm所替代的技术原理。
2025-04-02 17:46:59
706
原创 AI新智力 | AI|大模型入门(一)
深度学习技术是机器学习的一种方法,机器学习是人工智能的一个分支;通过深度学习方法,利用海量无标注的数据进行自我学习来进行预训练,从而获得具备通用知识能力的大语言模型;大模型是AIGC(人工智能生成内容)的一个典型技术,而AIGC属于生成式人工智能(GAI)领域的一个典型应用。
2025-04-01 18:02:35
801
原创 python | Python单元测试的参数化与数据驱动测试
软件测试是保障代码质量的重要环节,而单元测试作为测试金字塔的基础,对于捕获低级别的错误至关重要。在Python开发中,随着应用复杂度的提高,传统的单元测试方法往往显得繁琐且难以维护。参数化测试和数据驱动测试作为单元测试的高级技术,能够大幅提升测试效率和代码覆盖率。本文将深入探讨这两种测试技术的实现方法和最佳实践。
2025-03-31 17:59:18
774
原创 集智书童 | HybridNorm 革新 Transformer 训练 | QKV与 FFN 双路径混合归一化,稳定训练+性能突破双赢
Transformer 已成为众多机器学习任务的默认架构,尤其是在大语言模型(LLMs)中。尽管它们的表现令人瞩目,但在训练深度 Transformer 网络方面仍存在挑战,尤其是在层归一化的位置上。虽然Pre-Norm结构由于其更明显的恒等路径而便于训练,但与Post-Norm相比,它们通常会产生次优的性能。
2025-03-31 17:50:38
872
原创 量子位 | 刚刚,沈向洋官宣通用视觉大模型!无需提示,就能识别万物
刚刚,IDEA研究院创院理事长沈向洋官宣IDEA研究院最新成果:通用视觉大模型DINO-X。它实现视觉任务大一统,支持各种开发世界感知和目标理解任务,包括开放世界对象检测与分割、短语定位、视觉提示计数、姿态估计、无提示对象检测与识别、密集区域字幕等。
2025-03-30 03:30:00
992
原创 码科智能 | 边缘设备也能跑SOTA实时物体检测模型?DINOv2预训练+DETR端到端的黄金组合,第一个超60AP的模型!
今天Roboflow就开源了SOTA 实时物体检测模型RF-DETR,其在现实世界数据集上的表现优于所有现有的物体检测模型,并且是第一个在 COCO 数据集上进行基准测试时达到 60+ 平均精度的实时模型。
2025-03-30 03:00:00
589
原创 python | code2flow,一个神奇的 Python 库!
Python code2flow库是一个强大的静态代码分析工具,旨在自动生成源代码的流程图和可视化表示。对于开发者来说,理解复杂的代码结构和逻辑流程常常是一项挑战,特别是在接手他人的代码或重新审视自己久未维护的项目时。code2flow通过静态分析代码并自动生成直观的流程图,帮助开发者快速把握代码的整体架构和执行路径。该库支持Python、JavaScript和Ruby等多种编程语言,能够识别函数调用、条件分支、循环结构等代码元素,并将它们转换为标准流程图,极大地简化了代码理解和文档生成过程。
2025-03-29 22:39:15
791
原创 码科智能 | 加速实时视觉检测应用,在边缘设备部署上实现2.4倍的加速!
想象一个场景:高速公路上遇到200km/h超速车辆,这时30帧摄像头抓拍成“幻影”,AI违法事件监控功能直接失效。反之另一个场景:暴雨夜大货车侧翻,AI 监控毫秒内预警,救援响应大幅提速!
2025-03-29 22:38:03
848
原创 数据派THU | 深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构(建议收藏!)
在快速发展的自然语言处理(NLP)领域,分词(tokenization)作为将原始文本转换为机器可处理格式的首要环节,具有不可替代的重要性。分词过程将文本分割成离散单元——即token,这些token构成了后续分析的基础,包括词嵌入(embedding)、语法解析和模型训练等多个环节。
2025-03-28 17:12:38
945
原创 arXiv每日学术速递 | 澳门大学最新!CoT-Drive:开启自动驾驶思维链时代,突破复杂场景理解瓶颈~
感知、预测、规划三位一体的自动驾驶架构虽然在端到端的趋势下,逐渐退出历史舞台,但是对于每个环节的理解和提升,也可以推动更好的模型设计和发展。今天要介绍的这篇工作,就是要用新技术做更好的旧任务——如何运用LLMs和思维链的提示去做预测任务。首先,不可否认的是,自动驾驶车辆在动态环境中对交通参与者进行精准运动预测,是下游决策制定和安全规划的基础,也是整个系统非常核心环节。
2025-03-28 17:00:53
718
原创 码科智能 | 字节又整活!将 SAM2 与 LLaVA 结合起来,第一个在视频级别支持对话、指称分割及理解的统一模型
Sa2VA 模型通过结合基础视频分割模型 SAM-2 和高级视觉语言模型 LLaVA,将文本、图像和视频统一到共享的 LLM 标记空间中。这种架构设计使得 Sa2VA 能够在最少指令微调的情况下,执行多种任务,包括图像对话、视频对话、图像指称分割、视频指称分割和基于单次指令调整的字幕生成。
2025-03-27 22:32:22
873
原创 小白玩转Python | 简化目标检测:使用 Grounding DINO 对自定义数据集进行标注
对于像 YOLO 这样的模型,使用带有标注图像数据集进行训练有时可能会有点令人望而却步。如果你需要处理自定义数据,并围绕其定义标注,那可能会有些耗时。但我找到了完美的解决方案——Grounding DINO!这种方法的突破之处在于,它将基于 Transformer 的检测器 DINO 与基础预训练相结合,可以从有限的人类输入中检测到任意对象。这篇简易指南向你解释了如何有效地将你的自定义数据集格式化为 PASCAL VOC 格式,并且让你惊讶地发现,在你的目标检测项目中,这些数据集可以轻松而有效地使用。
2025-03-27 22:17:20
613
原创 量子位 | 目标检测新SOTA,端侧实时识别,沈向洋罕见转发点赞
目标检测领域,迎来了新进展——Grounding DINO 1.5,IDEA研究院团队出品,在端侧就可实现实时识别。这一进展获得AI大佬沈向洋转发,他一般都是一年一转的节奏。此次发布主要有两个版本:Pro和Edge。Pro版更强,Edge版更快。它仍然保留了上一个版本。
2025-03-26 17:29:45
626
原创 OpenCV与AI深度学习 | 使用 SAM 和 Grounding DINO 分割卫星图像
我们使用 Google (GCP) 作为我们的云平台,并选择使用 Apache Beam 作为我们的分布式计算框架来加快处理时间,因为 GCP 为 Beam 提供了一个名为 Dataflow 的执行引擎,该引擎功能相当齐全。由于我们的图像处理管道结合了自定义 Python 库以及大型外部依赖项(如机器学习模型),因此我们需要使用灵活的计算框架(如 Beam 或 Spark),而不是 BigQuery 等结构化程度更高的数据处理平台。
2025-03-26 17:15:14
825
原创 天才程序员周弈帆 | 人脸风格迁移 + StyleGAN 的最新玩法
如今,人脸风格迁移的效果越来越惊人。给定一张人脸照片,不管是变成卡通风格、二次元风格,甚至是变成讽刺画风格,AI都能轻轻松松做到。
2025-03-25 21:49:16
1465
原创 极市平台 | 让小模型也能有大作为!SANA 1.5:线性扩散Transformer再刷文生图新SOTA
把模型参数从 1.6B (20 blocks) 缩放到 4.8B (60 blocks),重用小模型的知识。不用从头开始训练模型。
2025-03-25 21:48:10
849
原创 Datawhale | 杭州六小龙最新开源「空间理解模型」,保姆级教程来了!
SpatialLM 是一款专门为三维空间理解设计的大语言模型,通过三维点云数据,生成结构化的三维场景理解输出,包括墙壁、门、窗等建筑元素,以及带有语义类别的定向物体边界框。与传统需要专用设备进行数据采集的方法不同,SpatialLM能够处理来自多种来源的点云数据,如:单目视频序列、RGBD图像和LiDAR传感器等。
2025-03-24 17:30:53
989
原创 python | werkzeug,一个不可思议的 Python 库!
Werkzeug是一个全面的WSGI(Web服务器网关接口)工具库,最初由Armin Ronacher开发,现已成为Python Web开发中不可或缺的基础组件。作为Flask框架的核心依赖,Werkzeug提供了构建Web应用所需的大量底层功能,包括请求和响应对象的封装、URL路由、开发服务器等核心特性。它的设计理念是提供灵活且模块化的工具集,让开发者能够构建出高质量的Web应用。
2025-03-23 01:30:00
996
原创 码科智能 | 谷歌开源「动物物种识别神器」SpeciesNet!6500万张图像训练,秒识2000+物种!
当北极狐的踪迹被AI锁定、盗猎者的车轮被算法拦截,或许这就是科技守护地球的最美姿态。谷歌最新开源AI模型 SpeciesNet,专为野生动物研究打造!
2025-03-23 01:00:00
838
2
原创 极市平台 | SimDINO | 借助编码比率正则化简化DINO并提升性能
这篇论文是来自 UC Berkeley、TranscEngram、Microsoft Research 等机构的 Ziyang Wu 等人撰写的 “Simplifying DINO via Coding Rate Regularization”,核心是提出 SimDINO 和 SimDINOv2 模型,通过编码率正则化简化 DINO 和 DINOv2 训练流程,并提升模型性能。
2025-03-22 20:45:53
945
原创 码科智能 | 顶配版OCR工具!支持任何语言、任意表格、图表与文档的文本检测和识别工具
Surya:多语言文档OCR工具包,可进行准确的文本行检测,即将推出文本识别功能,以及表格和图表检测功能,可以处理各种类型的文档和多种语言。仅开源3天即获得接近2kstar。
2025-03-22 20:41:00
558
原创 机器学习实验室 | DeepSeek接入本地知识库
特别是垂直领域的大模型应用,对于模型回答的准确率要求非常高,因为存在幻觉问题,单纯依靠大模型难以满足使用需求,所以我们一般会通过检索增强生成(Retrieval-Augmented Generation, RAG)技术来缓解大模型幻觉,提高检索的召回率。模型设置好后,在页面顶端找到知识库,进入后上传自己的本地文档,比如笔者所在的医疗场景,专业问答非常依赖于一些临床指南和专家共识,所以笔者新建了一个叫做临床指南的知识库,专门存放各种疾病的临床指南文件。
2025-03-21 21:47:52
836
原创 码科智能 | 苹果开源AIMv2通用视觉模型:性能碾压CLIP和DINOv2,视觉与文本的完美融合
AIMv2是苹果公司推出的开源多模态自回归预训练视觉模型,通过深度融合图像和文本信息,提高视觉模型的性能。它采用了一种创新的预训练框架,将图像切分为非重叠的图像块,并将文本拆分为子词令牌,随后将这两种信息合并为一个统一的序列进行自回归预训练。随着数据量和模型规模的增加,AIMv2 的性能持续提升,展现出优异的扩展性。更恐怖的是:AIMV2 在训练数据量仅为 DFN-CLIP 和 SigLIP 的四分之一(12B vs. 40B)的情况下,仍能取得如此优异的成绩,且训练过程更加简便、易于扩展。
2025-03-21 21:45:35
631
原创 DataFunTalk | 从Manus到OpenManus:AI产品如何赢得未来?
今天咱们来聊一下这两天在AI圈掀起轩然大波的Manus,以及开源版 OpenManus。这两款产品背后的技术细节、市场反应以及它们的未来发展方向,都值得我们探讨一番。
2025-03-20 23:04:00
1327
原创 python | grab,一个强大的 Python 库!
Grab是一个强大的Python网络爬虫框架,专门设计用于处理复杂的网页抓取任务。它将多个实用工具整合在一起,包括网页下载、数据提取和并发处理等功能。与传统的爬虫工具相比,Grab提供了更高级的特性,如内置的网页缓存系统、智能页面解析和自动化表单提交等。该框架特别适合需要处理大规模数据采集的项目,能够帮助开发者构建稳定且高效的爬虫系统。
2025-03-20 23:03:19
651
原创 THUSIGSICLAB | Low-Level视觉中的扩散模型:综述
本综述对扩散模型在low-level视觉中的应用全面调研,总结了三种通用的扩散模型框架,并从多个角度对应用于底层视觉的扩散模型进行了分类,从200余篇文献中总结了涵盖超分辨率、去模糊、去雾、去雨、补全、暗光增强、医学图像重建、遥感、视频等任务在内的现有的基于扩散模型的底层视觉工作,并对相关的数据集、评价指标进行了整理。本文对综述中关键图表及部分内容进行描述总结,欢迎从以下链接中获取综述完整内容,或从我们整理的Awesome仓库中获取更多信息。
2025-03-19 21:32:49
624
原创 python | 深入理解Python并发编程中的GIL限制与解决方案
在探讨Python并发编程时,全局解释器锁(Global Interpreter Lock,简称GIL)是一个无法回避的话题。对于许多Python开发者来说,GIL既是一个常见的性能瓶颈,也是一个充满误解的概念。本文将深入探讨GIL的本质、其对并发编程的影响,以及在实际应用中如何有效地克服这一限制。
2025-03-19 21:27:12
714
原创 集智书童 | DM-YOLO 小目标检测新SOTA | 轻量化+动态上采样,参数减38%、精度升4.1%,边缘设备实时部署
小目标检测尤其困难,因为它们像素计数低、背景复杂、拍摄角度多变,这使得模型难以提取有效特征。虽然一些大规模模型提供了高精度,但它们的长时间推理时间使得它们不适合在边缘设备上进行实时部署。另一方面,为低计算能力设计的模型通常检测精度较差。本文专注于小目标检测,并探索在低计算约束下的目标检测方法。基于YOLOv8模型,作者提出了一种新的网络架构,称为FDM-YOLO。作者的研究包括以下关键贡献:作者通过分析YOLOv8检测Head的输出引入了FDM-YOLO。作者添加了一个高分辨率层并移除了大目标检测层,以更好
2025-03-18 21:21:53
1231
原创 机器学习AI算法工程 | 基于大语言模型的知识蒸馏
离线蒸馏是指知识渊博的老师教给学生知识;在线蒸馏意味着教师和学生共同学习;自我蒸馏是指学生自学知识。这三种蒸馏方案可以相互结合。
2025-03-18 15:22:58
1100
原创 GiantPandaLLM | 非常简洁的图像复原新方法:退化分类预训练,已中ICLR2025
图像复原是利用模型将低质量(LQ)图像改进为高质量(HQ)图像的任务,在深度学习时代,图像复原任务可以被进一步理解为:以低质量图像为条件生成高质量图像。通用图像复原(Universal Image Restoration, UIR)任务是图像复原的一项重要的子任务。UIR 试图创造一种方法,使得模型能够自主的应对不同退化,并生成语义、细节纹理一致的高质量图像。
2025-03-16 21:42:40
808
原创 数据派THU | MOIRAI-MOE: 基于混合专家系统的大规模时间序列预测模型
作为早期时间序列基础模型之一,Salesforce 开发的 MOIRAI 凭借其出色的基准测试性能以及开源的大规模预训练数据集 LOTSA 在业界获得了广泛关注。本文在此前对 MOIRAI 架构原理的深入分析基础上,重点探讨其最新升级版本 MOIRAI-MOE。该版本通过引入混合专家模型(Mixture of Experts, MOE) 机制,在模型性能方面实现了显著提升。这一改进也与大语言模型模型采用的多专家机制形成了技术共鸣。
2025-03-16 21:18:37
1056
原创 python | Python模块缓存:sys.modules机制
Python的模块导入系统是该语言核心机制之一,它允许开发者组织代码并重用功能。在这个系统中,sys.modules扮演着至关重要的角色,它作为Python模块缓存的核心组件,直接影响着程序的导入行为和性能。本文将深入探讨sys.modules的工作原理、重要性以及如何有效利用这一机制。
2025-03-15 17:34:15
904
原创 量子位 | 何恺明LeCun联手改造Transformer!9行代码替代归一化层,性能不减还加速
归一化长期以来一直被认为是必不可少的,在现代神经网络中无处不在。但团队认为可以换用一种非常简单的技术,他们提出(Dynamic Tanh),直接替代Layer Norm或RMSNorm,性能达到或超过标准Transformer。从视觉的ViT/MAE,到语言模型的LLaMA,再到语音、DNA系列等模态都可以用,完整代码库已开源。网友评价说,只要元素级运算就能实现和归一化一样的效果,这对于效率优化来说简直是免费的午餐。
2025-03-15 17:16:53
841
原创 数据派THU | 用PyTorch从零构建 DeepSeek R1:模型架构和分步训练详解(下)
本文深入剖析了 DeepSeek R1 模型的构建过程。DeepSeek R1 的完整训练流程核心在于,在其基础模型 DeepSeek V3 之上,运用了多种强化学习策略。
2025-03-14 16:54:33
1106
全国省-市-区城市经纬度汇总.csv
2020-09-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人