- 博客(83)
- 收藏
- 关注
原创 强化学习入门(1):概念、Sarsa、Q-Learning、Dyna-Q
强化学习是一种人工智能范式,它让智能体在未知环境中通过试错自我进化,目标是最大化长期回报。其核心机制是基于“状态 - 动作 - 奖励”的闭环:智能体观察当前状态,根据策略选择一个动作,环境会立即返回一个标量奖励并转移到下一个状态。与监督学习不同,强化学习不需要预先提供样本标签,而是让智能体在与环境的动态交互中探索有效路径,同时利用已有经验避免重复无效尝试,平衡“探索”与“利用”是其关键挑战之一。
2025-10-03 16:45:01
926
原创 MinerU:最强文档解析多模态大模型
MinerU是一款由OpenDataLab开源的多模态文档智能解析工具链,旨在将PDF等非结构化文档转化为机器可读的结构化数据。MinerU支持多种输出格式(Markdown/LaTeX/HTML/JSON),可处理复杂版式文档,并针对重叠元素设计了智能后处理算法。该工具填补了开源社区在高精度文档理解基础设施方面的空白,为构建高质量大模型语料库提供了工业级解决方案。
2025-10-03 16:43:49
1680
原创 Qwen-Image:通义团队新开源超强中文文生图模型(技术报告解读)
Qwen-Image是由阿里巴巴团队开发的200亿参数多模态图像基础模型,在复杂文本渲染和精准图像编辑方面取得突破性进展。该模型采用MMDiT架构,整合了多模态大语言模型Qwen2.5-VL和创新的变分自编码器,通过多阶段训练策略和严格的数据过滤流程,实现了卓越的生成能力。在公开基准测试中,Qwen-Image在文本到图像生成、中文文本渲染、图像编辑等任务上均达到SOTA水平,特别是在中文长文本处理和结构化视觉内容生成方面表现突出。
2025-08-11 17:27:22
2346
原创 GPT-oss:OpenAI再次开源新模型,技术报告解读
OpenAI开源两款混合专家模型gpt-oss-120b(116.8B参数)和gpt-oss-20b(20.9B参数),采用Apache2.0许可。通过MXFP4量化技术,大模型可单卡80GB运行,小模型仅需16GB显存。模型支持复杂推理、工具调用(搜索/代码执行)和Harmony对话格式,在STEM、编程等任务上表现优异,逼近o4-mini水平。安全评估显示,即便对抗微调也未达高风险阈值,但OpenAI强调开发者需自行部署防护措施。模型知识截止2024年6月,过滤了生化风险内容,提供低/中/高三档推理强度
2025-08-11 17:22:42
2418
原创 Kimi-K2技术报告解读:万亿参数大模型,开源模型新SOTA
Kimi K2,这是一个面向智能体智能的 1 万亿参数开源 MoE 模型。借助 token 高效的 MuonClip 优化器与 15.5 T 高质量 token 数据,作者实现了稳定且可扩展的预训练。后训练阶段,作者将大规模合成工具使用数据与统一 RL 框架相结合,同时利用可验证奖励与自评反馈。Kimi K2 在智能体与推理基准上刷新开源纪录,成为迄今最强的开源大模型。
2025-07-30 21:53:10
3400
3
原创 字节跳动GR-3:可泛化、支持长序列复杂操作任务的机器人操作大模型(技术报告解读)
GR-3是一个大规模视觉-语言-动作(VLA)模型,具备强大的泛化能力,能够处理新物体、新环境和抽象指令。通过协同训练大规模视觉-语言数据和机器人轨迹数据,GR-3实现了对复杂语义的理解和动作预测。其高效的小样本学习能力仅需少量人类轨迹即可快速适配新任务。实验表明,GR-3在可泛化抓取放置、长跨度桌面整理和灵巧布料操作等任务中表现优异,显著超越基线方法。结合专为灵巧操作设计的双臂移动机器人ByteMini,GR-3展现了高可靠性和鲁棒性,为通用机器人技术的发展提供了重要基础。
2025-07-30 21:38:21
1450
原创 西瓜书《机器学习》全网最详细解读 第六章:支持向量机
本文是《机器学习》(西瓜书)第六章支持向量机的详细解读。主要内容包括:1. 支持向量机的基本原理,介绍了最大间隔分类超平面的概念及其数学表达;2. 对偶问题的推导与求解方法,包括KKT条件和SMO算法;3. 核函数的作用与性质,如何通过核技巧解决非线性可分问题;4. 软间隔支持向量机,引入松弛变量处理噪声和异常点;5. 支持向量回归(SVR)的实现原理;6. 核方法在机器学习中的广泛应用。文章通过公式推导和图示说明,深入浅出地讲解了支持向量机的核心思想和技术细节,适合机器学习学习者和研究者参考。
2025-07-05 17:47:31
1183
原创 百度开源文心一言4.5:论文解读和使用入门
百度ERNIE团队发布ERNIE4.5模型家族,包含10种多模态模型变体,涵盖47B和3B参数的MoE模型及424B总参数模型。该系列采用异构模态结构和模态隔离路由机制,支持跨模态参数共享,同时保持各模态独立性。模型在指令遵循、知识记忆、视觉理解等任务上达到SOTA性能。
2025-07-05 17:19:52
1451
原创 西瓜书《机器学习》全网最详细解读 第五章:神经网络
神经网络是一种模仿生物神经元结构和功能的人工智能模型。它由大量的节点(神经元)和连接这些节点的边(突触)组成,这些节点和边共同构成了一个复杂的网络结构。
2025-06-23 14:12:06
1403
原创 VGGT:CVPR2025最佳论文,3D基础模型来了!
本文介绍了一种名为VGGT(Visual Geometry Grounded Transformer)的新型前馈神经网络,它能够直接从单张、少数或数百张图像中高效地预测出场景的关键三维属性,包括相机参数、深度图、点云图和三维点轨迹。VGGT的设计目标是简化传统的三维重建流程,避免复杂的后处理优化步骤,同时提供高质量的三维重建结果。
2025-06-23 14:10:40
3318
原创 LLaMA-Factory:无代码微调大模型,小白也能上手(以Qwen3为例,包括lora、dpo、ppo等)
LLaMA Factory是一个功能强大的平台,专注于训练和微调大型语言模型。它支持多种模型和训练方法,涵盖了从预训练到微调的全过程,能够满足不同用户的需求。总的来说,LLaMA Factory是一个功能全面、使用方便的平台,能够为用户提供高效、灵活的模型训练和微调体验。
2025-06-13 15:28:54
2841
4
原创 RPT:预训练新范式,用强化学习做预训练!
这篇文章提出了一种创新的预训练方法,旨在通过强化学习提升大型语言模型(LLMs)在下一个词元预测任务中的表现。该方法的核心在于将下一个词元预测重新定义为一个推理任务,激励模型在预测之前进行深入的思考,并通过可验证的奖励信号来评估预测的正确性。这种方法不仅显著提高了下一个词元预测的准确性,还为后续的强化微调提供了更强大的预训练基础。
2025-06-13 15:27:35
1355
原创 LaViDa:基于扩散模型的多模态大模型,速度超越next-token范式
这篇文章提出了一种基于离散扩散模型(DMs)的新型视觉语言模型(VLM),LaViDa,旨在解决现有自回归(AR)VLMs在推理速度和可控生成方面的局限性。文章详细介绍了LaViDa的设计、训练和推理过程,并通过一系列实验验证了其在多模态任务中的性能和优势。
2025-06-12 21:58:33
1572
原创 Seedance:字节发布视频生成基础模型新SOTA,能力全面提升
Seedance 1.0 是由字节跳动推出的高性能视频生成基础模型,旨在突破当前视频生成模型在指令遵循、运动合理性与视觉质量平衡方面的瓶颈。该模型通过多源数据整合与精准视频字幕生成,实现了跨多样化场景的全面学习;采用高效的架构设计,支持多镜头生成以及文本到视频和图像到视频任务的联合学习;通过细粒度监督微调和多维度奖励机制的强化学习,显著提升了模型性能;并借助多阶段蒸馏策略和系统级优化,实现了 10 倍的推理加速。
2025-06-12 21:56:41
2344
原创 MeanFlow:何凯明新作,单步去噪图像生成新SOTA
这篇文章介绍了MeanFlow,这是一种新型的一步生成模型框架,用于生成建模。与传统的流匹配方法不同,MeanFlow通过引入平均速度的概念来表征流场,而不是使用瞬时速度。平均速度定义为两个时间步长之间的位移与时间间隔的比值,这一定义使得模型能够在单次函数评估中完成从先验分布到数据分布的转换,显著提高了生成效率。文章详细阐述了MeanFlow模型的理论基础,包括平均速度与瞬时速度之间的关系,以及如何通过神经网络训练来近似平均速度场。
2025-06-09 22:13:37
3214
原创 西瓜书《机器学习》全网最详细解读 第四章:决策树
决策树(decision tree)是一类常见的机器学习方法,是一种基于树结构的监督学习算法,广泛应用于分类和回归任务中。
2025-06-09 22:10:04
1577
原创 MySQL:零基础入门(狂神版)
数据库是一种用于存储、组织、管理和检索数据的系统化集合。它按照一定的结构和规则将数据组织起来,以便用户能够高效地访问和操作数据。数据库的核心目标是提供一种可靠、高效且易于管理的方式来处理大量数据。数据库的主要功能包括数据存储、数据检索、数据更新和数据管理。数据存储是数据库的基本功能,它将数据以结构化或非结构化的方式保存在存储介质中。数据检索则允许用户通过查询语言(如SQL)或API来查找特定的数据。数据更新功能使得用户能够插入、修改或删除数据,以保持数据的时效性和准确性。
2025-05-28 22:10:51
1329
1
原创 RoboFactory:多具身智能体协同框架(论文代码详解)
这篇文章提出了一种创新的框架,旨在通过引入组合约束来解决多智能体系统中的协作问题,并自动生成安全、高效的训练数据。文章的核心贡献在于设计了一种能够有效管理多智能体协作的框架——RoboFactory,该框架通过逻辑、空间和时间三个维度的约束,确保智能体在执行任务时的行为既安全又高效。RoboFactory框架包含两个核心模块:RoboBrain和RoboChecker。RoboBrain负责根据全局任务描述、先前的子目标和约束违规反馈,生成每个智能体的下一个子目标和文本形式的组合约束。
2025-05-28 21:06:40
1740
原创 西瓜书《机器学习》全网最详细解读 第三章:线性模型
机器学习》,又称西瓜书,是南京大学教授周志华教授编著的一本机器学习领域的经典教材。《机器学习》系统地介绍了机器学习的基本理论、常用算法及其应用。全书内容丰富,涵盖了机器学习的多个重要方面,包括监督学习、无监督学习、强化学习等主要学习范式。《机器学习》适合计算机科学、人工智能、数据科学等相关专业的本科生、研究生以及对机器学习感兴趣的自学者。无论是初学者希望系统地学习机器学习的基础知识,还是有一定基础的研究人员和从业者希望深入了解前沿技术,这本书都能提供有价值的参考。在接下来的日子里,我将。
2025-05-25 19:52:01
1327
原创 LSNet:以小见大,CVPR2025全新轻量级主干网络
本文提出了一种新型的轻量级视觉网络架构——LSNet(Large-Small Network),旨在通过高效的感知和聚合策略,在有限的计算成本下实现高性能的视觉信息处理。LSNet的设计灵感来源于人类视觉系统的“看大,聚焦小”策略,通过结合大核感知(Large-Kernel Perception, LKP)和小核聚合(Small-Kernel Aggregation, SKA)的LS卷积操作,实现了对广泛上下文信息的高效捕获和对小范围特征的精细聚合。大核感知(LKP)
2025-05-23 16:46:08
7537
3
原创 OverLoCK:先概览,再聚焦。CVPR2025全新主干网络
作者提出了一种深度阶段分解策略(Deep-stage Decomposition Strategy, DDS),该策略受人类视觉系统“先概览后细看”(Overview-first-Look-Closely-next)机制的启发,将卷积网络(ConvNet)分解为三个协同工作的子网络:Base-Net(基础网络)、Overview-Net(概览网络)和Focus-Net(聚焦网络)。这种设计旨在通过动态的自上而下的语义引导来增强特征图和卷积核权重,从而提高模型性能。
2025-05-23 16:45:26
2459
原创 SAGE:基于SAM进行二级蒸馏的多模态图像融合新方法,CVPR2025
目前将SAM整合用于低级任务的方法通常需要在推理时使用完整的SAM,这在实际应用中显得过于不切实际。为了解决这些问题,作者提出了融合方法SAGE,该方法完全整合并提炼了来自SAM的语义先验。
2025-05-20 21:00:15
1604
原创 MONA:5%参数微调超越全量微调,CVPR2025新型视觉适配器
文介绍了一种名为Multi-cognitive Visual Adapter(Mona)的新型调优方法,通过仅调整预训练模型中约5%的参数,成功超越了传统的全量微调方法,为视觉识别任务的高效迁移学习提供了新的解决方案。实验结果表明,Mona在多种视觉任务上均实现了超越全量微调的性能表现,同时显著减少了计算成本和存储需求。
2025-05-20 20:58:18
1914
1
原创 Matrix-Game:键鼠实时控制、实时生成的游戏生成模型(论文代码详细解读)
Matrix-Game是一种专为可控游戏世界生成设计的交互式世界基础模型,通过两阶段训练流程实现:首先进行大规模无标签预训练以理解环境,然后进行动作标记训练以生成交互式视频。研究者构建了Matrix-Game-MC数据集,包含超过2700小时的无标签游戏视频和1000小时的高质量标记片段,具有精细的键盘和鼠标动作注释。Matrix-Game采用基于参考图像、运动上下文和用户动作的可控图像到世界生成范式,拥有超过170亿个参数,能够精确控制角色动作和摄像机运动,同时保持高视觉质量和时间连贯性。
2025-05-16 17:31:24
1438
1
原创 Qwen3技术报告解读:训练秘籍公开,推理与非推理模型统一,大模型蒸馏小模型(报告详细解读)
在本技术报告中,作者介绍了Qwen3,这是Qwen系列的最新版本。Qwen3具备思考模式和非思考模式,使用户能够动态管理用于复杂思考任务的token数量。该模型在包含36万亿token的庞大语料库上进行了预训练,能够理解和生成119种语言和方言的文本。通过一系列全面的评估,Qwen3在预训练和后训练模型的标准基准测试中均展现出强劲的性能,涵盖编码生成、数学、推理和代理等任务。在未来的研究中,作者将重点关注以下几个关键领域。作者将继续扩大预训练规模,使用质量更高、内容更丰富的数据。
2025-05-16 17:30:23
2453
原创 JavaScript零基础入门笔记:狂神版
JavaScript是一种高级的、基于原型的、多范式的编程语言,它具有动态性、弱类型和面向对象的特性。它最初是作为浏览器端的脚本语言被设计出来,用于增强网页的交互性,比如实现表单验证、动态更新页面内容、响应用户的鼠标点击和键盘输入等操作。随着技术的发展,JavaScript的应用范围已经远远超出了浏览器环境。在服务器端,通过Node.js这样的运行时环境,JavaScript可以用来构建高性能的网络服务器和后端服务,处理数据库操作、文件系统操作等任务。
2025-05-15 15:13:38
1131
原创 ICLR2025杰出论文揭晓!华人学者闪耀,大模型引领AI前沿!(3篇杰出论文详解)
ICLR 2025的杰出论文涵盖了大语言模型的安全对齐、微调学习动态以及知识编辑等多个关键领域。这些研究不仅揭示了当前大语言模型在安全性和性能优化方面存在的问题,还提出了创新性的解决方案。
2025-05-15 15:12:18
1849
原创 Kimi-Audio:Kimi团队开源最强音频大模型,横扫15项榜单,拿下第一!
Kimi-Audio,这是一个开源的音频基础模型,在音频理解、生成和对话方面表现出色。作者利用了12.5赫兹的音频分词器(Audio tokenizer),并设计了一种新型的基于LLM的架构,该架构以连续特征作为输入,以离散标记作为输出,并开发了一种基于流匹配的分块流式解码器。作者策划了一个预训练数据集,包含超过1300万小时的音频数据,涵盖语音、声音和音乐等多种模态,并构建了一个用于构建高质量和多样化后训练数据的管道。
2025-04-29 20:27:02
3349
1
原创 Qwen3:重磅开源,重夺开源第一!(包含详细使用教程)
Qwen3 代表了人类在通往通用人工智能(AGI)和超级人工智能(ASI)旅程中的一个重要里程碑。通过扩大预训练和强化学习的规模,之子实现了更高层次的智能。作者无缝集成了思考模式与非思考模式,为用户提供了灵活控制思考预算的能力。此外,作者还扩展了对多种语言的支持,帮助全球更多用户。
2025-04-29 12:14:44
5601
2
原创 Java零基础入门:注解和反射
Java的注解和反射是两个强大的特性,它们共同为开发者提供了在运行时处理元数据的能力。注解是一种标记或元数据,可以附加到Java代码的元素上,如类、方法、字段等。反射是Java提供的一种机制,允许程序在运行时访问、检测和修改它本身的类和对象的信息。通过反射,程序可以创建对象、调用方法、访问字段,甚至可以获取注解信息。反射的核心是`java.lang.Class`类,它代表类和接口的运行时表示。通过`Class`对象,可以获取类的成员信息,包括字段、方法和构造器,并且可以获取注解信息。
2025-04-25 16:51:57
1126
原创 PDFMathTranslate:基于LLM的PDF文档翻译及双语对照的工具【使用教程】
PDFMathTranslate 是一个用于科学 PDF 文档翻译及双语对照的工具,是一个功能强大且灵活的科学文档翻译工具,适合科研人员、学生和专业人士使用,能够有效提高文档翻译的效率和质量。核心功能保留格式:在翻译过程中,能够保留原文档中的公式、图表、目录和注释,确保翻译后的文档与原文在结构和内容上保持一致。多语言支持:支持多种语言的翻译,满足不同用户的需求。多种部署方式:提供命令行工具、图形交互界面以及容器化部署等多种使用方式,方便用户根据自身需求选择。
2025-04-25 16:50:28
2284
原创 CSS零基础入门笔记:狂神版
1.后代选择器(Descendant Selector)语法ancestor descendant { /* 样式规则 */ }作用:选择指定祖先元素内部的所有后代元素,无论它们嵌套在什么层级中。特点:作用范围最广,会选择所有符合条件的后代元素。2.子选择器(Child Selector)语法parent > child { /* 样式规则 */ }作用:选择指定父元素的直接子元素,不会选择更深层次的后代元素。特点:作用范围较窄,只选择直接子元素。3.
2025-04-21 14:31:41
1107
原创 LightRAG代码详解
LightRAG是一种基于图结构和双层检索机制的检索增强生成(Retrieval-Augmented Generation, RAG)系统,旨在通过优化检索效率和知识表示,提升自然语言处理任务的性能。LightRAG的架构分为两个主要部分:基于图的索引阶段和基于图的检索阶段。在索引阶段,系统利用大型语言模型(LLM)从文本块中提取实体和关系,并构建知识图谱。该图谱通过去重和LLM增强分析,生成高效的索引键值对,便于后续检索。
2025-04-21 14:27:24
2838
原创 盘古-ultra:不用英伟达GPU,华为发布全新大模型
盘古Ultra是由华为推出的一款拥有1350亿参数的超大稠密语言基础模型,基于昇腾NPU进行训练。该模型针对大规模深度模型训练中的稳定性问题,提出了深度缩放夹心归一化(Depth-scaled Sandwich-Norm)技术。这一技术有效消除了训练过程中的损失峰值,确保了训练的稳定性。盘古Ultra在13.2万亿高质量标记上进行了预训练,并通过监督微调(SFT)和强化学习(RL)进一步增强了推理能力。
2025-04-17 15:12:35
1727
原创 基于LightRAG进行本地RAG部署(包括单卡多卡本地模型部署、调用阿里云或DeepSeekAPI的部署方法、RAG使用方法)
本地部署RAG教程
2025-04-17 15:09:14
5201
2
原创 西瓜书《机器学习》全网最详细解读 第一章:绪论
《机器学习》,又称西瓜书,是南京大学教授周志华教授编著的一本机器学习领域的经典教材。在接下来的日子里,我将每周精心打磨一章内容,全方位、多角度地为大家剖析书中精髓。
2025-04-12 18:32:52
2492
4
原创 Seed-Thinking-v1.5:字节豆包新推理模型发布,200B参数战胜Deepseek
字节跳动旗下的豆包团队正式发布了其最新的推理模型——Seed-Thinking-v1.5,该模型在多个方面展现出了明显的技术优势。这一进展不仅推动了推理模型的发展,还引发了同行业内的高度关注,标志着AI技术在通用推理能力上的一个重要里程碑。
2025-04-12 18:29:30
1827
原创 HTML零基础入门笔记:狂神版
HTML,即超文本标记语言(HyperText Markup Language),是用于创建网页的标准标记语言。它通过一系列的标签和元素来定义网页的结构和内容,这些标签告诉浏览器如何显示页面上的文字、图片、链接、表格等内容。HTML文档由一系列嵌套的元素组成,每个元素都有其特定的语义和功能。例如,<html>标签是文档的根元素,它包含了整个页面的内容;<head>部分用于定义文档的元数据,比如标题、字符集、链接外部资源等;而<body>部分则包含了用户可以看到的页面内容,如文本、图片、表单等。
2025-04-06 20:04:38
1053
原创 LLaMA 4深夜发布:重夺开源第一!首个使用MoE架构的LLaMA模型
Meta公司于2025年4月6日发布的Llama 4模型系列无疑为这场竞赛注入了新的活力。作为Meta首个基于混合专家(MoE)架构的模型系列,Llama 4以其卓越的性能、创新的设计和极高的性价比,迅速在开源模型领域崭露头角,甚至在某些方面超越了当前行业内的顶尖模型。这一系列的发布不仅标志着Llama生态系统进入了一个新的时代,也引发了整个AI行业对多模态模型和高效计算架构的广泛关注。
2025-04-06 20:02:06
2088
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅