- 博客(155)
- 资源 (2)
- 收藏
- 关注
原创 2025全球AI疯狂12个月:我们离 AGI 还有多远?
2025年是AI技术爆发式增长的一年,各大科技公司在模型性能、开源生态和多模态应用方面展开激烈竞争。OpenAI推出GPT-5系列和Codex代理,谷歌发布Gemini 3.0及Deep Research代理,Mistral保持开源领先地位。关键突破包括:上下文窗口突破千万token,推理模型成为标配,视频生成质量显著提升(Runway Gen-4.5等),自主代理实现复杂任务自动化,数学奥林匹克和编程竞赛频现AI金牌选手。开源生态蓬勃发展,中国厂商(阿里、智普、DeepSeek等)表现亮眼。这一年见证了A
2026-01-03 14:37:24
689
原创 训练更稳、性能更强!DeepSeek最新论文mHC:如何以 6% 的微小代价换取大模型的逻辑飞跃?
026年元旦,DeepSeek 以一篇极具分量的技术论文 《mHC: Manifold-Constrained Hyper-Connections》 为全球 AI 社区献上了开年大礼。该论文由 DeepSeek 创始人梁文锋亲自署名,核心团队(解振达、韦毅轩、曹焕琦等)联合撰写。这篇论文的核心在于:通过数学上的“流形约束”,彻底解决了传统超连接(Hyper-Connections, HC)在超大规模模型训练中的不稳定与内存溢出问题。
2026-01-02 15:49:53
784
原创 DeepMind 最新《思维游戏》:2亿播放现象级纪录片,揭秘 AGI 如何从科幻走向现实
2025年11月25日,Google DeepMind 在其官方 YouTube 频道免费发布了纪录片《The Thinking Game》(中文译《思维游戏》)。这部由《AlphaGo》原班团队历时五年拍摄的90分钟纪录片,深入DeepMind伦敦总部,记录了创始人Demis Hassabis及其团队追求**人工通用智能(AGI)**的十年历程。截至2025年12月底,该片观看量已超过2亿次,成为AI领域现象级作品。
2025-12-29 19:59:59
1000
原创 Zcode:智谱AI推出的轻量级 AI IDE 编程利器
在 AI 驱动开发的浪潮下,诸如 Claude Code、Codex 和 Gemini CLI 等命令行工具(CLI)展现了惊人的编程能力,但其较高的配置门槛和纯黑窗口的操作逻辑,往往让许多开发者望而却步为了填补这一空白,智谱AI 推出了 Zcode。
2025-12-28 15:12:38
1359
原创 Andrej Karpathy最新博客更新《2025 LLM 年回顾》
Andrej Karpathy在2025年LLM回顾中指出六大范式变革:RLVR让模型学会真正推理;智能呈“锯齿状”,如鬼魂般非生物式;Cursor开启应用新层级;Claude Code实现本地AI代理;Vibe Coding大众化编程;多模态模型预示视觉化LLM GUI。2025年LLM既更聪明也更笨拙,潜力仅挖10%,未来广阔,系好安全带。
2025-12-21 18:07:57
1141
原创 Fal.ai:70人团队撬动45亿估值,生成式AI的“隐形推手”
Fal.ai正是这场革命的幕后推手——这家仅有约70名员工的公司,在最新的D轮融资中成功筹集1.4亿美元,估值从今年7月的15亿美元飙升至45亿美元。
2025-12-12 00:30:17
929
原创 Mistral AI 重磅发布 Devstral 2:开源代码模型新标杆,123B 版本性能直逼 SOTA!
Mistral AI发布新一代代码模型Devstral 2系列及命令行工具Vibe CLI。Devstral 2包含123B和24B两个版本,其中123B版本在代码基准测试中超越Kimi K2并接近DeepSeek V3.2,参数量仅为后者的1/6。同时推出的Vibe CLI工具支持终端内代码生成、解释和调试。这些产品延续了Mistral AI高效能的特点,大幅降低了高性能代码AI的使用门槛。目前123B版本提供免费API访问,开发者可通过Hugging Face获取模型。
2025-12-11 16:23:55
856
原创 100 万亿 Token 的启示:当 AI 开始“慢思考”,我们该如何选择模型?
OpenRouter 作为全球最大的 LLM 聚合平台之一,发布了名为《State of AI: An Empirical 100 Trillion Token Study》的重磅报告。通过分析其平台上发生的超过 100 万亿 token 的真实交互,这份报告揭示了开发者行为、模型偏好以及 AI 应用形态的剧烈变化
2025-12-07 17:30:21
739
原创 Meta SAM-3 重磅发布:视觉 AI 迈入“想分什么就分什么”的自由时代
Meta发布了新一代视觉基础模型Segment Anything Model 3 (SAM-3),实现了从"分割一切"到"理解一切"的跨越。SAM-3通过创新的"可提示概念分割"技术支持文本、示例图和视觉提示,能对图像和视频中的任意概念进行检测、分割和跟踪。其混合AI/人工数据引擎显著提升了训练效率,创建了包含400多万个概念的训练集。
2025-11-20 18:24:59
1077
原创 “新王登基”Gemini 3深夜发布,最强AI到底强在哪?
Google发布突破性AI模型Gemini 3,在推理能力、多模态理解和编码效率方面树立新标杆。该模型具备博士级推理水平,在多项AI基准测试中创下新高,并引入"Deep Think"模式增强复杂问题解决能力。
2025-11-19 15:53:54
1224
原创 李飞飞联合杨立昆发表最新论文:超感知AI模型从视频中“看懂”并“预见”三维世界
这篇文章明确地将世界模型视为实现空间超感知这一宏伟目标的最终阶段和核心能力。它诊断了当前 MLLMs 在此方面的不足,并提出了“预测性感知”作为一条具体的、以自监督学习为基础的路径,以开始构建这些至关重要的内部世界模型。
2025-11-12 10:36:35
1262
原创 告别“NPC”人生:Human 3.0,一张通往“顶尖1%”的个人发展地图
文章详细阐述了 Human 3.0 模型的四大象限、三大发展水平、以及突破平台期的关键要素(阶段、特质与通道),并配上了核心概念图表。
2025-11-10 19:41:18
2008
原创 七位AI先驱获伊丽莎白女王工程奖,李飞飞是唯一女性代表
2025 年伊丽莎白女王工程奖授予七位工程师,他们为现代机器学习的发展做出了开创性的贡献,这是人工智能(AI)进步的核心组成部分。该奖项今年的主题为现代机器学习(Modern Machine Learning),因此获奖者被 AI 领域人士完全包揽,包括诺贝尔奖得主 Geoffrey Hinton 与 John Hopfield、图灵奖得主 Yoshua Bengio 和 Yann LeCun、英伟达首席科学家 Bill Dally、英伟达创始人和 CEO 黄仁勋以及被誉为"AI 教母"的李飞飞。
2025-11-07 11:16:47
1394
原创 深度解析Andrej Karpathy访谈:关于AI智能体、AGI、强化学习与大模型的十年远见
在整个圈内媒体都在喊「智能体元年」的时代,Andrej Karpathy 的话像是给业内泼了一盆冷水。近日Andrej Karpathy 上了 Dwarkesh 的播客,信息密度极高。他的核心结论可以用一句话概括:Agent 的发展还需要十年。
2025-11-05 22:31:30
838
1
原创 Dinomaly2:最新多类无监督异常检测SOTA
在计算机视觉领域,**无监督异常检测(Unsupervised Anomaly Detection, UAD)**一直是一个充满挑战但至关重要的任务。它旨在不依赖任何异常样本先验知识的情况下,识别出数据中的异常模式,广泛应用于工业质检、医疗诊断和监控系统等领域。然而,当前的 UAD 领域正面临着严重的问题。模型往往针对特定场景(如单类别、多类别、3D 数据、少样本等)进行定制,导致部署复杂、维护成本高昂,并且在多类别任务中,统一模型的性能与最先进的单类别模型之间存在显著差距 [1]。
2025-11-04 20:23:51
933
原创 扩散模型的原理与进阶:一篇长达470页的统一综述解读
本专著阐述了指导扩散模型发展的核心原则,追溯了它们的起源,并展示了各种不同的模型形式如何源于共同的数学思想。扩散模型首先定义一个正向过程,该过程逐步将数据转化为噪声,并通过一系列中间分布将数据分布与一个简单的先验联系起来。其目标是学习一个反向过程,将噪声转换回数据,同时恢复相同的中间分布。我们描述了三种互补的观点。变分观点受变分自编码器的启发,将扩散视为逐步学习去除噪声的过程。基于得分的观点源于能量建模,它学习不断演化的数据分布的梯度,从而指导如何将样本引导至更可能的区域。
2025-11-03 18:25:17
1241
原创 Anthropic 最新研究深度解析:大型语言模型中涌现的内省意识
AI模型展现初阶内省能力,人类认知机制或被部分模拟 Anthropic最新研究表明,Claude系列大型语言模型已具备初步内省能力,能感知并报告特定内部状态。通过"概念注入"实验,研究人员发现Opus 4.1等高级模型可识别20%的人工植入概念(如"全大写""递归"),且在输出前就能察觉异常。更引人注目的是,模型能通过追溯性神经激活修改对自身"意图"的判断,并响应指令调节内部表征强度,这种机制与人类"白熊效应"
2025-10-31 17:30:08
1278
原创 技术大佬的私藏书单:4小时讲透AI技术变迁史
本文基于谢青池在《张小珺商业访谈录》中分享的AI学习历程,精选36篇关键论文梳理人工智能发展脉络。文章从GPU计算(Brook)、深度学习开端(AlexNet)到Transformer革命,再到GPT系列演进,系统呈现了AI模型的范式变迁。重点分析了四大支柱(算力、架构、数据、系统)的协同发展,并通过语言模型从词向量到通用智能的跃升过程,展现AI认知能力的突破。文章为AI学习者提供了数学基础、工具使用和优质信源选择等实用建议,是一份浓缩的AI技术发展史与学习指南。
2025-10-29 19:32:47
886
原创 ICCV 2025 最佳论文系列整理:聚焦计算机视觉前沿突破
本文将深入探讨ICCV 2025的各项最佳论文奖项,包括最佳论文(Marr Prize)、最佳论文荣誉提名、最佳学生论文、最佳学生论文荣誉提名,以及表彰十年经典之作的Helmholtz Prize,旨在为读者呈现这些引领未来计算机视觉发展的突破性研究。
2025-10-23 19:53:36
1348
原创 手把手拆解Git项目,复现开源四大AI神器
本文介绍了四款AI工具如何提升Git项目管理效率:DeepWiki通过AI对话解析项目架构和代码逻辑;GitHub Copilot作为编程助手提供智能代码补全;Zread自动生成结构化技术文档并支持AI问答;GitDiagram将代码库转化为交互式图表直观展示项目结构。
2025-10-23 00:26:37
829
原创 RND1:目前最强的扩散LLM
在人工智能领域,模型转换(Model Conversion)是一个核心研究方向,旨在优化现有模型架构和训练目标,而非从零开始构建整个系统。通过模型转换,我们可以更快地迭代模型,并使其适应特定的工作流程、硬件和下游任务。本文将深入探讨 Radical Numerics 团队在这一领域取得的最新进展,特别是他们提出的 RND1 模型及其背后的创新技术。
2025-10-12 16:29:18
990
原创 OpenAI DevDay 2025:ChatGPT 进化为平台,开启 AI 应用新纪元
OpenAI在2025年10月6日的开发者大会上宣布了多项重大更新,旨在将ChatGPT从聊天机器人升级为AI应用平台。核心发布包括:ChatGPT Apps允许用户在对话界面直接使用第三方应用;AgentKit提供构建AI智能体的完整工具集;以及多个新模型API(如GPT-5 Pro和Sora 2)提升算力与功能。这些变革标志着AI正从工具向平台演进,将重塑应用生态和用户交互方式,为开发者创造新机遇,同时也将加剧与科技巨头的竞争。
2025-10-08 22:21:02
1026
原创 最新文章分享:LoRA参数高效微调方法及其应用的全面分析
大模型参数高效微调 (PEFT) 方法,尤其是低秩自适应 (LoRA),已成为一种颇具前景的解决方案。LoRA 用低秩更新取代权重矩阵,在保持性能的同时显著减少了可训练参数的数量。但与完全微调相比,LoRA 的实际性能如何?
2025-10-08 13:59:55
737
原创 阿里发布一系列新模型,Qwen3-Omni强势对标Gemini
阿里巴巴发布多模态大模型Qwen3-Omni,对标谷歌Gemini,支持文本、图像、音频和视频的统一处理。同时推出升级版图像编辑模型Qwen-Image-Edit-2509,增强多图编辑和一致性;以及高效文本转语音模型Qwen3-TTS-Flash,支持多语言、多方言和丰富音色,在多项测试中达到SOTA性能。这些新模型彰显了阿里在AI领域加速技术迭代、争夺全球领导地位的决心。
2025-09-24 14:05:52
928
原创 AD-DINOv3:通过异常感知校准增强 DINOv3 的零样本异常检测
本文提出AD-DINOv3框架,首次将DINOv3模型应用于零样本异常检测任务。针对领域偏差和语义偏好问题,该框架采用跨模态对比学习策略和轻量级适配器,并创新性地设计了异常感知校准模块(AACM),引导模型聚焦异常区域。通过多层特征聚合和双损失优化,在8个工业与医疗基准测试中取得领先性能,平均AUROC达94.2%(工业)和84.5%(医疗)。消融实验验证了各模块的有效性,为通用零样本异常检测提供了新思路。
2025-09-24 11:39:45
1405
原创 清华最新发布114页大型推理模型的强化学习综述
本文综述了强化学习在提升大型语言模型(LLMs)为大型推理模型(LRMs)能力中的最新进展与挑战,回顾了以 OpenAI o1 和 DeepSeek‑R1 为代表的里程碑,强调通过 train‑time RL 与 test‑time compute 可放大长链推理能力
2025-09-16 15:03:28
784
原创 近期国内外AI大事
腾讯混元发布了最新生图模型‘混元图像2.1(HunyuanImage2.1)’,支持原生[2K分辨率]图像生成,具备强大的复杂语义理解和跨领域泛化能力,同时支持中英文输入和高质量文本生成。该模型已在Hugging Face和GitHub上开源,为视觉创作者提供了更高效的创作工具,并为未来[多模态图像生成]模型的研发奠定了基础。支持原生2K分辨率,提升图像生成质量与效率。具备强大的复杂语义理解能力,支持高质量的文本生成。开源模型已上线,开发者可基于其进行研究与开发。
2025-09-10 19:03:45
1086
原创 腾讯浑元最新技术:具有表征对齐的多模态扩散,用于高保真拟音音频生成
2025年8月28日,腾讯混元团队宣布开源端到端视频音效生成模型HunyuanVideo-Foley56。该模型能够依据输入的视频内容及文字描述,自动生成与画面高度同步的高品质音效,有效解决了AI生成视频缺乏同步音频的沉浸感问题。
2025-08-31 16:27:11
941
原创 商汤最新研究:GPT-5比其他所有模型都要强,但是相比人类还差得远
商汤科技与南洋理工联合研究发现,GPT-5在空间智能方面取得显著进展,在度量测量和空间关系任务上达到人类水平,但在心理重建、视角转换等核心能力上仍存在明显差距。研究构建了包含6大空间能力的评估体系,测试了8个基准数据集,消耗超十亿tokens。结果显示:1)GPT-5树立了新标杆;2)多模态模型在空间任务表现普遍弱于非空间任务;3)专有模型在最困难任务上未展现决定性优势。定性分析揭示,GPT-5能处理基本空间问题,但在折叠组装、复杂推理等需要心理模拟的任务上表现欠佳。该研究为理解AI空间智能现状提供了系统性
2025-08-25 10:00:46
1013
原创 nvidia最新论文:小型语言模型是代理人工智能的未来
本文提出多数 agent 场景下可在消费设备上低延迟运行的 SLM 已足够且更经济,应该采用“SLM 优先、少量 LLM 补充”的异构架构(并给出 LLM→SLM 迁移算法),同时讨论了产业惯性等阻碍。
2025-08-20 15:07:48
1035
原创 缺陷检测最新综述:针对现实世界工业缺陷检测的综合调查:挑战、方法与展望
这篇综述聚焦于工业缺陷检测的重要性,指出在精度、自动化和可扩展性要求不断提升的背景下,传统检测方法已难以满足现实生产需求。论文系统回顾了基于2D(图像)和3D(点云/深度)两类模态的缺陷检测方法,重点剖析了从封闭集(closed-set)到开放集(open-set / anomaly detection)范式的演进及其原因。作者对现有方法进行了分类(包括监督式、无监督、半监督、零/少样本等子任务),并总结了主要技术路线(例如回归/重建、memory-bank、normalizing flows、discri
2025-08-18 19:58:49
1129
原创 利用多模态大型语言模型实现零样本异常检测与推理
摘要: Anomaly-OV创新性地将视觉推理能力引入零样本异常检测领域,通过构建多模态知识库和推理框架,实现对未知异常的精准识别。该方法突破了传统模型依赖已知异常数据的局限,增强了检测系统的泛化能力,为工业质检等场景提供了更智能的解决方案。文章详细解析了其技术原理、创新点及应用价值。
2025-08-14 14:49:18
1324
原创 AI浏览器 vs 传统搜索:技术代差与替代进程全景图
AI搜索已在效率与体验维度实现代际超越,但传统搜索凭借实时性与长尾覆盖维持不可替代性。2025年市场进入“双模共生”阶段,预计2030年AI搜索渗透率突破60%。
2025-08-13 14:10:17
2287
原创 Google AI 发布 MLE-STAR:一款能够自动执行各种 AI 任务的先进机器学习工程代理
Google Cloud研究人员开发的MLE-STAR系统通过搜索引导和定向优化实现了机器学习工程自动化。该系统采用双循环细化机制,外循环进行消融研究识别关键组件,内循环针对性优化,解决了传统方法依赖LLM记忆、迭代粗糙等问题。
2025-08-05 23:16:21
910
原创 Cohere发布Command A Vision视觉多模态模型,评分超过GPT4.1
Cohere发布开源视觉语言模型Command A Vision(112B参数),在多模态任务中表现卓越,超越GPT-4.1等主流模型。该模型基于Command A构建,采用SigLIP2视觉编码器和三阶段训练流程(对齐、微调、强化学习),在图表分析、文档OCR等企业场景中表现突出。支持低资源部署(2块A100或单张H100),提供Hugging Face和Cohere平台体验入口,赋能企业自动化视觉数据处理与决策分析。
2025-08-01 14:26:03
853
原创 Meta AI天团全解析 |,44位顶尖人才档案大公开!
今天给大家带来Meta(原Facebook)AI团队的最新人才盘点,整理自内部资料,信息量爆炸💥 一起来看看全球最强大脑都在研究什么吧!
2025-07-20 22:23:36
664
原创 1T参数突然开源!我用3090跑起Kimi K2
025 年 7 月 11 日深夜,Moonshot AI 正式发布并开源新一代基础大模型 Kimi K2。这是公司首次对外开源基座模型,也是业界首批可公开下载的 万亿参数混合专家(MoE) 架构大模型之一。K2 在代码生成、数学推理与通用 Agent 任务上刷新了开源模型 SOTA,并同步上线 Web、App 与兼容 OpenAI/Anthropic 的 Chat API,输出价格 16 元 / 百万 token
2025-07-13 09:46:44
1622
原创 Meta继挖走OpenAI 11名大将后,再以2亿薪酬吸引苹果AI团队负责人
Meta继挖走OpenAI 11名大将后,再以2亿薪酬吸引苹果AI团队负责人
2025-07-12 16:26:07
862
原创 微软AI医生来袭:MAI-DxO实现四倍于人类医生的诊断准确率
微软提出MAI-DxO:AI诊疗系统,由LLM模拟一组医生,提出可能的鉴别诊断,并策略性地选择高价值、高性价比的检测方法。与 OpenAI 的 o3 模型结合使用时,MAI-DxO 的诊断准确率可达 80%,是全科医生 20% 平均准确率的四倍。
2025-07-04 00:40:57
1382
原创 文本内容转卡片小工具推荐
本文介绍了8款将文字转化为精美卡片的实用工具,包括流光卡片、图文卡片生成器、MD2Card等。这些工具支持Markdown和富文本编辑,提供多样化的模板和背景,可一键生成适合社交媒体传播的视觉化内容。主要功能包括实时预览、无水印导出、API调用等,满足不同场景的内容营销需求。这些开源或在线的卡片生成工具,能有效提升文字内容的吸引力和传播力。
2025-06-24 11:06:00
1392
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅