LLM Weekly
文章平均质量分 79
本专栏主要是周更新,每周日更新一周内的LLM相关新闻,github库,以及这周值得关注的论文。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LLM Weekly(2025.11.10-11.16)
尽管各组织对员工规模的预期存在差异,但64%的组织认为AI能促进创新,不过仅有39%的组织表示AI对息税折旧摊销前利润(EBIT)产生了显著影响。文章解决了内存使用和效率方面的挑战,探索了梯度检查点技术,并测试了多种优化策略,以提升模型的训练吞吐量和平均浮点运算利用率。评估显示,它在效率上超越了推测解码和其他扩散模型,每秒生成的令牌数量提升4.71至5.91倍,同时保持自回归模型的质量水平。该模型实现了150毫秒内的实时转录,支持英语、法语、西班牙语等多种语言,在30种语言中的准确率达到93.5%。原创 2025-11-20 14:25:49 · 450 阅读 · 0 评论 -
LLM Weekly(2025.11.03-11.09)
该模型采用量化感知训练(Quantization-Aware Training),实现高速、尖端的推理效果,在智能体搜索、编程及各类任务的推理能力上均取得显著提升。研究人员构建了“深度推理数据集”(Deep Reasoning Dataset),测试模型在递增复杂度任务中的表现,发现模型在高复杂度场景下性能大幅下降。为提升 Siri 性能,苹果将在其私有云计算服务器(Private Cloud Compute)上运行 Gemini 模型,支持实时个性化查询,同时确保 Siri 与苹果生态系统的深度融合。原创 2025-11-12 15:53:15 · 629 阅读 · 0 评论 -
LLM Weekly(2025.10.20-10.26)
安全沙箱环境为代码提供保护,同时支持移动端和 iOS 系统适配,方便随时使用,提升漏洞修复、后端修改及日常任务的处理效率。它支持多来源数据抓取、代码仓库分析及内容整理,能检测冲突和未明确的文档缺口,通过智能合并生成全面的 AI 增强技能包,满足不同框架、API 及工具的开发需求,提升工作流效率。开发者即日起可启动相关开发工作。该技术在 DistCA 中实现,可平衡 512 块 H200 GPU 的计算与内存资源,训练吞吐量提升最高达 1.35 倍,同时消除数据并行组和流水线并行组中的滞后问题。原创 2025-10-29 14:47:46 · 819 阅读 · 0 评论 -
LLM Weekly(2025.10.13-10.19)
Anthropic 公司发布 Claude Haiku 4.5 模型,该模型在提升编码性能的同时降低成本、提高速度,在特定任务中表现优于 Claude Sonnet 4 模型。用户可通过 Claude Code 平台及主流平台使用该模型,它为开发者提供了高性价比的选择,能助力聊天助手、编码代理等人工智能应用的优化。原创 2025-10-21 10:09:24 · 326 阅读 · 0 评论 -
LLM Weekly(2025.10.6-10.12)
OpenAI 在 ChatGPT 平台内推出新一代支持聊天功能的应用程序,目前已在欧盟与英国以外地区上线。该功能由基于模型上下文协议(Model Context Protocol)构建的全新应用程序软件开发工具包(Apps SDK)提供技术支持。OpenAI 与 Spotify、Zillow 等合作伙伴展开合作,助力开发者触达 8 亿用户,通过对话式界面提升交互体验。原创 2025-10-15 15:14:05 · 645 阅读 · 0 评论 -
LLM Weekly(2025.09.29-10.5)
OpenAI 推出视频-音频生成模型 Sora 2,相较于前代产品,其真实感与可控性均有提升。该模型可通过 Sora 应用获取,在物理效果模拟、复杂音景构建以及将现实元素融入场景方面表现突出。。Anthropic 发布 Claude Sonnet 4.5,将其定位为性能最强的编码模型,在复杂任务执行上表现卓越,且在推理与数学能力方面实现大幅提升。。谷歌深度思维(Google DeepMind)发布 Gemini 2.5 Flash 与 Flash-Lite 的更新版本,进一步提升了模型的质量与效率。原创 2025-10-13 11:07:29 · 39 阅读 · 0 评论 -
LLM Weekly(2025.09.22-09.28)
原创 2025-10-11 10:30:00 · 155 阅读 · 0 评论 -
LLM Weekly(2025.09.15-09.21)
他们研发的“AgentFounder-30B”模型在十项基准测试中表现突出,例如在BrowseComp英文测试集(BrowseComp-en)中得分为39.9%,在BrowseComp中文测试集(BrowseComp-zh)中得分为43.3%,在HLE测试集的“一次通过率”(Pass@1)中得分为31.5%,同时在复杂问题解决中仍保持强大的工具使用能力。根据合作协议,英特尔将为英伟达的人工智能平台设计定制化中央处理器,并为搭载英伟达图形处理器(GPU)芯粒的个人电脑开发x86系统级芯片(SOCs)。原创 2025-09-23 15:37:35 · 744 阅读 · 0 评论 -
LLM Weekly(2025.09.08-09.14)
据《华尔街日报》报道,OpenAI与甲骨文公司据称签署了一项具有历史意义的云计算协议。甲骨文与OpenAI达成了一项重大云计算合作,承诺自2027年起的五年内,提供价值3000亿美元的计算能力。这使OpenAI成为甲骨文的主要客户之一,同时OpenAI也在从微软Azure平台多元化发展,并继续参与“星门计划”(Stargate Project)以扩建数据中心。Nebius与微软签署174亿美元AI基础设施协议,股价大涨。原创 2025-09-16 10:43:32 · 639 阅读 · 0 评论 -
LLM Weekly(2025.09.01-09.07)
原创 2025-09-10 11:30:00 · 383 阅读 · 0 评论 -
LLM Weekly(2025.08.25-08.31)
该公司营收达467亿美元,同比增长56%,这一增长主要得益于聚焦人工智能的数据中心销售额激增。其中,Blackwell芯片贡献了270亿美元的销售额。不过,受地缘政治因素影响,英伟达在华芯片销售仍面临挑战。英伟达预测,下一季度营收将达540亿美元(不含可能向中国市场出货的H20芯片)。OpenAI推出。此次发布的GPT-Realtime模型与升级版Realtime API,能帮助开发者构建更先进的语音智能体,在语音自然度、推理能力、智能水平及函数调用方面均有提升。原创 2025-09-06 09:00:00 · 458 阅读 · 0 评论 -
LLM Weekly(2025.08.18-08.24)
深度求索在 Hugging Face 平台发布了参数规模达 6850 亿的强大人工智能模型 DeepSeek V3.1。该模型为开源性质,且具备高性价比,在 Aider 基准测试中取得 71.6% 的得分,同时整合了对话、推理与编码功能,足以与 OpenAI 等美国人工智能巨头相抗衡。此次战略性发布通过免费开放前沿人工智能能力,对传统人工智能经济模式构成挑战。。谷歌已通过 Gemini API 及谷歌 AI Studio 平台推出先进的文本生成图像模型 Imagen 4。原创 2025-08-26 10:54:37 · 375 阅读 · 0 评论 -
LLM Weekly(2025.08.11-08.17)
Claude Sonnet 4 如今支持多达 100 万个 token 的上下文,这使得 Anthropic API 能够进行大规模的代码分析和文档合成。作为公开测试版,它已与亚马逊 Bedrock 集成,不久后还将在谷歌云的 Vertex AI 上推出。对于超过 20 万个 token 的提示词,定价会有所调整,通过提示词缓存有可能获得折扣。。Perplexity AI 提出以 345 亿美元现金收购谷歌的 Chrome,这体现了在人工智能搜索竞赛中,它想利用 Chrome 庞大用户基础的野心。原创 2025-08-23 10:00:00 · 118 阅读 · 0 评论 -
LLM Weekly(2025.07.14-07.20)
ChatGPT 引入了全新的智能体功能,能让用户将日程管理、竞争对手分析、电子表格更新等复杂任务托付给它。借助虚拟计算机以及可视化浏览器、终端等工具,ChatGPT 能高效地完成各项任务。。moonshot AI 推出了 Kimi K2,这是一款具有先进智能体能力的开源模型,激活参数达 320 亿,总参数为 1 万亿。Kimi K2 在多项任务中表现出色,支持更强大的编码、工具使用和统计分析功能。用户可以通过网页、API 或自行托管部署的方式使用 Kimi K2,其功能还在持续开发优化中。。原创 2025-08-22 10:00:00 · 25 阅读 · 0 评论 -
LLM Weekly(2025.07.21-07.27)
OpenAI 正准备发布 GPT-5,预计在 8 月初推出。首席执行官山姆·奥特曼强调了在数学竞赛中的测试阶段和新的研究技术。外部测试人员和安全专家正在对该模型进行评估,预计还会有迷你版和纳米版。其改进包括增强的推理能力、更自然的交互以及更长的上下文长度,这标志着其即将发布。。Lovable 在 8 个月内年度经常性收入突破 1 亿美元,成为全球增长最快的初创公司。全新的 Lovable Agent 通过处理复杂的多步骤任务以及与外部工具集成,极大地简化了大型软件的构建过程。原创 2025-08-21 10:00:00 · 113 阅读 · 0 评论 -
LLM Weekly(2025.07.28-08.03)
谷歌为Gemini人工智能模型推出了Deep Think升级,通过并行思考技术,让模型有更多“思考时间”来处理复杂任务。Deep Think在创造力、策略制定和编程挑战方面表现出色。。智谱AI推出了GLM-4.5和GLM-4.5-Air,这是经过优化的大型语言模型,在推理、编码和代理任务方面表现优异。在基准测试中,GLM-4.5在顶级模型中排名第三,在网页浏览准确性和代理任务方面尤为突出。原创 2025-08-20 10:00:00 · 326 阅读 · 0 评论 -
LLM Weekly(2025.08.04-08.10)
OpenAI推出了其最先进的人工智能模型GPT-5,在写作、编程、健康和多模态推理方面提升了性能。GPT-5专为实际应用打造,相比前代产品减少了错误,并改进了风格。专业订阅用户可通过GPT-5 Pro获得扩展推理能力。。OpenAI发布了gpt-oss-120b和gpt-oss-20b,这是基于Apache 2.0许可证的最先进的开源权重语言模型,经过优化可在消费级硬件上高效部署。这些模型在推理任务中表现出色,优于其他开源模型,并具有强大的安全标准。原创 2025-08-19 08:00:00 · 268 阅读 · 0 评论 -
LLM Weekly(2025.07.07-07.13)
SmolLM3 支持六种语言,具备双模式推理能力,并能处理长达 128k token 的上下文,为社区发展提供了完整的训练蓝图。LongVILA-R1–7B 模型在视频问答基准测试中表现优异,实现了速度和性能的提升,并支持在多种媒体和模型类型上的灵活 RL 训练。Nvidia 实现了 4 万亿美元的市值,成为首家达到这一里程碑的上市公司,这主要得益于其在 AI 发展中的核心地位。它集成了共享的主干网络用于策略和过程奖励模型,消除了对过程注释的依赖,并提供三种推理努力模式。原创 2025-07-18 16:15:19 · 392 阅读 · 0 评论 -
LLM Weekly(2025.06.30-07.06)
OpenAI API深度研究入门。OpenAI的深度研究API通过利用智能体模型分解任务、执行网络搜索和编写富含引用的报告,实现了复杂研究工作流的自动化。用户可以在o3-deep-research(用于详细合成)和o4-mini-deep-research(用于更快输出)等模型之间进行选择。该API支持网络搜索和代码执行等工具,提高了研究效率和基于数据的推理能力。扎克伯格推出Meta“超级智能”团队,计划更多招聘。原创 2025-07-08 09:51:33 · 525 阅读 · 0 评论 -
LLM Weekly(2025.06.16-06.22)
MiniMax推出了MiniMax-M1,这是一种尖端的混合注意力推理模型,拥有4560亿参数,上下文大小是DeepSeek-R1的8倍。研究人员引入了MultiFinBen,这是一个多语言、多模态的基准,用于评估金融语言模型在不同模态和语言上的表现。这种方法利用预训练的适配器,促进基于语言的专门化,使基础模型的定制过程大众化,同时减少资源需求。他提议在Cursor等工具中加入“自主性滑块”,以平衡AI的局限性和人类的监督,并强调LLM友好型文档的重要性,因为AI智能体正越来越多地消费数字信息。原创 2025-07-03 10:05:41 · 316 阅读 · 0 评论 -
LLM Weekly(2025.06.02-06.08)
小米的 LLM-Core 团队开源了 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL,这两款领先的视觉语言模型在视觉理解和多模态推理方面表现出色。通过比较模型对收入的影响,HyperWrite 确保其选择与业务目标一致,如 GPT-4.1 所示,它在匹配现有模型性能的同时降低了成本。通过协同定位这些进程,系统跳过了 HTTP 通信,支持张量并行和数据并行,并简化了部署,使其具有可扩展性且适用于大规模模型训练的生产环境,从而提高了效率。研究人员通过自我反思和强化学习增强了大型语言模型。原创 2025-06-12 14:18:32 · 146 阅读 · 0 评论 -
LLM Weekly(2025.05.19-05.25)
通过构建包含 4 万偏好对的 WebPRM 数据集,并推出 WebRewardBench 评估框架,该模型在 WebRewardBench 上比 GPT-4o 准确率提升 30 点,在 WebArena-lite 任务中性能提升 10.9 点,同时降低成本。通过混合精度量化,研究识别并解决权重和激活误差,指出当训练数据充足时,降低权重误差是提升 QAT 性能的关键。该模型基于数万亿不同来源的 token 预训练,擅长图像操作、虚拟导航等复杂推理任务,在标准基准测试中超越现有开源模型。🔬 有趣论文与代码库。原创 2025-05-29 11:14:18 · 315 阅读 · 0 评论 -
LLM Weekly(2025.05.05-05.11)
🔬 论文与代码库速览。原创 2025-05-15 09:58:57 · 304 阅读 · 0 评论 -
LLM Weekly(2025.04.28-05.04)
原创 2025-05-09 08:30:00 · 148 阅读 · 0 评论 -
LLM Weekly(2025.04.21-04.27)
Claude Code 是一个用于智能体编码的命令行工具,通过提供底层的、可定制的模型访问,增强了编码工作流程。尽管 ChatGPT 和 Meta AI 分别拥有 6 亿和 5 亿用户,超过了 Gemini,但谷歌的整合努力扩大了 Gemini 的用户范围。该模型支持多种风格、精确的编辑操作,并且能够将图像进行组合,同时利用其广泛的世界知识和一致的文本渲染能力。这个基于 while 循环构建的简单架构,突显了利用最近在为函数调用和工具使用而训练的大语言模型方面的进展,实现了智能体人工智能开发的简化。原创 2025-05-08 09:30:00 · 418 阅读 · 0 评论 -
LLM Weekly(2025.04.14-04.20)
这些模型降低了成本,提高了实际应用价值,并弃用了 GPT-4.5,强调了对开发者的效率提升。ReTool 的 320 亿参数模型在数学奥林匹克竞赛基准测试 AIME 上达到了 67% 的准确率,超过了基于文本的强化学习基线,并展示了代码自我修正等涌现行为,推动了复杂数学推理和混合神经符号系统的发展。智能体抽象简化了初始化过程,但可能会掩盖大语言模型对上下文的需求,从而影响可靠性,这强调了需要有框架来促进上下文的清晰性,同时平衡工作流程和智能体的复杂性。这一下载量的激增恰逢其图像生成功能的升级。原创 2025-05-08 08:30:00 · 245 阅读 · 0 评论 -
LLM Weekly(2025.04.07-04.13)
原创 2025-04-17 17:53:08 · 433 阅读 · 0 评论 -
LLM Weekly(2025.03.31-04.06)
原创 2025-04-09 10:21:59 · 490 阅读 · 0 评论 -
LLM Weekly(2025.03.24-03.30)
OpenAI发布4o图像生成技术。OpenAI的GPT-4o通过将图像生成集成到语言模型中,实现了照片级真实感输出。该工具支持精准图像渲染和文本融合,基于海量图文数据训练,确保上下文一致性与准确性,适用于创意应用场景。目前已逐步向ChatGPT用户开放,并即将通过API提供服务。谷歌发布Gemini 2.5。谷歌DeepMind推出的尖端AI模型Gemini 2.5在推理和编码领域表现卓越。其Pro实验版在数学、科学和编码基准测试中领先,可在谷歌AI Studio使用。原创 2025-04-07 10:14:35 · 293 阅读 · 0 评论 -
LLM Weekly(2025.03.17-03.23)
原文地址:https://medium.com/nlplanet/claude-can-now-search-the-web-weekly-ai-newsletter-march-24th-2025-8bd25852f676原创 2025-03-28 16:39:48 · 397 阅读 · 0 评论 -
LLM Weekly(2025.03.10-03.16)
OpenAI推出全新工具与API套件,简化AI智能体开发流程,帮助开发者打造更可靠的任务导向型应用。本次更新包含响应式API、智能体开发工具包,以及整合网页/文件搜索与计算机操作功能的内置工具。谷歌DeepMind发布新一代开源模型Gemma 3,支持在单个GPU/TPU上高效运行。该模型支持140种语言,具备进阶文本与视觉推理能力,拥有128k令牌的上下文窗口,堪称当前单卡最强模型。获英伟达投资的云计算公司CoreWeave与OpenAI签订五年119亿美元云计算服务合同,为其IPO铺路。原创 2025-03-20 10:56:10 · 777 阅读 · 0 评论 -
LLM Weekly(2025.03.03-03.09)
本文原文地址可在找到。原创 2025-03-11 22:11:29 · 693 阅读 · 0 评论 -
LLM Weekly(2025.02.24-03.02)
Chegg指控谷歌"AI摘要"功能非法抓取其内容,违反《谢尔曼法案》反垄断条款。诉讼指出谷歌滥用搜索垄断地位损害竞争。谷歌回应称做法合法,将积极应诉,此案反映AI领域知识产权争议趋势。原创 2025-03-06 18:24:45 · 183 阅读 · 0 评论 -
LLM Weekly(2025.02.17-02.23)
英文文章来源:https://medium.com/nlplanet/grok-3-is-finally-out-weekly-ai-newsletter-february-24th-2025-7a7bcd27eec3原创 2025-02-26 16:37:08 · 702 阅读 · 0 评论 -
LLM Weekly(2025.01.27-02.02)
本次主要是针对1.27-2.02之间的LLM 论文和相关新闻进行摘要总结。原创 2025-03-01 10:00:00 · 193 阅读 · 0 评论 -
LLM Weekly(2025.02.10-02.16)
本次主要是针对2.10-2.16之间的LLM 论文和相关新闻进行摘要总结。原创 2025-02-20 15:12:53 · 665 阅读 · 0 评论 -
LLM Weekly(2025.02.03-02.09)
本次主要是针对2.3-2.9之间的LLM 论文和相关新闻进行摘要总结。原创 2025-02-16 21:24:30 · 600 阅读 · 0 评论
分享