算家计算-优快云博客

SAM 3 是一个统一的基础模型，用于图像和视频中的可提示分割。它可以使用文本或视觉提示（如点、框和掩码）来检测、分割和跟踪对象。与它的前身相比，SAM 3 引入了根据简短的文本短语或示例详尽地分割所有开放词汇概念实例的能力。与先前的工作不同，SAM 3 可以处理更大范围的开放词汇提示。在新上，它达到了人类表现的 75-80%，该基准包含 27 万个独特概念，比现有基准多出 50 多倍。

2025-11-25 16:50:20 1713 3

原创编程AI新王Claude Opus 4.5正式发布！编程基准突破80.9%，成本降三分之二

距离谷歌的Gemini 3 Pro发布尚不足一周，AI领域又迎来一轮更新潮？

2025-11-25 16:32:27 395

原创基于GitHub Actions与算力平台API：构建端到端的模型自动训练与部署流水线

通过GitHub Actions与算力平台API的集成，我们能够构建一个完全自动化的模型训练与部署流水线。这种方案不仅大幅提升了机器学习项目的迭代效率，还通过动态资源调度优化了计算成本。随着AI应用场景的不断扩展，基于CI/CD的自动化机器学习流水线将成为团队协作和模型交付的标准实践，而算力平台的API化则让这一过程的实现变得更加简单和高效。

2025-11-24 15:45:43 934 1

原创千问一周破千万下载背后：AI应用需求的爆发与生态竞赛

千问APP公测一周下载量突破1000万次，成为史上增长最快的AI应用，这背后是AI技术从实验室走向日常生活的加速转变。

2025-11-24 15:35:31 481

原创解决AI任务排队难题：基于Slurm的优先级调度与资源抢占策略配置详解

在高负荷的AI算力平台中，任务排队是影响研发效率的核心瓶颈。本文将深入介绍基于Slurm作业调度系统的优先级调度机制与资源抢占策略，通过实际配置案例展示如何优化计算资源分配，显著减少任务空闲等待时间。Slurm支援任务抢占功能，高优先权任务可抢占低优先权任务资源。被抢占任务可以取消、重设或挂起。如果启用回填调度（预设），系统会按bf_interval周期计算低优任务能否在不延迟高优任务前提下运行。

2025-11-21 14:33:37 1063

原创黄仁勋马斯克罕见同台！定调AI未来三大关键词：算力、货币失效与泡沫

而如今，生成式AI正在系统性地重塑这一格局——从智能对话、内容创作到新一代搜索引擎，这些基于生成式计算的任务对GPU算力提出了远超以往的需求。因为AI把图像分析做得更快、更准，医生就可以看更多图像、更多种类的影像，有更多时间和病人沟通，结果服务了更多患者。首先，数据洪流的计算范式转型。面对日益庞大的数据规模，传统CPU架构已难以满足高效处理需求，这促使整个行业向并行加速计算范式迁移，为人工智能的蓬勃发展奠定了坚实基础。在这个AI技术快速演进的时代，可以确定的是，算力作为数字经济新基建的地位将愈发稳固。

2025-11-21 14:16:19 1263

原创可持续编码24小时！GPT-5.1-Codex-Max发布：集成主流IDE

两大AI巨头同时发力，两大编程助手谁强谁弱？

2025-11-20 14:31:55 437

原创 Gemini 3.0重磅发布！架构革新：百万上下文、全模态推理与开发者生态重构

在系统架构设计中，它能够理解复杂的技术需求，提供合理的架构方案并生成相应的实现代码。这些进步体现在实际编码场景中，包括更好的代码质量、更准确的算法实现，以及更强的系统架构设计能力。在实际开发中，开发者现在可以直接将整个项目代码库输入模型，获得基于全局上下文的代码分析和优化建议，无需再采用分段处理的复杂方案。测试显示，该模型能够快速理解大型遗留系统的代码结构，识别潜在的技术风险，并提出具体的重构建议。全世界都在期待的Gemini 3，在质的飞跃中，实现了AI大模型又一次“史诗级”飞跃。

2025-11-19 14:08:30 669

原创 Grok 4.1深夜发布！算力需求跃升背后的技术演进与开发者机遇

如果您正在进行AI领域的创业或研究，

2025-11-18 15:23:59 956

原创千问APP正式上线！基于Qwen 3技术，阿里的AI to C战略全面启航

今天，阿里全力进军AI to C市场，统一其to C品牌：千问App公测版正式上线各大应用商店。

2025-11-17 18:43:24 521

原创 AI破解肝移植困局！斯坦福发布最新AI研究，利用LightGBM模型优化肝移植资源利用效率

每年数千例肝移植因捐献者死亡时间预测不准而失败。今天，AI给出了精准解决方案。

2025-11-14 16:06:54 443

原创 PaddleOCR-VL-vLLM-OpenAI-API使用教程来了！手把手教你搞定文档解析！

PaddleOCR-VL 是一个基于视觉语言模型的多功能图像识别工具，支持 OCR 文字识别、表格识别、公式识别和图表识别等功能。本文档介绍如何通过 OpenAI 兼容的 API 接口使用该模型。功能验证状态: 所有四种任务类型已通过完整测试，功能稳定可用（测试时间：2025-11-07）

2025-11-13 17:52:13 1233

原创 GPT-5.1深夜发布却无惊喜？从GPT-5.1看大模型发展瓶颈

当AI的进化带来的惊喜越来越少，我们不禁要问：大模型时代是否已经触及天花板？

2025-11-13 17:29:25 783

原创 DeepSeek大神正式加盟小米！AI竞赛的终局，远不止一次挖角

当顶尖人才流向科技巨头，普通企业如何在这场AI竞赛中找到自己的位置？

2025-11-12 18:02:26 429

原创从李飞飞“空间智能”长文看AGI实现路径：数据与算法是双重挑战

刚刚，李飞飞指出了AI被忽视的关键缺陷——AI仍然是个“黑暗中的文字匠”。

2025-11-11 18:27:23 448

原创谷歌攻克AI“灾难性遗忘“难题！最新范式突破AI持续学习内存瓶颈

谷歌的新研究，让AI也能像人类一样持续学习而不遗忘了。

2025-11-10 18:23:12 408

原创告别繁琐文档处理！PaddleOCR-VL-vLLM-OpenAI-API本地部署教程：精准解析文本/表格/公式

PaddleOCR-VL-vLLM-OpenAI-API 是一款先进、高效的文档解析模型，专为文档中的元素识别设计。其核心组件为 PaddleOCR-VL-0.9B，这是一种紧凑而强大的视觉语言模型（VLM），它由 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型组成，能够实现精准的元素识别。该模型支持 109 种语言，并在识别复杂元素（如文本、表格、公式和图表）方面表现出色，同时保持极低的资源消耗。

2025-11-07 17:02:00 1876

原创国产模型新王登基！刚刚，Kimi K2 Thinking发布，多项能力超越GPT-5

一场开源与闭源的较量再次迎来转折点。

2025-11-07 16:54:09 797

原创视觉-文本压缩框架——Glyph本地部署教程，以视觉压缩重塑长上下文处理范式

Glyph是一个通过视觉文本压缩缩放上下文长度的框架。Glyph 没有扩展基于标记的上下文窗口，而是将长文本序列渲染为图像并使用视觉语言模型（VLM）对其进行处理。这种设计将长上下文建模的挑战转化为多模态问题，在保留语义信息的同时大幅降低了计算和内存成本。（上）长上下文任务的两种范式的比较：直接将纯文本输入 LLM 的传统方法，以及提出的基于 VLM 的范式 Glyph，它将文本渲染为紧凑的图像以实现大量的输入标记压缩。

2025-11-06 18:34:53 517

原创小鹏机器人真假难分引全网热议！而这只是开始......

不得不承认，AI技术已经发展到了一个新的临界点。

2025-11-06 18:26:07 950

原创英伟达谷歌打响“太空算力争夺战”，下一战场竟是星辰大海？

太空，这片无尽的黑暗，正成为AI算力的新战场。

2025-11-05 18:20:30 456

原创一张白纸，无限画布：SkyReels刚刚重新定义了AI视频创作

一张画布整合全球顶尖模型，AI视频创作重新被定义了。

2025-11-04 18:31:04 813

原创 5年后手机和APP将成历史？马斯克最新预言背后：端云协同与AI操作系统的未来架构

马斯克的“惊人言论”再次登上了头条。

2025-11-03 18:24:27 450

原创 Kimi发布新一代注意力架构！线性注意力实现75% KV缓存减少、6倍解码速度提升

月之暗面全新发布的混合线性注意力架构，有望解决大语言模型在处理长序列任务时面临的计算效率和性能瓶颈。

2025-10-31 17:01:23 691

原创技术伦理之争：从维基百科到马斯克AI百科全书，知识生产模式的对立

马斯克AI百科上线即遭维基百科暗讽：88万文章vs700万，人类与机器谁代表未来？

2025-10-30 17:41:52 965

原创英伟达亮出最强AI芯片！性能暴增3倍，算力竞赛迎来新节点

一场关于AI算力的竞赛再次刷新纪录，这一次，英伟达将推理性能推向了新的高度。

2025-10-29 17:30:11 862

原创推理成本吞噬AI未来，云计算如何平衡速度与成本的难题？

当前AI规模化应用正面临着核心困境：在追求极致响应速度的同时，如何控制呈指数级增长的计算成本？

2025-10-28 18:34:37 741

原创 PaddleOCR-VL本地部署教程：0.9B参数问鼎全球第一，轻量化模型实现多模态文档解析SOTA

是一个针对文档解析的 SOTA 和资源高效的模型。其核心组件是 PaddleOCR-VL-0.9B，这是一个紧凑而强大的视觉语言模型（VLM），它将 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型集成在一起，以实现精确的元素识别。该创新模型高效支持 109 种语言，并在识别复杂元素（如文本、表格、公式和图表）方面表现出色，同时保持最低的资源消耗。

2025-10-27 18:37:35 1700

原创外卖巨头变身AI黑马！美团开源视频大模型，性能比肩谷歌Veo3

美团开源首个视频大模型，一出手就是SOTA级别。

2025-10-27 18:32:03 717

原创云计算大佬揭秘AI如何改变程序员未来，这些技能将成关键

AI时代，程序员的角色正在经历怎样的转变？云计算领域大佬Jeff Barr近日在上海分享了他的观点。

2025-10-24 18:34:37 955

原创 DeepSeek-OCR本地部署教程：DeepSeek突破性开创上下文光学压缩，10倍效率重构文本处理范式

DeepSeek-OCR 是深度求索（DeepSeek）于 2025 年 10 月 20 日开源的一款革命性 OCR 模型，其核心创新在于提出上下文光学压缩（Contexts Optical Compression）技术，通过视觉模态实现文本信息的高效压缩与解压。该模型以 3B 参数量实现了 SOTA 级性能，按照官方的说法，单张 A100-40G 显卡日处理能力超 20 万页数据，这为长文本处理和大模型优化提供了全新范式。

2025-10-23 18:18:20 2904 1

原创快手推出“工具+模型+平台”AI编程生态！大厂挤占AI赛道，中小企业如何突围？

快手进军AI编程生态，AI竞争再加码。

2025-10-23 18:13:25 718

原创 OpenAI推出首款浏览器，能否撼动全球超30亿用户的Chrome？

今天凌晨，OpenAI正式加入了浏览器市场的竞争，推出了其首款AI浏览器ChatGPT Atlas。这款产品目前已率先在macOS平台上线，Windows、iOS和Android版本也将陆续推出。

2025-10-22 16:56:31 935

原创 DeepSeek新模型再次引爆外网！“上下文光学压缩”技术揭示了智能的本质

让AI学会“看图识字”，用更少的资源做更多的事。DeepSeek新模型做到了。

2025-10-21 18:27:04 429

空空如也

空空如也