01 Hugging Face 最小AI视觉语言模型登场
1月24日,Hugging Face 发布了两款全新轻量级视觉语言模型(VLM):SmolVLM-256M 和 SmolVLM-500M。它们是 SmolVLM 家族的成员,接受图像和文本输入的任意序列来生成文本输出,专为提高效率而设计。
早在 2024 年 11 月,Hugging Face 就发布了仅有 20 亿参数的 SmolVLM,用于设备端推理,凭借其极低的内存占用在同类模型中脱颖而出。
此次推出的模型进一步缩减了模型参数,其中:
-
SmolVLM-256M:仅有 2.56 亿参数,是迄今为止最小的视觉语言模型,可在极低算力环境下运行,同时提供卓越的性能输出。
-
SmolVLM-500M:拥有 5 亿参数,针对硬件资源受限的场景设计,适用于大规模数据分析任务。
两款模型均采用 Hugging Face 的先进多模态技术,能够执行图像描述、短视频分析、文档理解等任务,尤其适合内存少于 1GB 的设备如笔记本电脑,为开发者提供更广泛的应用场景。
两款模型的开发依赖于两个专有数据集:The Cauldron 和 Docmatix。
-
The Cauldron:包含 50 个高质量图像和文本数据集,专注于多模态学习。
-
Docmatix:为文档理解设计的定制数据集,将扫描文档与详细标题配对,提升文档处理能力。
SmolVLM 可以回答有关图像的问题、描述视觉内容或转录文本。其轻量级架构使其适用于设备上的应用程序,同时在多模式任务上保持强大的性能。它可以在一张 GPU RAM 不到 1GB/1.23GB 的图像上运行推理。
Hugging Face 表示,SmolVLM 系列模型在构建可搜索数据库时的速度和成本表现优异,可媲美参数规模是其 10 倍的模型。
02 百川智能开源Baichuan-M1医疗增强大模型
1 月 24 日,百川智能发布了国内首个全场景深度思考模型 Baichuan-M1-preview!
相比其他推理模型,Baichuan-M1-preview 同时具备语言推理、视觉推理、搜索推理三个维度的全面推理能力,各项能力在多个领域的主流开源、闭源评测集上表现出众。
百川智能还推出了行业首个开源的医疗增强大模型 Baichuan-M1-14B,作为 Baichuan-M1-preview 的小尺寸版本,Baichuan-M1-14B 在保持高性能的同时,更加灵活易用。
Baichuan-M1-14B 在通用能力和医疗领域表现出色,尤其在医疗场景中表现优异。
在 cmexam、clinicalbench_hos、clinicalbench_hos、erke 等权威医学知识和临床能力评测上,Baichuan-M1-14B 的成绩超越了更大参数量的 Qwen2.5-72B-Instruct,与 o1-mini 也相差无几。
通过 20 万亿token的高质量数据训练,Baichuan-M1-14B 在多个医疗科室实现了细粒度建模,并引入创新模型结构,提升了上下文理解和长序列任务表现。
Baichuan-M1-14B 开源链接:
-
Github: https://github.com/baichuan-inc/Baichuan-M1-14B
-
Huggingface(base): https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Base
-
Huggingface(Instruct): https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Instruct
-
NPU版本支持BF16推理:https://modelers.cn/models/MindIE/Baichuan-M1-14B-Base
03 腾讯开源混元 3D 生成大模型 Hunyuan3D 2.0,草图速变3D
1 月 21 日, 腾讯官宣开源上线混元 3D 生成大模型 2.0,同步上线混元 3D AI 创作引擎,号称是“业界首个一站式 3D 内容 AI 创作平台”。
Hunyuan3D 2.0 是一个先进的大规模3D合成系统,用于生成高分辨率的纹理3D资产。该系统包括两个基础组件:大规模形状生成模型 Hunyuan3D-DiT 和大规模纹理合成模型 Hunyuan3D-Paint。
-
形状生成模型,基于可扩展的流动变换器,旨在创建与给定条件图像对齐的几何形状。让生成的「白模」(没上色的模型)效果“堪比设计师手工建模”。
-
纹理合成模型,利用强大的几何和扩散先验,为生成或手工制作的网格生成高分辨率和生动的纹理贴图。可以根据文字或图片描述,为「白模」穿上各种纹理。
具体效果方面:
3D 纹理生成:通过文字或图片描述,一键生成高清纹理。
3D 草图生成:随手涂鸦的简笔画,加上简单描述就能生成 3D 模型。
3D 动画生成:选个动作模版,角色可以跑步、挥手、跳舞。
04 DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型
1 月 20 日, DeepSeek 团队开源全新一代推理模型 DeepSeek-R1,旨在通过大规模强化学习(RL)提升推理能力。
此次,DeepSeek 发布了三组模型:
-
参数为 660B 的 DeepSeek-R1-Zero,不依赖监督微调(SFT),直接通过 RL 训练,展现了强大的推理行为。
-
参数为 660B 的 DeepSeek-R1,它从经过数千个长思想链(CoT)示例微调的检查点开始应用 RL;在 RL 前引入冷启动数据,进一步提升了推理性能,与 OpenAI-o1 在数学、代码和推理任务上表现相当。
-
从 DeepSeek-R1 中蒸馏推理能力到小型密集模型,参数从小到大分别为 1.5B、7B、8B、14B、32B 以及 70B。这六个模型同样完全开源,旨在回馈开源社区,推动「Open AI」的边界。
具体地,DeepSeek-R1 表现:
-
DeepSeek-R1 在AIME2024上获得了79.8%的成绩,略高于 OpenAI-o1-1217。
-
在MATH-500上,DeepSeek-R1 获得了97.3%的惊人成绩,表现与 OpenAI-o1-1217 相当,并明显优于其他模型。
-
在编码相关的任务中,DeepSeek-R1 在代码竞赛任务中表现出专家水平,在Codeforces上获得了2029 Elo评级,在竞赛中表现优于96.3%的人类参与者。
-
对于工程相关的任务,DeepSeek-R1 的表现略优于 OpenAI-o1-1217。
目前,DeepSeek 在网页端、App 端和 API 端全面上线了 R1,下图为网页端对话界面,选择 DeepSeek-R1 就能直接体验。
05 Kimi 发布多模态思考模型 k1.5,追平满血o1
1 月 20 日, Kimi 发布了全新的多模态思考模型 k1.5,O,采用强化学习进行训练。该模型在多个基准测试中表现出色:
1. 在 long-CoT 模式下,Kimi k1.5 的数学、代码、多模态推理能力,也达到长思考 SOTA 模型 OpenAI o1 正式版的水平。
2. 在 short-CoT 模式下, Kimi k1.5 的多项能力,大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%。尤其在 AIME 榜单上,k1.5 有 60.8,而最高的 DeepSeek-V3 只有 39.2。
思考模型/推理模型:
思考模型,或者叫推理模型,基于 GenAI 技术构建,而依赖于逻辑链条(Chain-of-Thought,CoT)来逐步推导出解决方案,这是一种用技术换时间和算力资源的方案,使思考模型可以用 10 分钟做完一套高考数学卷,分数超过 120 分,在逻辑推理能力上,进一步靠近人类专家。
思考模型分为短链思维(short-CoT)和长链思维(long-CoT)两种。short-CoT 更注重快速生成简洁的解决方案,long-CoT 则是通过多步骤的逻辑推理解决复杂问题。
去年11月,Kimi 推出了 k0-math 数学模型,12月发布了 k1 视觉思考模型,这次是k系列模型的第三次升级,延续了快速持续改进的节奏。
此次 Kimi团队首次公开了25页的模型训练技术报告《Kimi k1.5: Scaling Reinforcement Learning with Large Language Models》。
-
报告链接:https://arxiv.org/pdf/2501.12599
Kimi k1.5 通过扩展上下文窗口和改进的策略优化方法,建立了一个简化的强化学习框架,能够在文本和视觉数据上进行联合推理。
Kimi k1.5 模型的设计和训练有几个关键要素,核心是利用强化学习(RL)来增强其推理能力。其中一个技术亮点在于长到短的推理压缩(long2short)方法的提出,绝对值得技术者学习。
k1.5 多模态思考模型的预览版将陆续灰度上线 Kimi.com 网站和最新版本的 Kimi 智能助手 app。
参考:
https://mp.weixin.qq.com/s/hv8dYkKCimEadH9xFnGMtA
https://huggingface.co/blog/smolervlm
https://github.com/MoonshotAI/Kimi-k1.5
https://mp.weixin.qq.com/s/BmOKGKjXP2tjmPyNdU0Hqg
https://3d-models.hunyuan.tencent.com/
https://baijiahao.baidu.com/s?id=1821842918900082877&wfr=spider&for=pc
欢迎各位关注我的微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。