Intern-S1技术报告总结与翻译
一、文章主要内容总结
1. 研究背景与动机
当前开源基础模型在通用领域(如图像理解、数学解题、代码生成)已接近闭源模型水平,但在高价值且具挑战性的科学专业领域(如分子合成、晶体热力学稳定性预测等)存在显著差距:要么依赖专家模型,要么通用基础模型进展滞后,无法满足科学研究变革需求。为缩小这一差距并推动通用人工智能(AGI)发展,上海AI实验室团队提出了科学多模态基础模型Intern-S1。
2. 模型核心架构
Intern-S1是基于混合专家(MoE)的多模态模型,包含两个版本:
- Intern-S1:总参数量2410亿,激活参数量280亿,采用Qwen3-235B MoE作为语言模型核心,搭配InternViT-6B视觉编码器。
- Intern-S1-mini:轻量版本,采用Qwen3-8B作为语言模型核心,搭配InternViT-300M视觉编码器,平衡效率与性能。
模型针对三类科学模态数据设计专属处理模块:
- 视觉编码器:支持448×448固定分辨率与动态分辨率,通过像素重排将视觉令牌数量缩减4倍,再经MLP投影与语言模型嵌入空间对齐。
- 动态令牌器:解决静态令牌器在科学数据(如SMILES分子格式、FASTA蛋白质序列)上的压缩率低与语

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



