Liquid AI发布LFM2-8B-A1B:边缘AI设备端部署的性能新标杆
【免费下载链接】LFM2-8B-A1B 项目地址: https://ai.gitcode.com/hf_mirrors/LiquidAI/LFM2-8B-A1B
Liquid AI近日推出新一代混合专家(MoE)模型LFM2-8B-A1B,该模型专为边缘计算场景设计,通过创新架构在模型质量、推理速度和内存效率三大维度实现突破,重新定义了设备端AI应用的性能标准。作为LFM2架构下的首款稀疏激活模型,其总参数规模达83亿,而实际激活参数仅15亿,这种设计使其在保持轻量化部署特性的同时,实现了与30-40亿参数稠密模型相当的任务表现。
在核心性能指标上,LFM2-8B-A1B展现出显著优势。该模型在MMLU学术能力评估中获得64.84分,GPQA知识问答基准测试表现优异,GSM8K数学推理任务正确率达到84.38%,全面超越同量级稠密模型。特别值得关注的是,其代码生成能力和知识储备较上一代LFM2-2.6B模型实现跨越式提升,同时支持英语、阿拉伯语、中文等多语言处理,上下文窗口长度扩展至32768 tokens,满足长文本理解与生成需求。
如上图所示,该对比图清晰展示了LFM2-8B-A1B在各项基准测试中与同类模型的性能差异。这一测试结果充分验证了混合专家架构在保持参数效率的同时实现高性能的技术优势,为开发者选择边缘部署模型提供了权威参考依据。
部署灵活性方面,模型采用混合BF16/FP8精度训练,配合12万亿tokens的大规模训练数据,在高端移动设备上实现流畅运行。量化版本可适配旗舰手机、平板电脑及轻薄笔记本等终端设备,在Samsung Galaxy S24 Ultra上的实测显示,其解码速度较Qwen3-1.7B等主流模型有明显提升,尤其在长序列处理场景下优势更为突出。
该图表呈现了LFM2-8B-A1B在S24 Ultra设备上不同序列长度下的解码吞吐量表现。这种设备级性能优化体现了模型对移动硬件的深度适配,为手机AI应用开发者提供了更高效的推理解决方案。
针对不同硬件平台的适配性测试显示,LFM2-8B-A1B在HX370等嵌入式计算平台上同样表现出色。其预填充吞吐量随序列长度增长保持稳定,解码效率在各类应用场景中均展现出优异的线性扩展特性,这得益于模型采用的动态路由机制和混合精度优化策略。
此图展示了模型在HX370嵌入式平台上的解码性能表现。这种跨设备的一致性表现验证了模型架构的普适性,为工业级边缘计算场景提供了可靠的AI算力支持。
在推理速度方面,LFM2-8B-A1B通过优化的MoE路由算法实现了突破性进展。预填充阶段吞吐量与序列长度呈正相关增长,解码阶段则保持高效稳定的处理能力,即使在8K以上长文本场景下仍维持低延迟特性。实测数据显示,其推理速度超越Qwen3-1.7B等激活参数规模相近的模型,在设备端实时交互场景中优势明显。
该图表直观呈现了模型预填充吞吐量随序列长度变化的趋势。这种性能特性使其特别适合处理电子书、技术文档等长文本内容,为RAG应用开发者提供了高效的基础模型选择。
此图展示了解码吞吐量与输入序列长度的关系曲线。稳定的解码性能确保了多轮对话场景中的流畅用户体验,为智能助手类应用提供了关键技术支撑。
开发部署方面,LFM2-8B-A1B提供全方位支持,可通过Hugging Face transformers、vLLM推理引擎及llama.cpp等主流工具链实现快速集成。模型采用LFM Open License v1.0许可协议,允许商业用途,推荐开发者根据具体应用场景进行微调优化。其理想应用场景包括智能代理开发、结构化数据提取、检索增强生成(RAG)、创意内容创作和多轮对话系统等,但在知识密集型专业任务和高级编程场景中仍建议搭配专业模型使用。
随着边缘计算设备算力的持续提升,LFM2-8B-A1B代表的混合专家模型架构正成为设备端AI的主流发展方向。该模型通过12万亿tokens的多模态数据训练和混合精度优化,成功解决了传统大模型"性能-效率"的两难问题,为手机、平板等终端设备带来了前所未有的AI能力。Liquid AI表示,未来将持续优化模型压缩技术,进一步拓展边缘AI在工业物联网、智能汽车等垂直领域的应用边界。
【免费下载链接】LFM2-8B-A1B 项目地址: https://ai.gitcode.com/hf_mirrors/LiquidAI/LFM2-8B-A1B
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



