端侧小模型新星,SmolLM2 1.7B击败了Llama 3.2、Qwen 2.5

SmolLM2开源了:更快、更好、更便宜, 包含三个尺寸:135M、360M 和 1.7B。

图片

端侧小型语言模型新星——SmolLM2 1.7B击败了Qwen 2.5 1.5BLlama 3.2 1B:

  • Apache 2.0许可

  • 训练于11万亿个令牌

  • 在FineWeb-Edu、DCLM、The Stack以及新的数学和编码数据集上训练 

  • 专门用于文本重写、总结和函数调用 

  • 使用 UltraFeedback 的直接偏好优化(DPO)

  • 可以在Q4上用不到2GB的VRAM运行SmolLM2 1.7B

图片

https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9https://hf-mirror.com/HuggingFaceTB/SmolLM2-1.7B-Instruc

来源 | PaperAgent

LLM热点Paper23

LLM热点Paper · 目录

上一篇o1背后的秘密:6种推理模式解析!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值