
AI 文章分享
文章平均质量分 96
AI 优质文章翻译、分享
编程乐园
这个作者很懒,什么都没留下…
展开
-
Unsloth - 微调 Phi-4 + 修复 Bug
Unsloth 使 Phi-4 微调速度提高 2 倍,使用 70% 更少的内存,并支持 >128K 的上下文长度,这比 Hugging Face + FA2 的 12K 在 48GB GPU 上长 12 倍。我们的4位动态量化模型得分 几乎与我们的16位版本相当——并且远高于标准的Bnb 4位和微软的官方16位模型,尤其是在MMLU方面。,我们看到我们的修复和 Phi-4 的 Llama-fication 表现得更好或与微软官方的 Phi-4 模型相当!我们还上传了固定的Phi-4 GGUFs和。原创 2025-03-10 20:15:00 · 1120 阅读 · 0 评论 -
SmolVLM2 - 将视频理解带到每个设备
TL;DR: SmolVLM 现在可以观看 📺 并拥有更好的视觉理解一、关于 SmolVLM2二、 技术细节SmolVLM2 2.2B: 我们新的视觉和视频明星选手越来越小:遇见500M和256M视频模型SmolVLM2演示应用套件iPhone 视频理解VLC媒体播放器集成视频亮点生成器三、使用 SmolVLM2 与 Transformer 和 MLX1、Transformers1.1 视频推理1.2 多图像推理2、使用 MLX 进行推理四、Swift MLX微调 SmolV原创 2025-03-09 23:51:07 · 1746 阅读 · 0 评论 -
高效运行 QwQ-32B + 错误修复
我们的模型上传包含错误修复和对微调、vLLM 和 Transformers 的工作,但是如果你在使用 llama.cpp 以及作为后端使用 llama.cpp 的引擎,你可能已经遇到了问题。我们使用Alpaca数据集进行了测试,批大小为2,梯度累积步骤为4,排名=32,并在所有线性层(q, k, v, o, gate, up, down)上应用了QLoRA。要使用它,我们发现您还必须编辑 llama.cpp 中采样器的顺序,在应用重复惩罚之前,否则将会有无尽的生成。如果您只有 CPU 推理,也请将其删除。原创 2025-03-09 23:30:32 · 1949 阅读 · 0 评论 -
Unsloth - 动态 4 bit 量化
事实表明,较小的模型仅使用6到8位量化,而较大的模型如 8B 及以上则使用4位量化。我们的动态4位模型得分几乎与我们的16位版本一样高——并且远高于标准的Bnb 4位和微软官方的16位模型,特别是在MMLU方面。下面的测试表明,标准4位量化的性能比原来的16位差,而 Unsloth的动态4位量化 提供了非常准确和可靠的结果。最有趣的是,如果我们使用我们的动态量化方法,它确实使模型变得更好,但它仍然奇怪地不匹配16位全精度。我们动态量化专家的有效性有一个很好的例子,就是我们对微软的Phi-4的最新动态量化。原创 2025-03-09 23:03:08 · 1246 阅读 · 0 评论