llama3.2技术细节以及相关内容详解

_张一凡

已于 2024-09-29 20:18:25 修改

阅读量2.1k

点赞数 19

文章标签： llama

于 2024-09-29 20:12:32 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_31588979/article/details/142642740

版权

在这里插入图片描述

一、相关资源下载

GitHub项目链接：https://github.com/meta-llama/llama-models
Llama 3.2官方链接：https://www.llama.com/
Llama 3.2 HuggingFace模型下载链接：https://huggingface.co/collections/meta-llama/
Llama 3.2博客文章链接：https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/

二、Llama3.2相关内容介绍

Llama 3.2系列涵盖了小型和中型视觉LLM（参数分别为11B和90B）以及适用于边缘和端侧的轻量级纯文本模型（1B和3B），包含了预训练和指令调优版本。该系列的特点如下：

1B和3B模型：这些模型能够处理长达128K的令牌上下文，位于行业前列，适用于设备端的总结、指令追踪以及边缘环境中的文本重写任务。
11B和90B视觉模型：在图像理解方面，性能超越了诸如Claude 3 Haiku等封闭模型，能够处理文档理解（包括图表和图形）、图像字幕生成以及基于自然语言描述的图像中对象精确定位等任务。
视觉LLM的训练过程始于Llama 3.1文本模型的预训练，并经历多个阶段：
1.首先集成图像适配器和编码器，并在大规模的噪声图像-文本对数据集上进行预训练。
2.然后在中等规模的、高质量且知识增强的图像-文本对数据集上进行进一步训练。
3.在Llama 3.2模型的后期训练阶段，采用了与文本模型相似的策略，进行了多轮的监督微调、拒绝采样和直接偏好优化以实现模型对齐。
4.在训练过程中，利用Llama 3.1模型生成合成数据，这些数据基于领域内图像，通过过滤和丰富问题与答案来提升质量。此外，采用奖励模型对所有的候选答案进行排序，以确保微调数据的高质量。
1B和3B的轻量级模型具备出色的多语言文本生成和工具调用能力，便于在端侧设备如手机或PC上部署，确保了数据的隐私性，因为所有数据都保持在设备上。
对于1B和3B模型，采用了剪枝和知识蒸馏两种技术，以实现设备的高效适配和高性能：
4.1 剪枝技术用于缩减现有模型的大小，同时在尽可能保留知识和性能的基础上，对Llama模型进行精简。
4.2 1B和3B模型采用了从Llama 3.1 8B模型中提取的结构化剪枝方法。该方法涉及有系统地移除网络中的某些部分，并调整权重和梯度的大小，以构建一个更小、更有效的模型，同时保持原始模型的性能。知识蒸馏则通过将较大网络的知识传递给较小网络，使得小模型能够通过教师模型获得比从头训练更好的性能。在剪枝之后，知识蒸馏被用来恢复模型的性能。

三、Llama 3.2的核心特性综述

轻量级文本模型：1B和3B模型针对移动和边缘设备优化，体积小巧却依然保持强大的文本处理能力，支持128K令牌的大语境，适用于文本摘要、重写和指令遵循等。
视觉模型：11B和90B模型擅长处理图像理解任务，支持图像与文本结合的多模态任务，如文档分析、图像描述生成、视觉推理和目标检测，通过集成图像编码器来处理复杂的视觉问题。
本地处理与隐私保护：模型可在设备本地运行，减少数据传输延迟，提高数据隐私保护，适用于手机、平板和物联网设备等对效率和隐私要求高的场景。
开放性与可定制性：Llama 3.2开放给开发者下载、修改和定制，满足不同应用需求，支持使用开源工具如torchtune和torchchat进行微调和部署。
硬件兼容性：模型针对Qualcomm、MediaTek、Arm等移动平台优化，并在AMD、NVIDIA、Intel、AWS、Google Cloud等主流云平台和硬件上提供支持。
开发工具套件：Llama 3.2提供LlamaStack工具集，包括CLI、API和Docker容器，便于在不同环境中部署模型，支持从单节点到云服务的多样化部署。
模型压缩与知识蒸馏：通过修剪和蒸馏技术减小模型尺寸，保持性能，使1B和3B模型在资源受限的设备上高效运行。
多语言支持：模型在多语言文本生成和理解方面表现优异，适用于全球化的应用场景。
安全性加强：配备Llama Guard保护系统，过滤不当输入和输出，确保模型在处理文本和图像时的安全性和责任感。
四、模型性能评估测试
Llama 3.2的视觉模型在图像辨识和多种视觉理解任务中，与顶尖的基础模型Claude 3 Haiku和GPT4o-mini展现了竞争力。3B模型在执行指令遵循、内容总结、快速文本重写和工具应用等任务时，超越了Gemma 22.6B和Phi 3.5-mini模型。同时，1B模型的表现与Gemma模型相当。