granite-3.1-language-models:轻量级多语言基础模型
项目介绍
granite-3.1-language-models 是由 IBM 推出的一组轻量级、最先进、开源的基础语言模型。这些模型原生支持多语言、编程、推理以及工具使用,并且可以在受限计算资源上运行。所有模型均遵循 Apache 2.0 许可,适用于研究和商业用途。granite-3.1 语言模型的数据精选和训练过程专为企业管理定制,包括对数据集进行治理、风险和合规性(GRC)标准的评估,以及 IBM 的标准数据审查流程和文档质量检查。
项目技术分析
granite-3.1 语言模型通过一种逐步训练策略,将 granite-3.0 语言模型的上下文长度从 4K 增加到 128K。这一长上下文预训练阶段使用了大约 5000 亿个标记。此外,granite-3.1 指令模型为函数调用和 RAG 生成任务提供了改进的开发者体验。
granite-3.1 模型包括四种不同大小的模型和两种架构:
- 密集模型:2B 和 8B 参数模型,总共在 12 万亿个标记上进行了训练。
- 混合专家(MoE)模型:稀疏的 1B 和 3B MoE 模型,分别激活了 4 亿和 8 亿个参数,总共在 10 万亿个标记上进行了训练。
这些选项提供了不同计算需求范围的各种模型,其性能与下游任务有适当的权衡。在每个规模上,我们都发布了基础模型(预训练后的模型检查点)以及指令检查点(为对话、指令遵循、帮助性和安全性进行微调的模型)。
项目及技术应用场景
granite-3.1 语言模型的设计旨在满足多种应用场景的需求,包括但不限于:
- 多语言应用:支持多种语言的模型可以在国际化项目中提供强大支持,如翻译服务、跨语言信息检索等。
- 编程辅助:编程语言理解能力使其在代码补全、代码审查和错误检测等方面表现优异。
- 智能对话:模型能够进行复杂的对话交互,适用于聊天机器人、语音助手等场景。
- 推理与工具使用:在处理需要推理和调用外部工具的任务时,这些模型能够提供高效支持。
项目特点
1. 轻量级与高效
granite-3.1 语言模型在设计上注重轻量化和效率,可以在受限的计算资源上运行,非常适合移动设备、边缘计算等场景。
2. 多语言支持
原生支持多语言特性,使得模型能够跨语言工作,为国际化应用提供了便利。
3. 高度可定制
模型的训练过程考虑了企业级使用的需求,允许针对特定场景进行定制和优化。
4. 开源许可
遵循 Apache 2.0 许可,使得这些模型能够自由用于研究和商业项目。
5. 优异的性能
在 Hugging Face 的 OpenLLM 排行榜上,granite-3.1-8B-Instruct 模型表现优于同类参数规模的其他模型。
以下是一个使用 granite-3.1-1B-A400M-Instruct 模型的简单示例:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "auto"
model_path = "ibm-granite/granite-3.1-1b-a400m-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()
chat = [
{ "role": "user", "content": "Please list one IBM Research laboratory located in the United States. You should only output its name and location." },
]
chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
input_tokens = tokenizer(chat, return_tensors="pt").to(device)
output = model.generate(**input_tokens, max_new_tokens=100)
output = tokenizer.batch_decode(output)
print(output)
granite-3.1 语言模型是当前自然语言处理领域的有力工具,凭借其轻量级、多语言支持和优异的性能,为研究和商业应用提供了广阔的空间。无论是对于开发者还是企业用户,这都是一个值得关注的开源项目。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考