granite-3.1-language-models：轻量级多语言基础模型-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00609/article/details/147480871

granite-3.1-language-models：轻量级多语言基础模型

granite-3.1-language-models Granite 3.1 Language Models 项目地址: https://gitcode.com/gh_mirrors/gr/granite-3.1-language-models

项目介绍

granite-3.1-language-models 是由 IBM 推出的一组轻量级、最先进、开源的基础语言模型。这些模型原生支持多语言、编程、推理以及工具使用，并且可以在受限计算资源上运行。所有模型均遵循 Apache 2.0 许可，适用于研究和商业用途。granite-3.1 语言模型的数据精选和训练过程专为企业管理定制，包括对数据集进行治理、风险和合规性（GRC）标准的评估，以及 IBM 的标准数据审查流程和文档质量检查。

项目技术分析

granite-3.1 语言模型通过一种逐步训练策略，将 granite-3.0 语言模型的上下文长度从 4K 增加到 128K。这一长上下文预训练阶段使用了大约 5000 亿个标记。此外，granite-3.1 指令模型为函数调用和 RAG 生成任务提供了改进的开发者体验。

granite-3.1 模型包括四种不同大小的模型和两种架构：

密集模型：2B 和 8B 参数模型，总共在 12 万亿个标记上进行了训练。
混合专家（MoE）模型：稀疏的 1B 和 3B MoE 模型，分别激活了 4 亿和 8 亿个参数，总共在 10 万亿个标记上进行了训练。

这些选项提供了不同计算需求范围的各种模型，其性能与下游任务有适当的权衡。在每个规模上，我们都发布了基础模型（预训练后的模型检查点）以及指令检查点（为对话、指令遵循、帮助性和安全性进行微调的模型）。

项目及技术应用场景

granite-3.1 语言模型的设计旨在满足多种应用场景的需求，包括但不限于：

多语言应用：支持多种语言的模型可以在国际化项目中提供强大支持，如翻译服务、跨语言信息检索等。
编程辅助：编程语言理解能力使其在代码补全、代码审查和错误检测等方面表现优异。
智能对话：模型能够进行复杂的对话交互，适用于聊天机器人、语音助手等场景。
推理与工具使用：在处理需要推理和调用外部工具的任务时，这些模型能够提供高效支持。

项目特点

1. 轻量级与高效

granite-3.1 语言模型在设计上注重轻量化和效率，可以在受限的计算资源上运行，非常适合移动设备、边缘计算等场景。

2. 多语言支持

原生支持多语言特性，使得模型能够跨语言工作，为国际化应用提供了便利。

3. 高度可定制

模型的训练过程考虑了企业级使用的需求，允许针对特定场景进行定制和优化。

4. 开源许可

遵循 Apache 2.0 许可，使得这些模型能够自由用于研究和商业项目。

5. 优异的性能

在 Hugging Face 的 OpenLLM 排行榜上，granite-3.1-8B-Instruct 模型表现优于同类参数规模的其他模型。

以下是一个使用 granite-3.1-1B-A400M-Instruct 模型的简单示例：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

device = "auto"
model_path = "ibm-granite/granite-3.1-1b-a400m-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()

chat = [
    { "role": "user", "content": "Please list one IBM Research laboratory located in the United States. You should only output its name and location." },
]
chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

input_tokens = tokenizer(chat, return_tensors="pt").to(device)
output = model.generate(**input_tokens, max_new_tokens=100)
output = tokenizer.batch_decode(output)
print(output)

granite-3.1 语言模型是当前自然语言处理领域的有力工具，凭借其轻量级、多语言支持和优异的性能，为研究和商业应用提供了广阔的空间。无论是对于开发者还是企业用户，这都是一个值得关注的开源项目。

granite-3.1-language-models Granite 3.1 Language Models 项目地址: https://gitcode.com/gh_mirrors/gr/granite-3.1-language-models

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考