mgpt:多语言生成式预训练转换器

mgpt:多语言生成式预训练转换器

mgpt Multilingual Generative Pretrained Model mgpt 项目地址: https://gitcode.com/gh_mirrors/mg/mgpt

项目介绍

mGPT 是一种多语言生成式预训练转换器,它是 GPT-3 的多语言变体,预先训练于来自 25 个不同语言家族的 61 种语言,数据来源于 Wikipedia 和 C4 语料库。该项目详细介绍了模型的设计和预训练过程。通过内在和外在评估,mGPT 在所有语言的语言建模、跨语言自然语言理解数据集和 33 种语言的基准测试,以及 23 种语言的世界知识探测中表现出色。mGPT 的上下文学习能力与同期语言模型相当,同时覆盖了更多的语言,包括独立国家联合体和小型民族的语言。

项目技术分析

mGPT 的技术核心是基于 Transformer 架构,利用深度学习技术进行大规模的预训练。模型的预训练数据集包含了 600Gb 的文本,主要来自 MC4 和 Wikipedia。这些数据经过去重和压缩率筛选,确保了数据的质量和多样性。

项目使用了 DeepSpeed 库和 Megatron-LM,以 2048 的批量大小和 512 个 token 的上下文窗口进行训练。总训练步骤为 60 万步,模型在预训练期间观察到了 4000 亿个 token。这样的预训练过程在 mGPT-1.3B 上使用了 14 天,在 256 台 V100 GPU 的集群上进行;而 mGPT-13B 则在 512 台 V100 GPU 的集群上花费了 22 天。

项目及技术应用场景

mGPT 的应用场景广泛,它可以用于多种自然语言处理任务,如文本生成、机器翻译、问答系统、对话系统等。由于其支持多语言,mGPT 特别适合在多语言环境中使用,例如国际企业的客户服务、多语言内容创作、跨语言信息检索等。

例如,在多语言内容创作中,mGPT 可以帮助自动化生成多种语言的营销文案、新闻摘要、技术文档等。在跨语言信息检索中,mGPT 可以用于理解用户的查询,并提供相应的多语言搜索结果。

项目特点

  1. 多语言支持:mGPT 支持包括英语、中文、俄语、法语、西班牙语等在内的 61 种语言,覆盖了多种语言家族。

  2. 强大的生成能力:通过预训练,mGPT 在多种语言中展现出了强大的文本生成能力,能够生成连贯、有逻辑的文本。

  3. 跨语言应用:mGPT 可以在不同语言之间进行自然语言理解的转换,适用于跨语言的自然语言处理任务。

  4. 广泛的基准测试:项目在多种基准测试中进行了评估,确保了模型的质量和性能。

  5. 开源许可:mGPT 遵循 MIT 许可,开源社区可以自由使用和改进。

以下是一个使用 mGPT 生成文本的示例:

from transformers import GPT2LMHeadModel, GPT2Tokenizer
tokenizer = GPT2Tokenizer.from_pretrained("sberbank-ai/mGPT")
model = GPT2LMHeadModel.from_pretrained("sberbank-ai/mGPT")

text = "Александр Сергеевич Пушкин родился в "
input_ids = tokenizer.encode(text, return_tensors="pt").cuda(device)
out = model.generate(
        input_ids, 
        min_length=100, 
        max_length=100, 
        eos_token_id=5, 
        pad_token=1,
        top_k=10,
        top_p=0.0,
        no_repeat_ngram_size=5
)
generated_text = list(map(tokenizer.decode, out))[0]
print(generated_text)

输出结果:

Александр Сергеевич Пушкин родился в г. Санкт-Петербурге.

通过以上分析,可以看出 mGPT 是一个功能强大、应用广泛的开源项目,值得自然语言处理领域的开发者和研究人员关注和使用。

mgpt Multilingual Generative Pretrained Model mgpt 项目地址: https://gitcode.com/gh_mirrors/mg/mgpt

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

邱纳巧Gillian

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值