专家助力打造韩语自然语言处理模型

某中心科学家助力某机构创建韩语自然语言处理器

韩语是一门重要的世界语言,约有8000万人使用。尽管韩语历史悠久,但其语言学家称之为“孤立语”,与英语、法语和拉丁语等语言没有明显的关联。

如今,韩语已成为自然语言处理革命的一部分。这是一种人工智能分支,旨在帮助计算机识别和解释人类语言。四月底,某中心宣布,韩国移动电信公司某机构,与其云计算服务研究人员合作,发布了首个开源、先进的韩语生成式预训练变换器-2(GPT-2)模型,名为KoGPT-2。

GPT-2是一种语言模型,经过训练能够根据少至一个单词的提示预测并“生成”句子或段落的后续内容。该模型由人工智能研究公司OpenAI于2019年开发。GPT-2模型类似于智能手机键盘上的下一词预测功能,但规模更大、也更为复杂。

KoGPT-2是一个开源的GPT-2模型,使用韩语文本进行了预训练,以提高韩语场景下的机器学习性能。它可以用于聊天机器人、搜索引擎等用途。

在创建KoGPT-2的过程中,来自某中心机器学习解决方案实验室的深度学习工程师团队与某机构人工智能中心的对话式人工智能团队进行了合作。利用诸如某弹性计算云、某弹性结构适配器和用于Lustre的某FSx等服务,研究人员使用某机构提供的大型韩语数据集构建了KoGPT-2。

自然语言处理模型利用大量的语言样本来训练计算机理解语言结构、单词含义等。GPT-2尤其需要一个庞大的数据集,其算法才能推断出与之对话或提问者的意图。在最初的GPT-2中,OpenAI使用了约15亿个参数,处理超过40GB的互联网数据文本语料库。GPT-2的训练目标是基于文本中所有先前出现的单词来预测下一个单词。

OpenAI研究人员将GPT-2模型描述为“变色龙般的”,称其能适应条件文本的风格和上下文。这使得研究人员和工程师能够生成关于他们所选主题的连贯句子。GPT-2已被证明具有惊人的强大能力,仅需几个单词或一个通用场景的提示,就能生成完全可信的文本。GPT-2曾模仿作家创作新的《指环王》战斗场景、扮演总统演讲稿撰写人等,完成了其他语言壮举。

为了训练KoGPT-2,某机构创建了一个包含1.25亿个句子、超过16亿单词的语料库,数据来源于韩国维基项目、韩国新闻源等。

这带来了巨大的技术挑战,某中心机器学习解决方案实验室的高级数据科学家Muhyun Kim表示:“我们需要大量的计算能力来训练模型。我们使用了64个图形处理单元,运行了一周。但在此之前,我们进行了大量的实验,以找到分析数据的正确配置,并排除可能的错误。”

“然而,没有人类的专业知识,一切都无法实现。我们的经验帮助我们与某机构合作,优化他们的模型并加速训练。某中心的云计算服务是训练像KoGPT-2这样大型模型的绝佳平台。它易于使用并提供巨大的带宽。但即使网络很快,如果存储速度慢,训练也会很慢。通过使用用于Lustre的某FSx,我们能够加速整个过程。”Muhyun补充道。

某机构还使用了GluonNLP(一个用于自然语言处理的开源深度学习工具包)来加速模型训练过程。

“GluonNLP提供了各种分词器和数据管道工具,使得在自定义数据集上训练最先进的模型变得容易。我们采用了混合精度训练、激活函数的高效图形处理单元内核以及与某弹性结构适配器的集成等技术,这些技术与GluonNLP结合,显著加速了大规模分布式训练。”来自某中心MXNet团队的应用科学家Haibin Lin说。

某中心机器学习解决方案实验室负责实施并提供大规模基础设施以使训练可行,而某机构人工智能中心的对话式人工智能团队则提供了关键要素和语言专业知识。如前所述,该团队精心创建了用于训练模型的数据集。他们还编写了使模型训练得以进行的代码,并训练了KoGPT-2模型。

“我们希望通过训练最先进的KoGPT-2模型,帮助扩展某机构方兴未艾的自然语言处理工作。”某机构对话式人工智能团队负责人Kim Tae Yoon补充道,“开源并回馈不断发展的韩语自然语言处理社区是我们团队的核心价值观,因此开源这个模型是自然而然的。”Tae Yoon补充道。

从实际角度来看,KoGPT-2将使某机构的客户在与聊天机器人对话或寻找问题答案时,获得令人惊讶的类人体验。

KoGPT-2可在某机构人工智能中心的GitHub仓库中找到,采用修改版MIT许可证。某中心也发布了一个Git仓库,提供了关于如何将KoGPT-2模型部署到某SageMaker的指导。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值