大模型——GLM大模型介绍
随着人工神经网络和深度学习技术的不断发展和应用场景的不断拓展,大型语言模型已经成为了自然语言处理领域中的重要研究方向之一。清华大学作为国内领先的科研机构之一,一直在该领域不断探索和创新。2022年,清华大学发布了一款具有重要意义的 GLM 大模型,它不仅在中文语言处理方面取得了显著的进展,还在英文语言处理方面表现出了强大的能力。GLM大模型区别于OpenAI GPT在线大模型只能通过API方式获取在线支持的窘境,GLM大模型属于开源大模型,可以本地部署进行行业微调、也可通过API方式在线获取GLM模型能力。因此对于开发者而言,GLM开源大模型更值得去探索和研究。本文将着重介绍GLM大模型的研究成果和应用,探讨GLM开源大模型在发展历程、技术原理、应用场景等内容,以帮助我们能够更加深刻的了解GLM大模型在人工智能领域的重要性和影响力,以及给世界带来的可能性。
1. GLM大模型产生的背景
随着Google 2017年发布的一篇名为“Attention is All You Need”的论文开始,人们便开始了基于Transformer架构的自注意力机制(self-attention mechanism)的前馈神经网络模型在自然语言处理领域的突飞猛进的探索,Google Transformer 逐渐成为自然语言处理领域的重要研究方向,后续提出的BERT、GPT大模型均是基于 Transformer 模型,这些模型在各种自然语言处理任务上都取得了非常好的效果。
而就在GPT-3、BERT、T5等大模型发布之后,预训练语言模型大体可分为GPT系列的自回归模型、BERT系列的自编码模型、T5系列的编码-解码模型,它们每一个都在各自的领域上表现不俗,但是没有一个预训练模型能够很好地完成所有任务。为了应对这一挑战,由清华大学实验室和智谱 AI 共同研发的一款通用预训练语言模型GLM(Generative Language Model)也紧随其后陆续登场,它在自然语言理解NLU、条件文本生成conditional 和非条件文本生成unconditional generation任务上都有着不错的表现。从而在竞争激烈的大模型领域呈现着一抹中国色。
智谱AI是一家清华大学技术成果转化的公司,致力于打造新一代认知智能通用模型,他和清华大学的深度合作,将技术成果在具体产品上落地和推广。在大模型领域,2022年发布了双语千亿级超大规模预训练模型GLM-130B,构建了高精度通用知识图谱,形成数据与知识双轮驱动的认知引擎。且在斯坦福大学基础模型中心的评测中,GLM-130B在准确性和公平性指标上与GPT-3 175B (davinci) 接近或持平,鲁棒性、校准误差和无偏性优于GPT-3 175B。基于GLM-130B 模型的对话模型ChatGLM-6B通过有监督微调等技术初步实现与人类意图对齐,初具理解人类指令意图的能力,并支持在单张 2080Ti 上进行推理使用。开源ChatGLM-6B具备独立部署潜质,可以成为千行百业大模型业务落地的基石。
智谱AI相继推出认知大模型平台Bigmodel.ai,其中包括CodeGeeX和CogView等产品,提供智能API服务,链接物理世界的亿级用户、赋能元宇宙数字人、成为具身机器人的基座,赋予机器像人一样“思考”的能力。可见在智谱AI大模型行业应用的推动下,基于GLM大模型的技术深入和应用探索会有更大的想象空间,值得期待…
2. GLM大模型的发展历程
自然语言处理NLP 技术中通常包含三类任务:自然语言理解NLU(包括文本分类、分词、句法分析、信息抽取等)、有条件生成任务(seq-seq,如翻译任务、QA)和无条件生成任务(用预训练模型直接生成内容)。当前预训练模型也主要包括三类:自编码模型、自回归模型和编码解码模型。但这些预训练模型都不足以在所有 NLP 任务中都能展现出良好的性能。清华大学针对上述三种任务提出了一种基于自回归空白填充的通用语言模型(GLM),在兼顾三方面任务,且性能表现良好。在持续的探索中,GLM系列模型发布了GLM-130B、ChatGLM、ChatGLM-6B、ChatGLM2-6B等大模型组。
GLM-130B
GLM-130B由清华智谱AI于2022年8月开源发布。它是GLM系列模型中最大的模型,拥有1300亿参数,支持中英文双语,其目标是能够训练出开源开放的高精度千亿中英双语语言模型,让每个人都能用的上的千亿模型。
GLM-130B其表现性能上与GPT3相当,相比于百亿或更小参数规模的模型来说,千亿模型显得尤为难以训练,在训练过程中会遇到很多意想不到的技术与工程相关的问题,因此千亿规模大模型的训练过程和模型参数对公众是难以获得的,而清华大学完全开源了GLM-130B的参数、代码和训练过程,揭示了如何成功地预训练一个高质量的千亿参数大语言模型的方法和过程。
GLM-130B大模型第一次将千亿模型量化到int4层次,并且在没有量化感知训练的条件下,性能损失也很少,这让模型能够在4块3090(24G)或8块2080Ti(11G)就可以推理GLM-130B模型。且GLM-130B从预训练到评估都是可复现的,所有评估代码也是开源的。这对于不具备大语言业务深耕经验的开发者而言带来了本地快速部署的可能,为行业大语言模型提供了重要的基石支撑。
ChatGLM千亿模型
ChatGLM千亿模型于2023年3月开启申请内测,目前已暂停了公开申请。该模型是为了解决大基座模型在复杂问题、动态知识、人类对

最低0.47元/天 解锁文章
9904

被折叠的 条评论
为什么被折叠?



