探索Transformer模型:从基础到应用
一、Transformer概述
Transformer是工业化、同质化的后深度学习模型,专为超级计算机上的并行计算而设计。通过同质化处理,一个Transformer模型无需微调就能执行广泛的任务,还能对数十亿条未标记的原始数据记录和数十亿个参数进行自监督学习。这些特殊的后深度学习架构被称为基础模型,它们代表了始于2015年的第四次工业革命的典范,这场革命以机器对机器的自动化为开端,旨在实现万物互联。
在不到五年的时间里,人工智能已成为一种具有无缝API的有效云服务。过去下载库并进行开发的模式在很多情况下正逐渐成为一种教育性的实践。例如,工业4.0项目的项目经理可以前往OpenAI的云平台,注册获取API密钥,几分钟内即可开始工作。用户输入文本、指定NLP任务,就能获得GPT - 3 Transformer引擎发送的响应。甚至用户可以在GPT - 3 Codex上无需编程知识就能创建应用程序,由此催生了提示工程这一全新技能。
不过,有时GPT - 3模型可能并不适合特定任务,项目经理、顾问或开发人员可能会选择使用Google AI、亚马逊网络服务(AWS)、艾伦人工智能研究所或Hugging Face等提供的其他系统。
二、Transformer生态系统与基础模型
Transformer模型带来了范式转变,因此需要一个新名称来描述它们——基础模型。斯坦福大学为此创建了基础模型研究中心(CRFM),并于2021年8月发表了一篇由一百多位科学家和专业人士撰写的长达两百页的论文《基础模型的机遇与风险》。
基础模型并非由学术界创造,而是由大型科技行业开发。比如,谷歌发明了Trans
超级会员免费看
订阅专栏 解锁全文
1791

被折叠的 条评论
为什么被折叠?



