Why are most LLMs decoder-only?

LLM架构解析

本文是LLM相关博客,原文出自https://medium.com/@yumo-bai/why-are-most-llms-decoder-only-590c903e4789

为什么大多数LLM decoder-only?

我在DeltaHacks的辅导过程中遇到了这个问题,无法想出一个对自己足够有说服力的答案。所以我挖了一些洞,结果发现这是一个有趣的兔子洞。它涉及到对Transformer、架构、数学和工程优化的理解。在这里,我将分享我一路上捡到的两分钱。

语言模型体系结构概述

让我们先熟悉一些体系结构术语。

Encoder and Decoder

  • 编码器:处理输入数据并将其转换为压缩表示,捕获基本信息。在翻译任务中,编码器将英语句子转换为表示其语言特征和含义的向量。

  • 解码器:采用编码表示并生成输出,通常采用不同的形式。在同一翻译任务中,解码器采用英语句子的编码表示,并生成法语句子的等效表示。

Encoder-Only Models

  • 示例:基于BERT的模型
  • 预训练方法:掩蔽语言建模(
### Decoder-Only 模型在中文中的应用与实现 Decoder-Only 模型是一种专注于生成任务的架构,其核心在于通过自回归方式预测下一个 token 来完成文本生成任务[^3]。这类模型广泛应用于自然语言处理领域,尤其是在需要生成连贯、高质量文本的任务中表现优异。 #### GPT 系列及其中文版本 GPT(Generative Pre-trained Transformer)系列是典型的 Decoder-Only 模型之一,它通过大规模无监督文本数据进行预训练,在多个下游任务中表现出强大的泛化能力。针对中文应用场景,国内研究机构和企业开发了一系列基于 GPT 的改进版模型: 1. **CPM (Chinese Pretrained Model)** CPM 是由智谱 AI 开发的一类大型语言模型,专门用于支持多语言尤其是中文场景下的文本生成任务。该模型继承了 GPT 的设计思路,采用了类似的自回归机制,并进行了大量中文语料的微调[^5]。 2. **通义千问 (Qwen)** 作为阿里巴巴集团旗下的超大规模语言模型,通义千问不仅具备强大的英文理解与生成能力,还特别优化了对中文的支持。它的底层结构同样属于 Decoder-Only 类型,能够在多种实际业务场景下提供高效的服务,例如客服对话、文章创作等[^6]。 3. **GLM (General Language Model)** GLM 是由中科院自动化研究所推出的一个通用大语言模型家族成员之一,其中也包含了专为中文定制的部分变种型号。这些模型均遵循了经典的 Transformer 解码器框架设计理念,从而实现了卓越的效果展示[^7]。 #### 中文具体应用场景实例 以下是几个典型的应用案例说明如何利用上述提到的各种类型的 decoder-only 架构来进行具体的项目实施工作: 1. **自动写作辅助工具** 使用像通义千问这样的高级别 LLMs 可以为用户提供实时反馈建议以及帮助他们更轻松地撰写各类文档材料, 如新闻报道草稿或者学术论文初稿等等[^8]. 2. **智能聊天机器人服务端口集成方案** 基于 cpm 或 glm 这样的开源平台构建专属虚拟助手应用程序接口(API),以便更好地满足客户咨询需求的同时还能不断积累宝贵经验教训用来进一步提升整体服务质量水平[^9]. 3. **诗歌创作与文学作品仿写** 让机器学习模仿古代诗人风格创造新诗句亦或是现代小说章节续篇等内容形式变得可行起来,这背后离不开那些经过精心调整参数设置后的强大算法支撑力量[^10]. ```python from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("uer/gpt2-chinese-cluecorpussmall") model = AutoModelForCausalLM.from_pretrained("uer/gpt2-chinese-cluecorpussmall") input_text = "今天天气不错" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs, max_length=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 此代码片段展示了如何加载一个预先训练好的中文 GPT-2 模型并通过给定提示生成延续性的句子[^11]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值