大模型专有名词解释

一.NLU和NLP区别:

特性NLPNLU
定义自然语言处理,研究语言的处理和生成自然语言理解,研究语言的语义理解
范围广,包括文本处理、生成、翻译、摘要等较窄,专注理解语义、意图、信息抽取
核心目标让计算机能“处理”语言让计算机能“理解”语言
示例分词、机器翻译、文本生成意图识别、实体抽取、对话理解

二.BERT和RoBERTa

特性BERTRoBERTa
NSP 任务
训练数据量3.3 亿词160 亿词
Mask 策略静态动态,每次 epoch 改变
Batch size / 训练时间小 / 短大 / 长
性能基线通常更优

三. 模型结构相关

参数量(Parameters)


模型中可训练的权重数量,通常以 M(百万)、B(十亿)、T(万亿) 为单位。参数量越大,模型的表达能力通常越强,但训练/推理成本也更高。

层数(Layers / Depth)


Transformer 堆叠的层数,常见如 12 层、24 层、70 层。层数越深,模型学习的抽象层次越高。

隐藏维度(Hidden Size / Dimension)


每一层内部表示向量的维度,比如 768、1024、4096。隐藏维度越大,表示能力越强,但显存需求也更高。

注意力头(Attention Heads)


多头注意力机制中的“头”的数量,用来并行学习不同的注意力模式。常见 12/16/32 个。

上下文长度(Context Length / Sequence Length)


模型一次能够处理的最大 token 数,比如 2K、4K、32K、128K。越长表示能处理更大范围的文本。

四. 训练相关

预训练(Pre-training)


在海量无监督文本上训练模型,学习通用的语言表示。

微调(Fine-tuning)


在特定任务或领域数据上进一步训练,使模型更适配目标任务。

指令微调(Instruction Tuning)


让模型学会更好地遵循人类指令,常见于对话和问答场景。

RLHF(Reinforcement Learning from Human Feedback)


基于人类反馈的强化学习,让模型更符合人类偏好。

蒸馏(Distillation)


把大模型的知识迁移到小模型,以降低计算和部署成本。

LoRA(Low-Rank Adaptation)


一种轻量化微调方法,只训练少量参数,大幅节省显存和计算。

五. 推理与优化

推理(Inference)


使用训练好的模型进行预测或生成文本的过程。

量化(Quantization)


用低精度(如 8bit、4bit)表示模型权重,减少显存占用和计算开销。

剪枝(Pruning)


删除模型中不重要的权重或结构,以减小规模。

并行训练(Parallel Training)

数据并行(Data Parallelism):

把数据分到多个 GPU 上,模型副本相同。

模型并行(Model Parallelism):

把模型切分到多个 GPU 上。

流水线并行(Pipeline Parallelism):

不同 GPU 负责模型的不同层。

六. Token 与嵌入

Token(标记)


模型处理的最小单位,可以是字母、词、子词或汉字。不同分词器规则不同。

词嵌入(Word Embedding / Token Embedding)


把 token 映射为向量,作为模型输入。

位置编码(Positional Encoding / Rotary Position Embedding, RoPE)


用于让模型感知 token 在序列中的位置信息。

七. 注意力机制

自注意力(Self-Attention)


序列中的每个 token 与其他 token 计算相关性,以建模上下文依赖。

多头注意力(Multi-Head Attention)


并行计算多个不同的注意力模式,更好地捕捉复杂关系。

KV 缓存(Key-Value Cache)


在推理时缓存已计算的注意力键值对,加快长文本生成速度。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值