
大模型
文章平均质量分 82
Jolen_xie
生活性博士研究生
展开
-
Encoder-Decoder、Encoder only、Decoder only
(从左到右生成)或自注意力机制生成文本,同时处理输入和输出的依赖关系。-编码器与解码器可独立优化,适合需要明确输入-输出映射的场景。解码器根据中间表示生成目标序列(如目标语言翻译)。- 自注意力机制可捕捉长距离依赖,生成连贯文本。,通过自注意力机制捕捉输入的全局上下文信息。,适合需要全局上下文分析的任务。如:文本分类、问答系统、预训练语言模型。,适合需要创造性输出的任务。生成内容依赖前部分给予和已生成内容。机器翻译、文本摘要、结构化数据生成。-训练效率高,适合预训练任务。仅依赖输入序列的全局上下文。原创 2025-03-25 09:33:31 · 129 阅读 · 0 评论 -
大模型的后训练(post-training)方法
阶段预训练(Pre-training)后训练(Post-training)目标学习通用语言模式与世界知识适配具体任务、对齐偏好、优化部署数据大规模无监督文本(如网页、书籍)小规模有监督数据(如标注样本、偏好对)方法自回归/自编码语言模型SFT、RLHF、蒸馏等资源需千卡级GPU集群训练数月通常单卡或小规模集群,数小时至数天。原创 2025-03-24 20:09:12 · 873 阅读 · 0 评论 -
LoRA原理与特性
LoRA(Low-Rank Adaption)通过低秩矩阵分解来高效调整大型预训练模型的权重。其基本思路是将权重矩阵的更新约束为两个低秩矩阵的乘积,从而减少需要学习的参数量。(3)当$A = 0 or B=0 $时,都保证了全零初始化的对称性。保持不变,因此减少了训练的参数量,提高了计算效率。时,梯度为0,A和B的参数也一直为0,,LoRA对其添加一个低秩的更新矩阵。,从而得到微调后的权重矩阵。时,训练初期引入了较大的。受到噪音干,从而难以收敛。原创 2025-03-20 10:56:09 · 681 阅读 · 0 评论 -
通义千问报告(Qwen Technical Report)阅读记录
通义千问报告阅读记录和有感原创 2025-02-25 23:33:36 · 754 阅读 · 0 评论