
自然语言处理
文章平均质量分 82
nlp相关知识
zhurui_xiaozhuzaizai
想要浓密的秀发
展开
-
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
deepseek-R论文阅读翻译原创 2025-02-07 14:27:17 · 622 阅读 · 0 评论 -
测试时计算策略(BON, stepwiseBON, beamsearch, lookahead,混合方法,计算最优扩展,过程奖励模型引导,多数投票)
测试时计算策略原创 2024-12-25 17:10:28 · 1200 阅读 · 0 评论 -
续训优化,WSD/Cooldown/SWA/sfo
cosine_decay续训优化问题原创 2024-12-23 20:06:12 · 930 阅读 · 0 评论 -
强化学习进化之路(PPO->DPO->KTO->ODPO->ORPO->simPO)
DPO,PPO,ORPO,ODPO,KTO, simPO原创 2024-11-27 14:41:17 · 4986 阅读 · 1 评论 -
mamba->jamba
mamba模型原创 2024-04-17 15:14:48 · 1794 阅读 · 0 评论 -
为什么decoder-only
总而言之,decoder-only 在参数量不太大时就更具有更强的zero-shot性能、更匹配主流的自监督训练范式;而在大参数量的加持下,具有了涌现能力后、可以匹敌encoder-decoder做finetuning的效果;在In Context的环境下、又能更好地做few-shot任务。decoder-only 架构符合传统的 Language Model 的模式。原创 2024-10-10 17:31:20 · 1253 阅读 · 0 评论 -
MLP优化KAN
函数 f 的定义域是一个n维的闭区间[0, 1]的笛卡尔积,值域是实数集合R。简单来讲,函数 f 接受一个n维向量作为输入,并将其映射到实数集合R中的一个数。每个维度的取值范围都是[0, 1],所以输入向量的每个分量都是在[0, 1]内取值的。原创 2024-10-10 16:35:37 · 1143 阅读 · 0 评论 -
知识蒸馏介绍
知识蒸馏(knowledge distillation)是模型压缩的一种常用的方法,不同于模型压缩中的剪枝和量化,知识蒸馏是通过构建一个轻量化的小模型,利用性能更好的大模型的监督信息,来训练这个小模型,以期达到更好的性能和精度。最早是由Hinton在2015年首次在文章《Distilling the Knowledge in a Neural Network》中提出并应用在分类任务上面,这个复杂模型我们称之为teacher(教师模型),小模型我们称之为Student(学生模型)。原创 2024-10-10 16:30:04 · 1573 阅读 · 0 评论 -
Model-based RL&动态规划(基于价值、基于策略,泛化迭代)
对于马尔可夫决策过程(MDP),在不知道环境的状态转移函数和奖励函数下(或者是known MDP,但环境太大太复杂无法去使用)就使用无模型的强化学习算法和基于模型的强化学习算法算出最优策略和最优价值函数(控制),或者求出某一策略下的价值函数(预测)。因此,对于上面的问题,不一定让策略评估和策略改进反复交替多次,而是用贝尔曼最优方程,一次性确定各个状态的 Vπ(s),再用这些最优状态值函数Vπ(s)计算动作值函数 Q(s,a) ,最后取Q(s,a)最大的动作,这就是值函数迭代算法。原创 2024-09-09 16:31:07 · 1181 阅读 · 0 评论 -
强化学习策略更新方法on-policy与off-policy(重要性采样,q-Learning,sarsa)
Off-policy方法的典型例子是:Q-learning,DQN(Deep Q-Networks),DDPG(Deep Deterministic Policy Gradient),SAC(Soft Actor-Critic)等。On-policy方法的典型例子是:REINFORCE算法,Actor-Critic算法,PPO(Proximal Policy Optimization,近端策略优化)算法等。策略更新方法可以分为两类:On-policy(在线策略)和Off-policy(离线策略)。原创 2024-09-09 10:50:19 · 1016 阅读 · 0 评论 -
NLP数据增强方法
常用的NLP数据增强方法:1、回译2、 同义词替换(SR: Synonyms Replace):不考虑stopwords,在句⼦中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进⾏替换。3、 随机插⼊(RI: Randomly Insert):不考虑stopwords,随机抽取⼀个词,然后在该词的同义词集合中随机选择⼀个,插⼊原句⼦中的随机位置。4、 随机交换(RS: Randomly Swap):句⼦中,随机选择两个词,位置交换。原创 2024-07-25 18:36:38 · 1089 阅读 · 0 评论 -
RLHF优化
RLHF优化转载 2023-09-14 17:11:17 · 333 阅读 · 0 评论 -
prompt问题【中间不好】
prompt问题原创 2024-04-19 16:07:28 · 1383 阅读 · 0 评论 -
peft代码解读:Prefix Tuning/LoRA/P-Tuning/Prompt Tuning
peft原创 2023-06-28 15:09:58 · 2934 阅读 · 4 评论 -
随机分词与tokenizer(BPE->BBPE->Wordpiece->Unigram->sentencepiece->bytepiece)
随机分词与tokenizer(BPE->BBPE->Wordpiece->Unigram->sentencepiece->bytepiece)原创 2023-12-08 17:58:01 · 3565 阅读 · 0 评论 -
中文分词演进(查词典,hmm标注,无监督统计)新词发现
中文分析&新词发现原创 2023-12-08 17:13:47 · 1617 阅读 · 0 评论 -
generation的重复性问题
解决大模型的重复性问题原创 2023-11-21 16:52:24 · 1460 阅读 · 0 评论 -
标准self-attention的几个变种的理解【token对token”是必须的吗】【必须有softmax吗】
在自动摘要这个任务上,标准注意力效果比较好,但是对话生成这个任务上,结果则反过来:标准的自注意力是最差的,Dense(D)和Random(R)是最好的,而当Dense和Random混合了标准的自注意力后(即 D+V 和 R+V),效果也变差了。这说明标准注意力并没有什么“独占鳌头”的优势,而几个Synthesizer看起来是标准注意力的“退化”,但事实上它们互不从属,各有优势。转载 2023-10-30 17:08:50 · 857 阅读 · 0 评论 -
multihead attention增强表达能力,解决“低秩瓶颈”
第一个结果来自文章《Low-Rank Bottleneck in Multi-head Attention Models》,它明确地指出了Multi-Head Attention里边的表达能力瓶颈,并提出通过增大key_size的方法来缓解这个瓶颈。它能增加Attention的表达能力,并且不改变模型整体的hidden_size,计算量上也只是稍微增加了一点通常Q,K,V分别是对输入矩阵X进行不同W矩阵投影,转载 2023-10-30 16:52:12 · 704 阅读 · 0 评论 -
大模型LLM相关面试题整理
LLM(Large Language Model,大型语言模型)是指基于大规模数据和参数量的语言模型。具体的架构可以有多种选择,以下是一种常见的大模型LLM的架构介绍:Transformer架构:大模型LLM常使用Transformer架构,它是一种基于自注意力机制的序列模型。Transformer架构由多个编码器层和解码器层组成,每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离的依赖关系和语言结构,适用于处理大规模语言数据。原创 2023-10-20 14:12:32 · 5440 阅读 · 0 评论 -
怎么让英文大语言模型支持中文?--构建中文tokenization--继续预训练--指令微调
1、使用sentencepiece训练一个中文的词表。2、使用transformers加载sentencepiece模型。3、怎么合并中英文的词表,并使用transformers使用合并后的词表。4、在模型中怎么使用新词表。原创 2023-10-18 14:48:49 · 1902 阅读 · 0 评论 -
大模型LLM相关面试题整理-训练集-训练经验-微调
综上所述,全参数微调所需的显存量取决于模型的大小、批量大小、训练数据的维度以及训练设备的显存限制。在进行全参数微调之前,建议先评估所需的显存量,并确保训练设备具备足够的显存来支持训练过程。13b的占用大约50G内存,在64G内存上,i9 12900h运行缓慢7b的占用约26G内存,在64G内存上,i9 12900h运行、响应速度还可以,全参数finetune至少需要4倍的数据。原创 2023-10-17 19:55:35 · 4072 阅读 · 1 评论 -
大模型LLM相关面试题整理-PEFT
PEFT(Performance Estimation and Modeling for Fine-Tuning)是一种用于微调任务的性能估计和建模方法。它的目的是帮助研究人员和从业者在微调过程中更好地理解和预测模型的性能,并进行更有效的模型选择和调优。PEFT的主要思想是通过预测模型在微调任务上的性能,提供对不同模型和参数设置的性能估计。这样可以避免在大规模数据集上进行昂贵的微调实验,从而节省时间和计算资源。数据采样:从原始数据集中采样一小部分数据用于性能估计。原创 2023-10-17 19:40:51 · 1595 阅读 · 4 评论 -
大模型LLM相关面试题整理-位置编码-tokenizer-激活函数-layernorm
绝对位置编码是一种用于为序列数据中的每个位置添加绝对位置信息的技术。在自然语言处理中,绝对位置编码常用于处理文本序列,特别是在使用Transformer模型进行序列建模的任务中。在传统的Transformer模型中,位置编码使用了正弦和余弦函数的组合来表示相对位置信息,但它并没有提供绝对位置的信息。这意味着,如果将输入序列的位置进行重新排序或删除/添加元素,模型将无法正确地理解序列的新位置。为了解决这个问题,绝对位置编码被引入到Transformer模型中。原创 2023-10-17 19:37:10 · 2052 阅读 · 0 评论 -
位置编码与外推性[bias(Alibi/KERPLE/Sandwich)+插值 + ROPE/RERope + keynorm。与长度外推性]
长度外推性=train short, test longtrain short:1)受限于训练成本;2)大部分文本的长度不会特别长,训练时的max_length特别特别大其实意义不大(长尾)。test long:这里long是指比训练时的max_length长,希望不用微调就能在长文本上也有不错的效果。原创 2023-09-21 14:59:13 · 3225 阅读 · 0 评论 -
大模型训练之加速篇 -attention优化【稀疏->线性化->分块计算MQA/GQA->计算(flash atten/dec)->缓存MLA】
加速原创 2023-09-21 10:27:10 · 9257 阅读 · 0 评论 -
大模型训练之加速篇 -> peft(Lora->ReLORA->Vera->Dora->LISA->Lora+->Lora-GA) -> accelerator -> deepspeed (Zero)
加速。大模型原创 2023-09-20 17:29:54 · 1595 阅读 · 0 评论 -
大模型训练之并行篇-------数据并行/模型并行(层间层内)/流水并行
ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning 发表在SC 21,同样是进行offload,ZeRO-Offload更侧重单卡场景,而ZeRO-Infinity则是典型的工业界风格,奔着极大规模训练去了。层间模型并行则是对模型层进行切分,业界也有很多做框架的公司管它叫Pipeline并行,但是我的观点是层间模型并行只有真的流水起来了才能够叫Pipeline并行。典型例子就是1D的Megatron。原创 2023-03-29 15:58:54 · 5541 阅读 · 0 评论 -
大模型训练之计算量和内存优化篇------混合精度/量化/剪枝/知识蒸馏/FSDP&cpu offload/Gradient Checkpointing
大模型训练显存和计算量优化原创 2023-05-24 19:59:40 · 4710 阅读 · 1 评论 -
强化学习基础:强化学习分类,强化学习表示,值函数,策略迭代/值迭代, 主要的强化学习技术(蒙特卡洛学习/时间差分学习,DQN.,策略梯度/REINFORCE/AC系列算法)
强化学习原创 2023-02-15 17:05:33 · 2353 阅读 · 0 评论 -
马科夫过程(MP) -> 马尔科夫奖励过程(MRP) -> 马尔科夫决策过程(MDP)
马尔可夫转载 2023-02-21 20:17:57 · 969 阅读 · 0 评论 -
图网络模型 GCN->GAT
ZGCN0)W1【两层的GCN Layer】原创 2023-03-20 15:59:40 · 1865 阅读 · 0 评论 -
预训练范式提示学习方法一览(PET, Prefix-tuning,P-tuning,prompt tuning, PPT,SPoT, Prompt-tuning鲁棒性研究)
prompt 训练原创 2023-02-07 16:49:32 · 2550 阅读 · 0 评论 -
NER 任务以及联合提槽任务
NER & cls联合提取原创 2023-03-29 15:18:47 · 671 阅读 · 0 评论 -
pytorch 模型与tf模型转换
torch转tf原创 2022-06-09 17:15:34 · 1581 阅读 · 0 评论 -
nlp模型加速之-oonx, tensorrt
一、模型加速原理原始的训练框架(pytorch,TensorFlow)比较重,结合GPU计算能力没那么强,利用其它快速的框架,例如onnx(微软开源),tensorrt(NVIDIA推出);二、环境准备:机器:阿里云5号机,后面是有的目录均指改机器下的目录;显卡:必须V100(32G),16G的不确定是否兼容;cuda:必须10.2,不同cuda版本有diff,cuda10.2还要打两个补丁;onnx:从github clone最新的,我已经完成,对应地址为:/root/myname/on原创 2021-11-22 11:18:16 · 993 阅读 · 0 评论 -
训练1000层的transformer
transformer深层训练理论分析实现转载 2022-10-11 14:57:25 · 353 阅读 · 0 评论 -
逻辑推理阅读理解任务及方法
阅读理解原创 2022-11-25 15:26:06 · 1187 阅读 · 0 评论 -
FFN -> GLU -> GAU
FFN优化原创 2022-11-25 15:24:58 · 3226 阅读 · 0 评论 -
FAQ相关论文阅读
名称:Unsupervised FAQ Retrieval with Question Generation and BERT解决问题:标注数据Q-q对少的问题解决方法:使用GPT-2等生成模型生成q 的相似q’召回方法1:Elasticsearch , (q+a) 建立索引, BM25召回topk召回方法2:滑窗q+a, 根据BM25相似度最高作为score排序QA模型:(q, a, a’)训练模型,q-a为一个问答对,a’为其他的answer负例。进一步:(q+a)召回的topk选择作为负例.原创 2021-09-26 17:33:01 · 1978 阅读 · 1 评论