- 博客(5)
- 收藏
- 关注
原创 LLaMA2:Open Foundation and Fine-Tuned Chat Models
同时,LLaMA2进一步考虑了模型的安全性问题,为了促使模型尽可能的输出安全(无毒)的内容,在训练过程中安全模型(Safety Model)使用安全奖励模型(Safety Reward Model)进行训练,同时对于帮助性模型如果安全分数太低(Safety RM score < 0.15)则认为不是一个理想的安全输出,则也使用safety RM进行训练。预训练的流程即LLaMA2基座模型的训练过程,通过大量无标注语料库使用自回归的方式(下一个词预测)进行训练,得到一个能力出众的大语言模型。
2024-04-24 17:04:17
1259
原创 Instruct-GPT
首先再次收集一批用户提问的Prompt(Human-Written Prompt)数据,而后将利用前面训练得到的SFT-GPT可以产生解码得到K个回答(Output),而后根据对应的Prompt以及K个回答结果进行排序(标注者根据回答的好坏进行打分),而后就可以利用这个标注数据集(Prompt+K个排序回答)去训练一个可以打分的Reward Model。因此,该损失函数的目标即希望排名靠前的answer可以得到更高的RM分数输出,分数更低的answer得到更低的分数,从而让模型学习到如何给对应的。
2024-04-13 15:28:05
1023
原创 LLaMA: Open and Efficient Foundation Language Models
与之前的研究不同,本文研究表明,完全利用公开数据进行训练,而不诉诸于专有数据集,就有可能实现最先进的性能。相应的与其他模型进行了对比,在中等模型规模上的取得了不错成绩,但是与SOTA模型(GPT code-davinci-002)还是有差距。已有的大模型越来越多的追求更大的参数量以实现更高的性能,但有研究表明更小的模型在更大的数据集上同样可以表现良好,因此本文旨在。上对比,通过在指令数据上进行微调训练进行评估,可以发现模型的性能有极大的提高,得到的模型取名为。LLaMA同样进行了指令微调的实验在。
2024-04-09 16:23:43
950
原创 Bert 与GPT差异
GPT由于在进行预训练时使用的是连续的文本进行下一个词的预测,因此对于非连续的序列信息无法直接进行处理(Entaiment、Similarity、Multiple Choice)。因此,在进行微调时需要对输入信息进行构造,同时添加针对每个任务的线性预测头,针对不同任务具体的构造方式如下图所示。由于Bert在预训练时使用了下一句预测任务作为目标函数,在进行Fine-tuning时输入能够自适应处理非连续的文本任务(例如QA),在进行微调时只需要重新训练分类头即可。
2024-03-21 17:32:14
701
1
原创 Attention is All You Need
现有的序列处理模型通常由**循环神经网络(RNN/RNN+Attention)卷积神经网络(CNN)**来进行处理的方式虽然可以实现并行化从而提高处理效率,但滑动窗口的处理方式导致随着序列长度的增加,学习长距离的依赖也会变得更加困难。相比之下,Transformer通过自注意力机制以矩阵的形式可以用高效建立全局的信息传播,从而提高计算效率。
2024-03-20 15:34:43
1200
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅