
每日论文
文章平均质量分 92
本专栏主要记录自己阅读的论文
一夜了
研究对话,LLM,多模态算法。
展开
-
【LLM系列】Deepseek-R1模型详细介绍
本文主要介绍了deepseek-r1和deepseek-r1-zero两种模型的数据构造方式及训练方式。原创 2025-02-26 20:44:50 · 949 阅读 · 0 评论 -
预训练技巧:在训练末尾对领域数据上采样
介绍了一种在模型训练结尾对领域数据上采样能够提升在benchmark上的指标。通过实验表明上采样比例在10-20%是能够在通用语言能力与目标benchmark保持权衡的最好比例。原创 2024-09-30 15:50:43 · 1260 阅读 · 3 评论 -
随着Batch size增加,最佳learning rate如何选择?
一开始learning rate随着batch size增大而增大,随后达到一个点后,会随着batch size增加而降低,同时,随着训练不断进行,BnoiseB_{noise}Bnoise会不断后移。为了加速训练进程,可以设计自适应的learning rate和batch size。原创 2024-09-14 16:55:58 · 1378 阅读 · 3 评论 -
多模态大模型-MiniCPM-V
模型结构层面和llava类似,只不过connection layer一个是MLP,一个是perceiver resampler,但对模型效果影响不大;预训练阶段仅训练vit和compression layer;多语言能力仅靠LLM和sft阶段;为了降低幻觉使用了RLAIF-V;目前MiniCPM-V2.6已经发布了,有了更强的OCR,多语言,可靠性,因为目前technical report还没发布,技术细节还不清楚。原创 2024-09-13 20:58:40 · 1411 阅读 · 0 评论 -
Post-Training有多重要?一文带你了解全部细节
本文主要介绍了llama3.1,Nemotron4-340B及gemma2三个模型在post-training阶段的一些工作。主要涉及数据搜集,合成数据,SFT及DPO等。原创 2024-09-07 18:29:26 · 3063 阅读 · 3 评论 -
论文阅读-Transformer Layers as Painters
尽管大语言模型现在已经被广泛的应用于各种任务,但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响,本文设计了一系列的实验。通过实验表明,预训练语言模型中的lower和final layers与中间层分布不一致,并且中间层有着惊人的一致性。原创 2024-08-14 20:32:05 · 1457 阅读 · 3 评论 -
多模态大模型 - MM1
这部分主要探索三个(结构,数据和训练步骤)对多模态大模型效果的影响,模型基础配置:Image Encoder:ViT-L/14模型,训练loss为clip loss,训练数据DFN-5B和VeCap-300M,image size为336*336Vision-Language Connector:C-Abstractor,最大输出144 image token。原创 2024-07-15 17:13:02 · 1192 阅读 · 2 评论 -
多模态大模型 - LLaVA系列模型
本文主要介绍了LLaVA系列的多模态大模型,详细的介绍了每个版本的优化思路及方法。原创 2024-07-08 15:58:57 · 1601 阅读 · 1 评论