- 博客(769)
- 资源 (1)
- 收藏
- 关注
原创 [linux] 怎么切换为用户状态:
curl -s http://baidu-ide.bj.bcebos.com/platform/script/host-script/install-agent.sh | bash -s -- -g cb022d85-a146-465b-9b93-a2a50c340c73 -c ad91a46d5f0e957c982684d2ecaa1f5c -v 1.8.401.70.0.9 /opt/compiler/gcc-8.2/lib/ld-linux-x86-64.so.2 Warning :Forbid Us
2025-03-03 19:34:45
401
原创 [论文笔记] GRPO & DPO
GRPO 和 DPO 都依赖于成对的偏好数据 (pairwise preference data),其中包含一个“更好”(preferred)的样本 A+ 和一个“较差”(dispreferred)的样本 A−,通常来源于模型生成的多个候选结果,由人工或规则标注优劣。Dkl(πθ||πref)是模型 πθ 与参考模型 πref之间的 KL 散度,控制模型偏离程度。GRPO 对 DPO 进行扩展,引入 KL 正则项,以更灵活地控制模型的生成质量。直接优化模型,使其偏向人类偏好的样本,而远离不符合偏好的样本。
2025-02-07 11:06:22
617
1
原创 [论文笔记] Deepseek-R1&R1-zero技术报告阅读
背景与目标报告聚焦于利用强化学习(RL)提升大型语言模型(LLMs)的推理能力,旨在探索在不依赖大规模监督微调(SFT)的情况下,模型如何自我进化并形成强大的推理能力。(纯 RL,无 SFT 冷启动数据)和(在 RL 前加入少量冷启动数据和多阶段训练流程,提升可读性及推理表现)。核心思路直接在基础模型上应用大规模强化学习,利用规则设计的奖励机制(包括准确性奖励和格式奖励)激励生成长链思维(CoT)。通过拒绝采样和后续的监督微调,进一步改善模型输出的可读性和对齐人类偏好。
2025-02-05 20:09:04
1147
1
原创 [论文笔记] 近线生成 和 在线生成
指在请求到达之前,通过提前生成可能需要的数据或答案,并将其缓存,待请求到来时直接使用或快速调整。这种方式通常结合模型离线计算和缓存策略使用。
2024-12-03 16:03:33
77
原创 [论文笔记] Pangea:完全开放的多语言多模式法学硕士,涵盖 39 种语言
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages1. 背景与目的Pangea 旨在开发一个支持 39 种语言的完全开源多语言、多模态大模型 (MLLM),弥补语言技术领域的资源不均问题,特别是低资源语言的不足。目标是为多语言、多模态研究提供开放的工具和数据集,以促进语言包容性和公平性。2. 模型架构:Pangea-7BPangea-7B 是一个拥有 70 亿参数的语言模型,能够处理文本和图像的多模态输入。这使得它
2024-11-01 15:20:53
157
原创 [论文笔记] 大模型评测:lm-evaluation-harnessPublic(eval-big-refactor)
1、添加SeaExam中的m3exam和mmlu测试集。英语+东南亚语:SeaLLMs/SeaExam。
2024-10-28 15:55:31
207
原创 [论文笔记] llama factory 跑LLama3.2 SFT config报错
【代码】[论文笔记] llama factory 跑LLama3.2 SFT config报错。
2024-10-22 15:41:46
407
原创 [论文笔记] CLIP(Contrastive Language-Image Pre-Training)
Transformer: 这部分NLP选手应该很熟悉,CV选手简单了解下,首先文本经过tokenize得到一个新的张量,比如 [“a diagram”, “a dog”, “a cat”] ,经过tokenize得到的(3,77)的张量,经过一个embeding层得到(3,77,512)的tensor,添加位置编码(nn.Parameter)后送入模型,最后模型输出的到(1,512)的特征。分别获得特征后,将两个特征进行余弦相似度计算,分别获得图像相对文本的相似度矩阵,和文本相对图像的相似度矩阵。
2024-10-21 17:14:22
198
1
原创 [论文笔记] llama-factory 微调qwen2.5、llama3踩坑
【代码】[论文笔记] llama-factory 微调qwen2.5、llama3踩坑。
2024-10-18 12:21:58
1419
4
原创 [论文笔记] Megatron LM环境安装
概述:注意其他集群的TransformerEngine包,不可以直接搬运过来install,因为cmake文件有不同。。细节注意:安完环境时,重新启一个terminal测试——————————————————修改transformer_engine——————————————————————————————————————测试apex——————————————————————注意,安完apex的时候需要测试,能import amp_C才行!!如果⬆️安装成功, 就不用看下面的了。。
2024-10-15 15:39:28
682
原创 [linux] error: RPC failed; curl 56 GnuTLS recv error (-9): Error decoding the received TLS packet.e
error: RPC failed; curl 56 GnuTLS recv error (-9): Error decoding the received TLS packet. error: 5233 bytes of body are still expected fetch-pack: unexpected disconnect while reading sideband packet fatal: early EOF fatal: fetch-pack: invalid index-pack o
2024-10-15 15:20:38
943
原创 [论文笔记] llama3.2 蒸馏
软标签蒸馏(Soft Label Distillation)用教师模型的输出类别logit值/输出概率p(软标签)指导学生模型学习。使用温度系数 T 调节概率平滑,采用KL散度作为损失函数。硬标签蒸馏(Hard Label Distillation)用教师模型的预测类别标签(硬标签)训练学生模型。直接用交叉熵损失函数,简单但信息量较少。特征蒸馏(Feature Distillation)学生模型通过对齐教师模型的中间层特征来学习。更丰富的语义信息,适用于计算机视觉任务。
2024-10-15 14:53:33
937
1
原创 [linux] 报错ssh-add /root/.ssh/id_ed25519 Could not open a connection to your authentication agent.
说明 SSH 代理未启动或未正确配置。
2024-10-15 14:23:54
243
原创 [论文笔记] Let‘s Verify Step by Step
"Let's Verify Step by Step" 是 OpenAI 的一项研究,探讨如何通过过程监督(Process Supervision)和结果监督(Outcome Supervision)来提高大型语言模型在复杂多步推理任务中的可靠性。
2024-10-12 18:14:22
472
1
原创 Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
1. **背景**:大语言模型在解决复杂任务方面已经有了很大的进步,但在**推理**(即模型训练好之后的实际使用)阶段,通常只让模型尝试一次。论文提出,通过增加模型为同一个问题生成的**样本数量**(即多次运行模型),可以提高模型的表现。- **逻辑检查**:对于数学或推理类的问题,可以通过逻辑验证的方式来判断答案的合理性。总的来说,论文中的验证机制旨在提高生成解答的**精确度**,通过自动化的验证手段来帮助模型从多个候选答案中筛选出最优解。- **精度**:在生成的多个解答中,能否选出正确答案?
2024-09-30 01:47:18
215
原创 [论文笔记] LLaMA3.2
除了现有的支持文本的外,Llama 3.2 还支持多模式用例。现在,您可以在 Amazon Bedrock 中使用 Meta 中的四个新 Llama 3.2 模型(90B、11B、3B 和 1B)来构建、试验和扩展您的创意。——Meta 最先进的模型,非常适合企业级应用。该模型擅长常识、长文本生成、多语言翻译、编码、数学和高级推理。它还引入了图像推理功能,可以执行图像理解和视觉推理任务。该模型非常适合以下用例:图像字幕、图像文本检索、视觉基础、视觉问答和视觉推理以及文档视觉问答。
2024-09-27 15:08:39
567
1
原创 [论文笔记] Chain-of-Thought Reasoning without Prompting
模型首先识别出说话者有3个苹果,然后识别出爸爸比说话者多2个,即5个苹果,最后将这两个数量相加得到总数8个苹果。这个例子表明,通过探索替代的解码路径,我们可以从预训练的LLMs中提取出有用的推理链,即使没有明确的提示或问题构造。这个例子表明,通过探索替代的解码路径,我们可以从预训练的LLMs中提取出有用的推理链,即使没有明确的提示或问题构造。当然,以下是一个使用CoT(Chain-of-Thought)解码方式的例子,它展示了如何从预训练的大型语言模型(LLMs)中激发推理路径。
2024-09-26 15:57:32
392
原创 [论文笔记] UNDERSTANDING AND IMPROVING LEXICAL CHOICE IN NON-AUTOREGRESSIVE TRANSLATION理解和改进非自回归翻译中的词汇选择
知识蒸馏(Knowledge Distillation, KD)对于通过自回归教师模型简化原始数据来训练非自回归翻译(NAT)模型至关重要。研究发现,KD训练的副作用是将教师模型中的低频词词汇选择错误传播到NAT模型。为了解决这个问题,提出了一种方法,通过比较NAT模型和原始数据中嵌入的词汇选择,引入额外的Kullback-Leibler散度项,使NAT模型能够恢复在蒸馏数据中丢失的低频词有用信息。实验结果表明,该方法在不同的语言对和模型架构中都有效,能够显著提高NAT模型的性能。
2024-09-26 14:07:38
108
1
原创 [论文笔记] MIXTURE-OF-SKILLS: Learning to Optimize Data Usage for Fine-Tuning Large Language Models
尝试:根据当前策略尝试做菜(训练模型)。反馈:收集做菜的结果(模型表现)。分析:分析哪些食材(数据集)有用,哪些需要调整。调整:根据分析结果调整食材的使用策略(数据采样概率)。迭代:重复这个过程,直到找到最佳策略。通过这种动态调整和持续优化的方法,MOS能够有效地提升大型语言模型在特定任务上的性能。
2024-09-20 17:13:33
785
1
原创 [论文笔记] Skywork-Math: Data Scaling Laws for MathematicalReasoning in Large Language Models
本文研究了可能提升大型语言模型(LLM)数学推理能力的潜在因素。我们认为,
2024-09-10 10:51:20
268
1
原创 [论文笔记] LLM大模型剪枝篇——1、调研 LLM Pruning and Distillation in Practice: The Minitron Approach
作者是 Sharath Turuvekere Sreenivas, Saurav Muralidharan, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz 和 Pavlo Molchanov。论文发表于 2024 年 8 月 27 日,是关于如何通过剪枝和蒸馏技术压缩大型语言模型(LLM)的研究。
2024-09-07 22:32:52
239
1
原创 [linux] 报错 ModuleNotFoundError: No module named ‘llama‘
【代码】[linux] 报错 ModuleNotFoundError: No module named 'llama'
2024-09-06 17:05:04
852
原创 [论文笔记] LLM大模型剪枝篇——2、剪枝总体方案
2、对前N%冗余层,直接删除full layer。N=20(N:剪枝崩溃临界点,LLaMA2在45%,Mistral-7B在35%,Qwen在20%,Phi-2在25%)对后(P-N)%冗余层,删除attention layer。1、基于BI分数选择P%的冗余层,P=60~80。1、定向结构化剪枝:最优子结构。根据剪枝后效果决定是否修复训练。剪枝目标:1.5B —> 100~600M。
2024-09-06 11:59:38
460
1
原创 [论文笔记] Early Weight Averaging meets High Learning Rates for LLM Pre-training 早期大学习率的权重平均 加速收敛
问题背景:训练大语言模型非常耗时和昂贵。研究人员希望找到一种办法,能在保持训练预算不变的前提下,加快训练进度,同时提升模型的效果。主要策略:他们使用了权重平均的技巧,也就是定期对模型在不同时间点的参数进行平均,类似于给多个版本的模型做“投票”,来获得一个表现更好的最终版本。这种平均操作可以帮助模型更快地收敛,并提高最终的泛化能力(即模型在新数据上的表现)。学习率的影响:论文特别强调,在较高的学习率下,权重平均的效果更加显著,特别是当这些检查点之间的间隔较大时,模型能获得更大的提升。实验验证。
2024-09-04 15:48:25
139
1
原创 [论文笔记] t-SNE数据可视化
这张图展示了使用t-SNE算法对高维数据进行降维后的2D散点图。不同颜色的点代表不同类别的数据,展示了t-SNE如何在降维过程中尽可能保持数据点之间的距离关系。可以看到,部分数据点聚集得较为紧密,表示它们在高维空间中有相似的特征,而其他点分布较为分散。t-SNE是一种用于数据降维和可视化的技术,它的作用是将原本在高维空间中的复杂数据压缩到低维空间,同时尽可能保留数据点之间的距离关系。t-SNE算法将高维数据映射到2D空间后的坐标。
2024-09-04 15:12:11
574
1
原创 [论文笔记]大模型微调数据配比策略
1)【数据规模的影响】在数学推理和代码编写任务上,扩大训练数据量可以明显提高模型效果;2)【单一数据源vs混合数据源】数据总量比较小时,在数学推理、代码编写、通用问答三个任务上,混合数据源的效果优于单一数据源;3)【数据配比的影响】只有当异源数据在格式和内容上差异非常大时,数据配比几乎不产生负面影响,否则会降低两个任务上的效果;2)在第二阶段,使用部分数学、代码数据,并叠加全量的通用问答数据混合微调模型A,得到模型B;1)在第一阶段,使用数学和代码两个垂直领域的数据混合微调基座模型,得到模型A;
2024-09-04 14:39:02
1478
1
原创 [论文笔记] Cost-Effective Hyperparameter Optimization for Large Language Model Generation 大型语言模型生成推理超参优化
Chi Wang1, Susan Xueqing Liu2, Ahmed H. Awadallah11微软研究院,雷德蒙德2史蒂文斯理工学院 大型语言模型(LLMs)因其生成能力引发了广泛关注,催生了各种商业应用。使用这些模型的高成本驱使应用构建者在有限的推理预算下最大化生成的价值。本文研究了优化推理超参数的方法,如响应数量、温度和最大tokens,这些参数显著影响了文本生成的效用/成本。我们设计了一个名为EcoOptiGen的框架,该框架利用经济型超参数优化和基于成本的剪枝策略。我们在GP
2024-09-04 12:03:59
448
1
原创 [论文笔记]Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance 数据混合定律
这项研究为大型语言模型的预训练数据混合提供了一种新的定量优化方法,通过数据混合定律和预测管道,可以在不进行大规模训练的情况下预测和优化模型性能,这对于提高模型效率和降低计算成本具有重要意义。
2024-09-04 11:09:52
228
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人