心心喵
这个作者很懒,什么都没留下…
展开
-
[论文笔记] Deepseek技术报告解读: MLA&MTP
Deepseek技术报告解读: MLA&MTP原创 2025-04-02 16:52:46 · 147 阅读 · 0 评论 -
[论文笔记] GRPO & DPO
GRPO 和 DPO 都依赖于成对的偏好数据 (pairwise preference data),其中包含一个“更好”(preferred)的样本 A+ 和一个“较差”(dispreferred)的样本 A−,通常来源于模型生成的多个候选结果,由人工或规则标注优劣。Dkl(πθ||πref)是模型 πθ 与参考模型 πref之间的 KL 散度,控制模型偏离程度。GRPO 对 DPO 进行扩展,引入 KL 正则项,以更灵活地控制模型的生成质量。直接优化模型,使其偏向人类偏好的样本,而远离不符合偏好的样本。原创 2025-02-07 11:06:22 · 620 阅读 · 0 评论 -
[论文笔记] Deepseek-R1&R1-zero技术报告阅读
背景与目标报告聚焦于利用强化学习(RL)提升大型语言模型(LLMs)的推理能力,旨在探索在不依赖大规模监督微调(SFT)的情况下,模型如何自我进化并形成强大的推理能力。(纯 RL,无 SFT 冷启动数据)和(在 RL 前加入少量冷启动数据和多阶段训练流程,提升可读性及推理表现)。核心思路直接在基础模型上应用大规模强化学习,利用规则设计的奖励机制(包括准确性奖励和格式奖励)激励生成长链思维(CoT)。通过拒绝采样和后续的监督微调,进一步改善模型输出的可读性和对齐人类偏好。原创 2025-02-05 20:09:04 · 1147 阅读 · 0 评论 -
[论文笔记] 中文推理评估类测试集
地址:https://github.com/Chenny0808/ape210k。原创 2024-12-24 15:44:10 · 84 阅读 · 0 评论 -
[论文笔记] 从生成到评估:LLM-as-a-judge 的机遇与挑战
论文提出了一个全面的分类框架,分为以下三个维度:原创 2024-12-24 11:04:19 · 452 阅读 · 0 评论 -
[论文笔记] 近线生成 和 在线生成
指在请求到达之前,通过提前生成可能需要的数据或答案,并将其缓存,待请求到来时直接使用或快速调整。这种方式通常结合模型离线计算和缓存策略使用。原创 2024-12-03 16:03:33 · 77 阅读 · 0 评论 -
[论文笔记] Pangea:完全开放的多语言多模式法学硕士,涵盖 39 种语言
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages1. 背景与目的Pangea 旨在开发一个支持 39 种语言的完全开源多语言、多模态大模型 (MLLM),弥补语言技术领域的资源不均问题,特别是低资源语言的不足。目标是为多语言、多模态研究提供开放的工具和数据集,以促进语言包容性和公平性。2. 模型架构:Pangea-7BPangea-7B 是一个拥有 70 亿参数的语言模型,能够处理文本和图像的多模态输入。这使得它原创 2024-11-01 15:20:53 · 158 阅读 · 0 评论 -
[论文笔记] bleu值的计算方式
然后用这个命令就行,ref是正确答案,cand是模型预测的答案。原创 2024-10-31 15:22:56 · 140 阅读 · 0 评论 -
[论文笔记] 大模型评测:lm-evaluation-harnessPublic(eval-big-refactor)
1、添加SeaExam中的m3exam和mmlu测试集。英语+东南亚语:SeaLLMs/SeaExam。原创 2024-10-28 15:55:31 · 211 阅读 · 0 评论 -
[论文笔记] llama factory 跑LLama3.2 SFT config报错
【代码】[论文笔记] llama factory 跑LLama3.2 SFT config报错。原创 2024-10-22 15:41:46 · 408 阅读 · 0 评论 -
[论文笔记] CLIP(Contrastive Language-Image Pre-Training)
Transformer: 这部分NLP选手应该很熟悉,CV选手简单了解下,首先文本经过tokenize得到一个新的张量,比如 [“a diagram”, “a dog”, “a cat”] ,经过tokenize得到的(3,77)的张量,经过一个embeding层得到(3,77,512)的tensor,添加位置编码(nn.Parameter)后送入模型,最后模型输出的到(1,512)的特征。分别获得特征后,将两个特征进行余弦相似度计算,分别获得图像相对文本的相似度矩阵,和文本相对图像的相似度矩阵。原创 2024-10-21 17:14:22 · 198 阅读 · 0 评论 -
[论文笔记] llama-factory 微调qwen2.5、llama3踩坑
【代码】[论文笔记] llama-factory 微调qwen2.5、llama3踩坑。原创 2024-10-18 12:21:58 · 1430 阅读 · 3 评论 -
[论文笔记] Megatron LM环境安装
概述:注意其他集群的TransformerEngine包,不可以直接搬运过来install,因为cmake文件有不同。。细节注意:安完环境时,重新启一个terminal测试——————————————————修改transformer_engine——————————————————————————————————————测试apex——————————————————————注意,安完apex的时候需要测试,能import amp_C才行!!如果⬆️安装成功, 就不用看下面的了。。原创 2024-10-15 15:39:28 · 687 阅读 · 0 评论 -
[linux] error: RPC failed; curl 56 GnuTLS recv error (-9): Error decoding the received TLS packet.e
error: RPC failed; curl 56 GnuTLS recv error (-9): Error decoding the received TLS packet. error: 5233 bytes of body are still expected fetch-pack: unexpected disconnect while reading sideband packet fatal: early EOF fatal: fetch-pack: invalid index-pack o原创 2024-10-15 15:20:38 · 949 阅读 · 0 评论 -
[论文笔记] llama3.2 蒸馏
软标签蒸馏(Soft Label Distillation)用教师模型的输出类别logit值/输出概率p(软标签)指导学生模型学习。使用温度系数 T 调节概率平滑,采用KL散度作为损失函数。硬标签蒸馏(Hard Label Distillation)用教师模型的预测类别标签(硬标签)训练学生模型。直接用交叉熵损失函数,简单但信息量较少。特征蒸馏(Feature Distillation)学生模型通过对齐教师模型的中间层特征来学习。更丰富的语义信息,适用于计算机视觉任务。原创 2024-10-15 14:53:33 · 939 阅读 · 0 评论 -
[论文笔记] Let‘s Verify Step by Step
"Let's Verify Step by Step" 是 OpenAI 的一项研究,探讨如何通过过程监督(Process Supervision)和结果监督(Outcome Supervision)来提高大型语言模型在复杂多步推理任务中的可靠性。原创 2024-10-12 18:14:22 · 472 阅读 · 0 评论 -
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
1. **背景**:大语言模型在解决复杂任务方面已经有了很大的进步,但在**推理**(即模型训练好之后的实际使用)阶段,通常只让模型尝试一次。论文提出,通过增加模型为同一个问题生成的**样本数量**(即多次运行模型),可以提高模型的表现。- **逻辑检查**:对于数学或推理类的问题,可以通过逻辑验证的方式来判断答案的合理性。总的来说,论文中的验证机制旨在提高生成解答的**精确度**,通过自动化的验证手段来帮助模型从多个候选答案中筛选出最优解。- **精度**:在生成的多个解答中,能否选出正确答案?原创 2024-09-30 01:47:18 · 215 阅读 · 0 评论 -
[论文笔记] LLaMA3.2
除了现有的支持文本的外,Llama 3.2 还支持多模式用例。现在,您可以在 Amazon Bedrock 中使用 Meta 中的四个新 Llama 3.2 模型(90B、11B、3B 和 1B)来构建、试验和扩展您的创意。——Meta 最先进的模型,非常适合企业级应用。该模型擅长常识、长文本生成、多语言翻译、编码、数学和高级推理。它还引入了图像推理功能,可以执行图像理解和视觉推理任务。该模型非常适合以下用例:图像字幕、图像文本检索、视觉基础、视觉问答和视觉推理以及文档视觉问答。原创 2024-09-27 15:08:39 · 570 阅读 · 0 评论 -
[论文笔记] Chain-of-Thought Reasoning without Prompting
模型首先识别出说话者有3个苹果,然后识别出爸爸比说话者多2个,即5个苹果,最后将这两个数量相加得到总数8个苹果。这个例子表明,通过探索替代的解码路径,我们可以从预训练的LLMs中提取出有用的推理链,即使没有明确的提示或问题构造。这个例子表明,通过探索替代的解码路径,我们可以从预训练的LLMs中提取出有用的推理链,即使没有明确的提示或问题构造。当然,以下是一个使用CoT(Chain-of-Thought)解码方式的例子,它展示了如何从预训练的大型语言模型(LLMs)中激发推理路径。原创 2024-09-26 15:57:32 · 392 阅读 · 0 评论 -
[论文笔记] UNDERSTANDING AND IMPROVING LEXICAL CHOICE IN NON-AUTOREGRESSIVE TRANSLATION理解和改进非自回归翻译中的词汇选择
知识蒸馏(Knowledge Distillation, KD)对于通过自回归教师模型简化原始数据来训练非自回归翻译(NAT)模型至关重要。研究发现,KD训练的副作用是将教师模型中的低频词词汇选择错误传播到NAT模型。为了解决这个问题,提出了一种方法,通过比较NAT模型和原始数据中嵌入的词汇选择,引入额外的Kullback-Leibler散度项,使NAT模型能够恢复在蒸馏数据中丢失的低频词有用信息。实验结果表明,该方法在不同的语言对和模型架构中都有效,能够显著提高NAT模型的性能。原创 2024-09-26 14:07:38 · 109 阅读 · 0 评论 -
[论文笔记] 多语言配比的自动化超参搜索
【代码】[论文笔记]原创 2024-09-24 19:17:10 · 268 阅读 · 0 评论 -
[论文笔记] LLM大模型清洗篇——1、规则清洗&去重&模型清洗
gopher、C4、Fineweb 论文的规则。原创 2024-09-13 16:40:56 · 291 阅读 · 0 评论 -
[论文笔记] LLM多语言 计算bleu的规范
【代码】[论文笔记]原创 2024-09-13 16:19:16 · 171 阅读 · 0 评论 -
[论文笔记] LLM端侧小模型篇——1、剪枝量化的latency
MLC-LLM:编译器方式推理,跨平台可用推理框架。原创 2024-09-13 15:50:25 · 278 阅读 · 0 评论 -
[论文笔记] LLM大模型剪枝篇——4、Qwen2系列剪枝实现
【代码】[论文笔记]原创 2024-09-12 18:57:53 · 1013 阅读 · 0 评论 -
[论文笔记] Skywork-Math: Data Scaling Laws for MathematicalReasoning in Large Language Models
本文研究了可能提升大型语言模型(LLM)数学推理能力的潜在因素。我们认为,原创 2024-09-10 10:51:20 · 270 阅读 · 0 评论 -
[论文笔记] LLM大模型剪枝篇——1、调研 LLM Pruning and Distillation in Practice: The Minitron Approach
作者是 Sharath Turuvekere Sreenivas, Saurav Muralidharan, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz 和 Pavlo Molchanov。论文发表于 2024 年 8 月 27 日,是关于如何通过剪枝和蒸馏技术压缩大型语言模型(LLM)的研究。原创 2024-09-07 22:32:52 · 239 阅读 · 0 评论 -
[论文笔记] LLM大模型剪枝篇——2、剪枝总体方案
2、对前N%冗余层,直接删除full layer。N=20(N:剪枝崩溃临界点,LLaMA2在45%,Mistral-7B在35%,Qwen在20%,Phi-2在25%)对后(P-N)%冗余层,删除attention layer。1、基于BI分数选择P%的冗余层,P=60~80。1、定向结构化剪枝:最优子结构。根据剪枝后效果决定是否修复训练。剪枝目标:1.5B —> 100~600M。原创 2024-09-06 11:59:38 · 461 阅读 · 0 评论 -
[论文笔记] Early Weight Averaging meets High Learning Rates for LLM Pre-training 早期大学习率的权重平均 加速收敛
问题背景:训练大语言模型非常耗时和昂贵。研究人员希望找到一种办法,能在保持训练预算不变的前提下,加快训练进度,同时提升模型的效果。主要策略:他们使用了权重平均的技巧,也就是定期对模型在不同时间点的参数进行平均,类似于给多个版本的模型做“投票”,来获得一个表现更好的最终版本。这种平均操作可以帮助模型更快地收敛,并提高最终的泛化能力(即模型在新数据上的表现)。学习率的影响:论文特别强调,在较高的学习率下,权重平均的效果更加显著,特别是当这些检查点之间的间隔较大时,模型能获得更大的提升。实验验证。原创 2024-09-04 15:48:25 · 139 阅读 · 0 评论 -
[论文笔记] t-SNE数据可视化
这张图展示了使用t-SNE算法对高维数据进行降维后的2D散点图。不同颜色的点代表不同类别的数据,展示了t-SNE如何在降维过程中尽可能保持数据点之间的距离关系。可以看到,部分数据点聚集得较为紧密,表示它们在高维空间中有相似的特征,而其他点分布较为分散。t-SNE是一种用于数据降维和可视化的技术,它的作用是将原本在高维空间中的复杂数据压缩到低维空间,同时尽可能保留数据点之间的距离关系。t-SNE算法将高维数据映射到2D空间后的坐标。原创 2024-09-04 15:12:11 · 578 阅读 · 0 评论 -
[论文笔记] Cost-Effective Hyperparameter Optimization for Large Language Model Generation 大型语言模型生成推理超参优化
Chi Wang1, Susan Xueqing Liu2, Ahmed H. Awadallah11微软研究院,雷德蒙德2史蒂文斯理工学院 大型语言模型(LLMs)因其生成能力引发了广泛关注,催生了各种商业应用。使用这些模型的高成本驱使应用构建者在有限的推理预算下最大化生成的价值。本文研究了优化推理超参数的方法,如响应数量、温度和最大tokens,这些参数显著影响了文本生成的效用/成本。我们设计了一个名为EcoOptiGen的框架,该框架利用经济型超参数优化和基于成本的剪枝策略。我们在GP原创 2024-09-04 12:03:59 · 449 阅读 · 0 评论 -
[论文笔记]Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance 数据混合定律
这项研究为大型语言模型的预训练数据混合提供了一种新的定量优化方法,通过数据混合定律和预测管道,可以在不进行大规模训练的情况下预测和优化模型性能,这对于提高模型效率和降低计算成本具有重要意义。原创 2024-09-04 11:09:52 · 228 阅读 · 0 评论 -
[论文笔记] LLM大模型剪枝篇——1、调研
LLaMA2在剪枝时,跳过ffn和跳过full layer的效果差不多。相比跳过ffn/full layer,跳过attention layer的影响会更小。跳过attention layer:7B/13B从100%参数剪枝到66%,平均指标只下降1.7~1.8pp。跳过ffn:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~15.1pp。跳过full later:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~13pp。原创 2024-09-02 16:05:33 · 611 阅读 · 0 评论 -
[论文笔记] LLaVA
把 Image + Instruction 给到 LLaVA,把 GT 的 Image description 和 Instruction 给到 Text-only 的 GPT-4。如图中所示,对于每张图片都会生成一份多轮对话数据,包含 query 和 answer 部分,整体组织成一个序列 (q1, a1, q2, a2, qT, aT),所有的 answer 作为模型回答,第一轮指令随机选择 (q1, 图片) 或者 (图片, q1),后面就直接使用对应轮次 qT 了。Projection:使用。原创 2024-09-02 15:48:57 · 470 阅读 · 0 评论 -
[论文笔记] LLM数据集——LongData-Corpus
在开发机上要设置ssh key,然后cat复制之后在设置在hf上。原创 2024-08-27 11:07:27 · 190 阅读 · 0 评论 -
[论文笔记] LLM-ICL论文:AI模型对prompt格式&分隔符的敏感性——结构化Prompt格式
又见惊雷,结构化Prompt格式小小变化竟能让LLM性能波动高达76%,ICLR2024原创 2024-08-27 10:55:57 · 326 阅读 · 0 评论 -
[论文笔记] LLM-ICL可解释论文:标签词是锚点:理解语境学习的信息流视角 Label Words are Anchors
研究发现,在示例中,标签词(label words)起着锚点的作用。总的来说,这篇论文通过信息流的视角深入分析了上下文学习的工作机制,并基于此提出了一系列创新的应用方法,这些方法不仅提高了模型的性能,还增强了模型的可解释性和效率。:为了量化信息流,论文设计了两个基于显著性得分的指标(Swp 和 Spq),分别衡量从文本部分到标签词以及从标签词到目标位置的信息流的重要性。:论文的结论不仅为理解大型语言模型中的上下文学习提供了新的视角,而且为未来的研究开辟了新的方向,特别是在提高透明度和效率方面。原创 2024-08-27 10:46:18 · 817 阅读 · 1 评论 -
[论文笔记] megatron 大模型超参搜索pipeline
【代码】[论文笔记] 超参搜索。原创 2024-08-26 17:12:36 · 393 阅读 · 0 评论 -
[论文笔记] megatron提交训练脚本报错 in validate_args assert args.micro_batch_size is not None
集群比较特殊,在data config传参的时候,不能换行。原创 2024-08-26 14:27:40 · 138 阅读 · 0 评论 -
[论文笔记] smolLM python-edu下载 / AWS下载 / The Stack V2下载 /Boto3 Error: botocore.exceptions.NoCredentialsE
【代码】[论文笔记] smolLM下载。原创 2024-08-26 14:03:40 · 526 阅读 · 0 评论