just do it now-优快云博客

原创记录重要的NLP学习资源链接

整理一些NLP学习资源(不止NLP，本人主要关注NLP)，如果有更好的，欢迎分享^_^1. NLP 中文自然语言处理相关资料https://github.com/crownpku/Awesome-Chinese-NLPContents 列表1.Chinese NLP Toolkits 中文NLP工具 Toolkits 综合NLP工具包 Popular NL...

2019-02-17 17:22:55 1999

原创 WEBRL: TRAINING LLM WEB AGENTS VIA SELFEVOLVING ONLINE CURRICULUM REINFORCEMENTLEARNING

GLM-4-9B从6.1%提升至43%，显著超过GPT-4-Turbo（17.6%）和AutoWebGLM（18.2%）。：在WebArena-Lite上评估，涵盖OpenStreetMap、Reddit、GitLab等5个网站。Llama-3.1-8B通过WebRL训练后，成功率从4.8%提升至42.4%。ORM准确率达80%，优于GPT-4基线（71.9%）（表3）。：高性能网络代理通常依赖GPT-4等专有API，成本高。：网络任务通常为长周期，仅最终状态提供二元奖励信号。

2025-04-17 10:58:22 440

原创 Agent：PLAN-AND-ACT: Improving Planning of Agents for Long-Horizon Tasks

该论文也就是验证了一个大家应该都能想到的一个结论，就是agent做一个任务，是一次性plan好所有步骤效果好，还是一步一步的plan效果好，那当然是一步一步的plan好，每一步的action都会对下一步plan有影响，结合上一步的action结果进行再次plan，会纠正下一步的动作。来看下论文怎么验证的。

2025-04-17 10:39:20 1262

原创 Scalable-Softmax提升长上下文注意力

Transformer模型依赖Softmax计算注意力分数，但随着上下文长度增加，Softmax的输出分布会变得平缓（称为“注意力衰减”），导致模型难以聚焦关键信息，限制长度泛化能力。SSMax 是 Softmax 的改进版本，旨在解决传统 Softmax 在输入向量大小 nn（即上下文长度）增加时，注意力分数趋于平缓的问题。：传统Softmax在输入向量大小（即上下文长度）增加时，其输出的最大值趋近于零，使得注意力分布过于均匀，无法有效区分重要信息。

2025-04-08 16:45:40 619

原创 DAPO-Decoupled Clip and Dynamic sAmpling Policy Optimization

在长链推理（long-CoT）场景中，传统的GRPO算法使用样本级（sample-level）损失计算，即先对每个样本内的token损失求平均，再对所有样本的损失求平均。通过动态采样、Clip-Higher等策略，模型在AIME 2024竞赛中取得了50分的成绩，超过了DeepSeek的47分，且仅使用了50%的训练步数。：在RL训练中，某些提示（prompt）的所有输出可能都是正确的（奖励为1）或错误的（奖励为-1），导致这些样本的梯度为零，无法有效更新模型。机制，对过长样本的惩罚进行平滑处理。

2025-03-19 21:05:33 1180

原创 CPO算法-Contrastive Preference Optimization: Pushing the Boundaries of LLMPerformance in Machine Tran

对比偏好优化（CPO）是一种高效的训练方法，通过对比学习的方式，帮助模型生成更高质量的翻译，并避免生成次优翻译。CPO在内存和计算效率上进行了优化，适用于中等规模的LLMs，并且在多个翻译任务中取得了显著的性能提升。未来，CPO有望在更多自然语言处理任务中得到应用。

2025-03-04 20:32:08 1150

原创 SimPO算法-Simple Preference Optimizationwith a Reference-Free Reward

SimPO

2025-03-04 15:18:12 1107

原创强化学习框架verl

在训练和生成阶段，3D-HybridEngine 使用不同的三维并行配置，包括：流水线并行（PP）、张量并行（TP）和数据并行（DP）的大小。训练阶段的并行配置为 𝑝-𝑡-𝑑。在生成阶段，我们新增一个新的微数据并行组（Micro DP Group，𝑑𝑔），用于处理 Actor 模型参数和数据的重组。生成阶段的并行配置为 𝑝𝑔-𝑡𝑔-𝑑𝑔-𝑑。

2025-02-26 17:29:35 1442

原创 DPO PPO算法

PPO和DPO是两种不同的强化学习算法，分别适用于在线学习和离线偏好学习的场景。PPO通过限制策略更新的幅度来确保训练的稳定性，而DPO通过直接优化策略来匹配人类偏好。两者在优化目标和数据来源上存在显著差异，但都属于策略优化的范畴。

2025-02-20 20:33:49 1428

原创 DeepSeek-R1 蒸馏数据的生成

为了提高生成数据的可读性，研究人员设计了可读的输出格式，并在每个响应的末尾添加了总结部分，帮助用户快速理解推理结果。对于复杂的非推理任务（如写作或事实问答），研究人员调用DeepSeek-V3生成潜在的推理链，然后再生成最终答案。：数据集包括推理任务和非推理任务，涵盖了数学、编码、科学推理、逻辑推理、写作、事实问答、自我认知、翻译等多个领域。过滤掉不符合要求的输出，例如语言混合、长段落、代码块等，只保留正确的推理轨迹。：非推理数据的格式相对简单，通常直接生成答案，而不需要复杂的推理过程。

2025-02-05 14:52:55 1447 1

原创 DeepSeek-R1-GRPO理解

例如数学问题求解、代码生成、逻辑推理等。

2025-01-21 14:31:17 11856

原创 DeepSeek-R1 论文解读

作者展示了通过大规模强化学习（RL）可以显著提升模型的推理能力，即使不使用监督微调（SFT）作为冷启动。进一步地，加入少量冷启动数据可以进一步提升性能。：直接在基础模型上应用RL，无需任何SFT数据。：从经过数千个长链推理（CoT）示例微调的检查点开始应用RL。蒸馏：将DeepSeek-R1的推理能力蒸馏到小型密集模型中。

2025-01-21 13:54:11 18541 6

原创 pre-training、inference、post-training 三者关系

2025-01-21 10:40:23 605

原创 DeepSeek-V3 技术报告

每个路由专家都有一个中心向量eiei，它是一个与token输入表示维度相同的向量。中心向量可以理解为专家的“特征表示”，用于衡量token与该专家的匹配程度。

2025-01-15 20:17:20 2185

原创 The Lessons of Developing Process Reward Modelsin Mathematical Reasoning

硬标签是。

2025-01-15 20:16:03 735

原创 REFT: Reasoning with REinforced Fine-Tuning

具体来说，模型通过反复生成多种可能的CoT推理路径，还有一个评估器，专门评估响应的答案正确性，生成reward信号反馈。从结果上看，ReFT在所有数据集上都显示出比SFT更好的性能，特别是在CodeLLAMA模型上，ReFT在GSM8K数据集上的准确率比SFT提高了近10个百分点。在预热阶段之后，模型进入强化学习阶段，这个阶段使用PPO（Proximal Policy Optimization）算法来进一步提升模型的性能。这一阶段使用包含“Question”和“Answer”元组（x，y）组成的数据集。

2024-12-13 14:50:56 307

原创 TÜLU 3: Pushing Frontiers inOpen Language Model Post-Training

为确保有效性，他们进行了全面的实验，研究它们对评估套件的影响。为了评估 Tülu 3 以及其它模型，Ai2 设计了一套评估框架，其中包含一个用于可重复评估的开放评估工具包、一套用于评估指令微调模型的核心技能的套件（具有分立的开发和留存评估），以及一组推荐设置（基于 Ai2 对各种模型的实验）——Ai2 称之为 Tülu 3 Evaluation Regime。在评估框架指导下，他们通过全面的实验，确定最终的 SFT 数据和训练超参数，以增强目标核心技能，同时不对其他技能的性能产生重大影响。

2024-12-13 14:49:43 885

原创 Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

论文标题：Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions 论文链接：https://arxiv.org/pdf/2411.14405 项目地址：https://github.com/AIDC-AI/Marco-o1 虽然 o1 模型在 AIME 和 CodeForces 等测试中都展示了强大的推理能力，但 Marco-o1 的目标是超越结构化挑战，实现跨多个领域的泛化，特别是在那些没有严格评

2024-12-06 14:31:39 649

原创千万级指令微调数据集Infinity-Instruct，Llama3.1仅微调即可接近GPT-4

指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题，智源研究院推出了千万级指令微调数据集Infinity Instruct。该数据集今年6月发布，近日完成了新一轮迭代，包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。Infinity-Instruct-7M包含744万条数学、代码、常识问答等领域的基础指令数据，用于进一步全面提升预训练模型的基础能力。

2024-08-29 16:47:17 1363

转载 LIMA: Less Is More for Alignment

1.LLM的训练分为两个阶段(1)对raw text进行无监督的预训练，以学习通用的表示；(2)大规模的指令微调和强化学习，以更好地对齐最终任务和用户偏好。2.通过训练LIMA来衡量预训练和指令微调这两个阶段的相对重要性。LIMA只在1k 个精心挑选的提示和响应(prompts and responses)上进行标准监督损失的微调，没有任何强化学习或人类偏好建模。3.LIMA表现出强大的性能，能够从训练数据中的少量示例中学习遵循特定的响应格式，包括从规划旅行路线到推测历史交替的复杂查询。

2024-08-22 22:00:30 326

原创大模型 VS 小模型

诚然，大模型的出现，解决了困扰 nlp 多年的指代消解、多轮理解、对话人设等瓶颈，但小模型的信息压缩、特征抽取等依然是非常有意义的。我们在工作中，还是应该多考虑一下能不能用小模型来解决问题，找找我们的老朋友 BERT，而不是二话不说就打开 GPT4 写 prompt。祖宗之法不可丢，NLPer 不能是一个只会写 prompt 和分析数据质量的同学！

2024-08-22 18:45:27 931

原创小钢炮MiniCPM是如何炼成的？-面壁智能智源大会

10:1steps，退火阶段需要更高质量的数据。

2024-06-23 21:48:39 353

原创大语言模型预训练的效率优化-百川智源大会

2024-06-23 21:19:36 150

原创大语言模型知识机理与编辑问题 | 张宁豫 | 浙江大学副教授

2024-06-16 20:58:59 405

原创 ModuleNotFoundError: No module named ‘fused_layer_norm_cuda‘

按照以下方式安装，可解决问题。

2023-04-22 16:30:01 1405

转载大语言模型增强传统推荐的全新范式-Chat-REC

当遇到新的物品推荐时，计算物品嵌入与用户请求和偏好的嵌入之间的相似性，然后根据相似性检索最相关的物品信息，并构建一个提示输入到 ChatGPT 进行推荐，如图 3 的下半部分所示。除了一个领域的目标产品，如电影，LLMs 不仅对许多其他领域的产品有广泛的了解，如音乐和书籍，而且还了解上述各领域的产品之间的关系。左边的对话显示，当用户询问为什么推荐这部电影时，LLM 可以根据用户的喜好和推荐电影的。1. 用户与物品的历史交互，指的是用户过去与物品的互动，比如他们点击过的物品，购买过的物品，或者评价过的物品。

2023-04-09 18:38:31 588

原创 GPT BERT等模型如何添加新的token

这个方法是借助huggingface的transformer库进行实现，其中model可以为huggingface支持的任何一个模型，如bert，gpt，robert等，tokenizer可以为BertTokenizer GPT2Tokenizer 等。第二步：对模型token embedding 矩阵进行修改，大小由(voc_size, emd_size)改为添加新词后的大小(voc_size+new_token_num, emd_size)，具体实现见以下代码。下面看看是如何进行添加的。

2023-02-22 18:30:29 2563

原创 WIN10点击任务栏资源管理器报错：该文件没有与之关联的应用来执行操作。请安装应用，若已安装应用，请在”默认应用设置“页面中创建关联。

有一天莫名其妙的，任务栏上的文件资源管理器就打不开了，看了很多方法，就下面这个管用，特此拿来分享。

2023-02-14 22:36:22 4003

原创 Transformer 训练优化

深度学习中的一个众所周知的事实是，网络的底层学习输入数据的通用特征，而网络顶层学习目标任务特定的高级特征，所以在对预训练模型进行微调时，一般网络底层的参数都不怎么需要变，这些都是通用的知识，需要学习的是顶层的那些参数，当使用某种优化算法（如 SGD、AdamW 或 RMSprop）执行优化步骤时，网络的底层的梯度就都很小，因此参数几乎保持不变，这也被称为梯度消失，因此，与其花费大量的时间和算力来计算底层这些“无用”梯度，并对此类梯度很小的参数进行优化，不如直接冻结它们，直接不计算梯度也不进行优化。

2022-12-09 10:46:50 2787

原创 PyTorch分布式训练

0。

2022-10-23 10:57:47 5463 1

转载如何向大模型注入知识？-阿里达摩院出品

机器之心专栏作者：李永彬、惠彬原、黄非团队：达摩院-自然语言-对话智能团队SPACE-1：注入对话策略知识，AAAI 2022 长文录用；SPACE-2：注入对话理解知识，COLING 2022 长文录用，并获 best paper award 推荐；SPACE-3：集对话理解 + 对话策略 + 对话生成于一体的模型， SIGIR 2022 长文录用。达摩院对话大模型 SPACE-1/2/3 在 11 个国际对话数据集取得 SOTA。图 1 SPACE 系列模型在 11 个国际对话数据集取得 SOTA，包含

2022-10-14 15:11:07 1332

原创机器学习可解释性框架

它提供全方位可解释的人工智能和可解释的机器学习能力来解决实践中机器学习模型在产生中需要判断的几个问题。对于需要在ML过程的各个阶段解释各种类型的数据、模型和解释技术的数据科学家、ML研究人员，OmniXAI希望提供一个一站式的综合库，使可解释的AI变得简单。InterpretML展示了两种类型的可解释性：glassbox模型——为可解释性设计的机器学习模型（如：线性模型、规则列表、广义可加模型）和黑箱可解释性技术——用于解释现有系统（如：部分依赖，LIME）。在可解释性领域，最早出名的方法之一是LIME。

2022-10-09 11:16:37 707

转载模型概率后校验方法

那么，为什么深度学习模型经常出现预测概率和真实情况差异大的问题？又该如何进行校准呢？这篇文章首先给大家介绍模型输出预测概率不可信的原因，再为大家通过10篇顶会论文介绍经典的校准方法，可以适用于非常广泛的场景。最早进行系统性的分析深度学习输出概率偏差问题的是2017年在ICML发表的一篇文章On calibration of modern neural networks（ICML 2017）。文中发现，相比早期的简单神经网络模型，现在的模型越来越大，效果越来越好，但同时模型的校准性越来越差。文中对比了简单模型

2022-09-29 18:31:05 1843

转载 AI论文Mark

文字生成图片，但是个性化预训练语言图像模型在视频识别中的应用扩散生成模型的原理是？int8 加速大语言模型推理，性能无损！低资源下使用分散式数据蒸馏进行联邦学习PeRFception：感知任务大规模隐式数据集用图像来训练视频分割模型，MinVIS 减少了标注和内存成本SawSing：一种歌声合成声码器模型机器人的公园漫步LCCDE：自动驾驶系统中的网络安全守护者。

2022-09-09 13:51:43 319

转载梯度下降的可视化解释(Adam，AdaGrad，Momentum，RMSProp)

在一个表面上动画演示5个梯度下降法: 梯度下降(青色) ，momentum(洋红色) ，AdaGrad (白色) ，RMSProp (绿色) ，Adam (蓝色)。左坑是全局极小值，右坑是局部极小值在这篇文章中，我用了大量的资源来解释各种梯度下降法（gradient descents），想直观地介绍一下这些方法是如何工作的。......

2022-08-16 11:09:26 507

原创基于布朗运动的文本生成方法-LANGUAGE MODELING VIA STOCHASTIC PROCESSES

本篇文章可谓是开放域对话的又一开山制作，众所周知，开放域对话是无状态的，不能像任务式对话那样进行状态的追踪，也即不可控性。本文则提出了一种基于布朗桥的文本生成方法，对对话过程进行编码，构建布朗桥来控制对话的过程。首先训练一个编码器，将句子从文本空间X映射到隐空间Z, 记为f：X->Z。在隐空间中的移动轨迹应遵循布朗桥运动。也就是说，该轨迹的起点和终点固定，设为z0和zT则在时间点 t 时, zt 服从以下正态分布：其均值是z0和zT之间随时间变化的线性插值。方差部分，可以直观

2022-08-04 11:26:35 440

原创入门cv必读的10篇baseline论文

NIPS-2012，Alexnet：深度学习CV领域划时代论文，具有里程碑意义《ImageNet Classification with Deep Convolutional Neural Networks》ICLR-2015，VGG net：开启3*3卷积堆叠时代《Very Deep Convolutional Networks for Large-Scale Image Recognition》CVPR-2015，googlenet v1:Google系列论文开创论文，提出多尺度卷积模.

2022-08-04 09:24:31 1724

转载 MarkBERT

MarkBERT一句话概述在Token中加入你感兴趣的词的边界标记。MarkBERT不是基于词的BERT，依然是基于字，但巧妙地将信息融入模型。这样可以统一处理任意词，无论是不是OOV。另外，MarkBERT还有两个额外的好处首先，在边界标记上添加单词级别的学习目标很方便，这是对传统字符和句子级预训练任务的补充；其次，可以通过用POS标签特定的标记替换通用标记来轻松合并更丰富的语义。...

2022-07-28 15:27:10 587 3

原创开源数据标注工具

目前来看要做中文领域事件抽取样本标注，可选用的是YEDDA和BRAT。笔者已经使用过BRAT来进行事件抽取标注了，后续针对BRAT的使用方法会专门出一期文章。

2022-07-28 15:12:24 2369

原创 DialogRPT-Dialog Ranking Pretrained Transformers

　　寻找合适的人类反馈数据　　想要得这样的机器人，首先需要通过合适的数据了解人类的偏好。这样的数据应该是一对多的聊天形式，即在同一个聊天场景下有多条回复，每个回复有反应其受欢迎程度的指标，表示该回复所收到的反馈的热烈程度。　　然而，直接收集一对多的聊天数据并雇佣人类进行标注费时耗力。况且反馈热烈程度的标注不是一位标注者就可以的，而需要多人进行投票。同时，其他常规的可以自动计算的质量评测指标，如词语多样性等，也并不能反映人类的偏好程度。　图1：社交媒体中帖子的回复的树状结构。有三个可以衡量的人类反馈程度的指标

2022-07-25 18:15:22 932

李宏毅助教姜同学讲解GNN.pdf

MarkBERT论文 Marking Word Boundaries Improves Chinese BERT

深度学习笔记-数学基础.pdf

上海交大-中国人工智能医疗白皮书107页.pdf

五道经典编程试题.pdf

计算机网络课后答案 计算机网络课后答案

实用软件工程 第2版 课件

空空如也

计算机网络课后答案计算机网络课后答案

实用软件工程第2版课件