华师数据学院·王嘉宁-优快云博客

目前大模型和ChatGPT的发展迅速，NLP算法的技术更新快速，网上涌现出大量关于大模型、NLP、算法等相关博客、公众号文章以及学术论文。资料内每个PDF文件都会有作者和购买者的水印以便追踪版权所有者和使用者，因此，请勿将资料和密码分享给他人，或上传至互联网并公开。博主整理了共计13个大类知识体系，并汇总了一份完整的电子书，另外附赠大模型/NLP算法工程师求职用的算法题和面经，以及一些工具的使用。呈现给各位读者用户，方便全面系统的掌握NLP的基础知识、算法、大模型等内容。

2023-06-29 23:50:29 3181 5

原创详谈大模型训练和推理优化技术

本文介绍大模型的训练和推理优化技术，包括混合精度训练、分布式训练DeepSpeed、INT8模型量化、参数有效性学习、混合专家训练、梯度检查点、梯度累积、Flash Attention等。

2023-05-19 18:03:31 17340 3

原创 HugNLP发布，集成多种NLP任务，可训ChatGPT类模型

HugNLP框架发布，集成大量NLP任务，可训练ChatGPT类模型，开源地址：https://github.com/HugAILab/HugNLP

2023-05-08 10:49:02 733

原创 Prompt-Tuning——深度解读一种新的微调范式

Prompting——深度解读一种全新的微调范式自从GPT、EMLO、BERT的相继提出，以Pre-training + Fine-tuning 的模式在诸多自然语言处理（NLP）任务中被广泛使用，其先在Pre-training阶段通过一个模型在大规模无监督语料上预先训练一个预训练语言模型（Pre-trained Language Model，PrLM），然后在Fine-tuning阶段基于训练好的语言模型在具体的下游任务上再次进行微调（Fine-tuning），以获得适应下游任务的模型。这种模式在诸

2021-11-19 17:38:33 77694 76

原创基于深度学习的命名实体识别与关系抽取

基于深度学习的命名实体识别与关系抽取摘要：构建知识图谱包含四个主要的步骤：数据获取、知识抽取、知识融合和知识加工。其中最主要的步骤是知识抽取。知识抽取包括三个要素：命名实体识别（NER）、实体关系抽取（RE）和属性抽取。其中命名实体识别（NER）和实体关系抽取（RE）是自然语言处理（NLP）任务中非常重要的部分。本文将以深度学习的角度，对命名实体识别和关系抽取进行分析，在阅读本文之前，读者...

2020-03-10 09:53:45 65458 58

原创 DeepSeek R1技术报告解读

博主开辟了微信公众号，更多博客文章详见微信公众号“小宁算法梦工场”，欢迎读者们关注～

2025-01-21 20:04:18 1129

原创大模型与无限猴子定律——复杂推理的Repeated Sampling Scaling Law

无限猴子定律也被称为猴子和打字机定理，是一个概率论中的概念，用于阐述随机性和概率的问题。这个定律的基本思想是：如果有一大群猴子随机地敲打打字机的键盘，那么理论上，只要时间足够长，它们最终会打出任何给定的文本，包括莎士比亚的全部著作。提升训练规模和资源有助于LLM的性能，然而在推理（Inference）阶段则通常计算资源很有限，因此本文旨在探索Inference阶段的对生成的sampling数量进行scaling。

2024-09-24 00:19:34 899

原创【OpenAI o1背后技术】Sef-play RL：LLM通过博弈实现进化

Reward Model则可以是通过Bradley-Terry Model训练的标量奖励函数，在整个Self-play过程中充当一个Discriminator从而增强Verifier的能力，而Reward Model则可以充分利用Self-play过程中产生的反馈结果（Positive和Negative）进行训练。如上图所示，如果只在Positive上进行SFT训练，那么就需要接近8倍的训练数据/时间/资源来达到相同较低的Test Error时对应充分利用Negative数据的RL方法。

2024-09-22 23:17:51 1842

原创【Openai o1背后技术】Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning

目前很多preference pair都是站在样本（instance-lever）层面进行打标的，这会导致损失一些细节信息，对于MCTS这种需要以step层面进行学习的方式会不友好。在强化学习生态中，一个典型的工作AlphaZero就是采用这种迭代式的训练，其通过结合神经网络、强化学习以及蒙特卡洛树搜索（MCTS）实现这个迭代式过程。为了确保在树搜索过程中，在搜索过程中，采用Self-evaluation。在抽取偏好数据时，采用MCTS算法，将instance-level的偏好转换为step-wise。

2024-07-29 23:16:35 2011

原创 AgentBench: Evaluating LLMs As Agents

现如今，大语言模型在指令微调和偏好对齐的微调下能够展现出类似人类的智能。目前有许多工作提出了一些LLM-as-an-agent的工作，例如AutoGPT、BabyAGI、AgentGPT等。但是目前如何系统性地评估Agent的好坏依然是一个比较棘手的挑战。目前有一些评估的工作，比如文本类的游戏、多模态的游戏模拟等，但是这些评估方法通常是闭源、离散的，且场景过于单一。为了解决这个问题，本文提出AgentBench，一种多维度多场景（环境）的LLM-as-Agent的评估基准。

2024-07-29 23:11:33 1491

原创 Executable Code Actions Elicit Better LLM Agents

Github: https://github.com/xingyaoww/code-act大语言模型展现出很强的推理能力。但是现如今大模型作为Agent的时候，在执行Action时依然还是通过text-based（文本模态）后者JSON的形式呈现。通过text-based或JSON来实现工具的理解调用、memory的管理等。然而，基于文本或JSON的动作空间通常比较局限，且灵活性较差。例如某些动作可能需要借助变量暂存，或者是一些较为复杂的动作（取均值、排序）等。最近大模型也被发现能够在代码理解和生成任务上

2024-07-29 23:08:28 746

原创 RewardBench：Evaluating Reward Models for Language Modeling

Code：Dataset：在人类偏好的强化学习（RLHF）过程中，奖励模型（Reward Model）格外重要。奖励模型通常是大模型本身并在标注好的偏好数据上进行训练，从而赋予其能够识别好坏的能力。在RLHF过程中，Reward模型可以给予大模型生成结果的信号，基于这个信号来更新大模型参数，使得其可以进一步提高与人类的对齐能力。

2024-07-29 23:02:38 1068

原创 SteerLM_ Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF

为了确保获得多样化的response，首先从用于训练的带注释数据集中枚举一组所有可能的attribute value组合。另外，RLHF的偏好没有考虑细粒度的Aspect（例如helpfulness, humor, toxicity），不同的Apsect对偏好的贡献是不同的；例如生成高quality的文本、或者生成高humor的文本，或者生成同时具备quality、humor、helpfulness的文本等。大模型在做偏好对齐的时候，传统的RLHF需要耗费大量的资源。每一轮对话后，在Assistant。

2024-07-29 22:52:13 951

原创大模型ReAct：思考与工具协同完成复杂任务推理

人类的认知通常具备一定的自我调节（self-regulation）和策略制定（strategization）的能力，对于解决一个复杂问题时，可以很自然地运用工作记忆（working memory）将任务相关的决策动作（actions）与思考推理（reasoning）相结合。虽然现如今诸如Chain-of-Thought（CoT）通过上下文提示的形式可以提高大语言模型step-by-step的推理能力，但是其依然属于静态的黑盒子，依靠其推理的结果。回顾一下Act-only的定义（类似强化学习中的过程），第。

2024-06-25 15:16:45 1953

原创 PAL: Program-aided Language Models

相比于Chain-of-thought，每一个exemplar中包含一个推理路径，这个推理路径时融合了自然语言和python代码。作者通过启发式更改数字的方式构建了一个新的数据集，并基于这个数据发现50%的情况下大模型虽然给出正确的推理思路但是由于交大的数字计算存在错误导致最终预测错误。对于评测数据集中，如果现有的工作如果已经提供了exemplar，则直接使用，否则则随机采样3～6个标注样本作为exemplar。针对数学运算、符号推理、算法运算三种类型的任务分别设计了带有编程语言和自然语言的prompt。

2024-06-23 22:08:19 1153 1

原创 Program-of-Thoughts（PoT）：结合Python工具和CoT提升大语言模型数学推理能力

发现，大模型可能会在生成代码的时候同时写一些推理思考的文本，为了较好地区分，这里对于非编程代码的部分全部添加一个“#”，作为注释。随着大模型的发展，以Chain-of-Thought的提示学习方法可以有效地提升算术推理的性能。对于一些特殊的推理场景，有必要结合CoT完成多步骤：PoT可以先为一个Question生成一个中间推理和计算的结果，基于中间结果再继续使用CoT完成剩余的推理工作。例如时间计算的场景下，可以先用PoT完成时间的计算，最后借助CoT将时间转换为目标格式。同期工作的对比（PoT与PAL）

2024-06-23 22:05:09 1983

原创越复杂的CoT越有效吗？Complexity-Based Prompting for Multi-step Reasoning

那么如何定义推理路径的复杂性？本文在输入提示上对每一个推理步骤用“\n”进行分割，即。

2024-06-23 22:01:55 1520

原创 MetaGPT: Meta Programming For A Multi-Agent Collaborative Framework

MetaGPT中的Agent角色是固定的，且Action空间和顺序也是固定的，即每个流程要执行的Action都是事先定义好的，工具的使用也是在固定的Action之后完成。因此大模型在思考和生成的整个流程是被固定的。

2024-06-23 21:57:29 1860

原创 ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

虽然现如今大模型展现出无与伦比的表现，但是其在工具理解和使用方面依然存在不足，即根据用户的指令和意图来使用外部API。这是因为现有的指令微调任务大多数是基于语言任务，而忽略了工具的调用指令。因此，本文希望为开源的大模型探索一个可以使用工具的模型，并提出TooLLM。

2024-06-23 21:51:45 1014

原创大模型Chain-of-Thought（CoT）与Agent基础知识与介绍

大语言模型Chain-of-Thought与Agent

2024-06-04 20:12:06 4026 1

原创【通览一百个大模型】Baize（UCSD）

订阅专栏可获得博主多年积累的全部NLP、大模型和算法干货资料大礼包，，助力NLP科研、学习和求职。

2023-10-24 00:57:47 768

原创论文解读：Large Language Models as Analogical Reasoners

*归纳提示学习（analogical prompting）**旨在模型在解决一个新的问题时，能够自发性地寻找相似的已有的知识。对于像code-generation等复杂的任务，low-level exemplar generation不一定能过让模型很好地解决此类问题，因此本文提出一种high-level generation方法。上图中展示出，当模型规模越大时，解题的准确性也越高，同时我们提出的self-generation方法与baseline的提升幅度也越大。发现本文提出的方达到了SOTA。

2023-10-24 00:46:49 869

原创论文解读：Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models

生成的内容与输入存在冲突：Input-conflicting hallucination, where LLMs generate content that deviates from the source input provided by users;

2023-09-19 11:40:08 2278

原创论文解读：Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentati

开放域问答中，给定一个问题qqq以及一个文档库Ddii1mDdii1m，目标是给定一个回答aaa。先前的方法是通过一个retriever检索文档库，并获得与问题相关的文档，随后使用机器阅读理解的方式回答问题。afLLMpqafLLMpq，其中ppp表示prompt。如果使用检索增强的方式，则为afLLMpqLafLLMpqL，其中LL表示检索得到的support document。

2023-07-29 23:18:20 982 2

原创论文解读：Contrastive Learning Reduces Hallucination in Conversations

给定一个问题或上下文xxx，一个对应检索的知识KK，目标是根据上下文和知识来生成回复yyy。KB模式：根据对话上下文检索知识库，获得检索到的文档后结合上下文生成回复；LM模式：现如今的语言模型范式，即让语言模型先在知识库上预训练，然后再直接回答；本文则关注LM模式（1）Pre-training：采用BART作为语言模型：（2）SFT（Fine-tuning）：采用MLE目标在对话数据集上进行自回归式训练：然而MLE损失鼓励模型盲目模仿训练数据并导致模型幻觉。

2023-07-29 23:16:42 788

原创论文解读：PRINCE: Prefix-Masked Decoding for Knowledge Enhanced Sequence-to-Sequence Pre-Training

简单来说，就是当模型在decoding阶段时，当预测第t个位置的token时，对t-1以及之前的某些token替换为mask，相当于模型在含有mask的prefix text来进行预测。预训练预料为Wikipedia，且饱含aligned的实体。在decoding阶段，如果在预测实体时，预测当前的token时，不再是输入真实的预测token，而是mask。当解码器预测实体标记时，噪声被注入，并且先前生成的部分实体标记对于后者是看不到的。，这可以激励模型更好地学习仅依赖于上下文来预测实体。

2023-07-29 23:14:22 279

原创中文大模型评估数据集——C-Eval

作者强调了在这种具有挑战性的环境中评估LLM的重要性，因为目前的LLM发展已经超越了创建一个休闲的聊天机器人–它涉及到能够与各种数据类型互动、接收反馈、推理和使用工具、甚至执行行动的复杂系统或代理的发展（Mialon等人，2023）。（Muennighoff等人，2022）是通过将多任务提示微调与预训练的多语言BLOOM模型（Scao等人，2022）相结合而创建的，不仅使用英语提示，还使用机器翻译的提示来匹配多语言任务的语言，并且被认为能够进行任务和语言无关的泛化。是对原LLaMA在中文环境中的改编。

2023-07-29 23:11:43 1909

原创论文解读：Factuality Enhanced Language Models for Open-Ended Text Generation

而往往为了降低GPU显存，通常采用chunk机制，导致很多文档被分割化，这些被分割后的文档可能只有一些代词，这会导致信息“碎片化”，并导致出现在具有相似上下文的独立文档中的实体的错误关联。模型的生成是逐个字符生成的，因此如果模型在没有任何prefix的前提下生成文本时，生成的最开始阶段的一些词是不会存在幻觉的，而随着不断地生成过程中，后面生成的词会促使整个文本产生幻觉。目前一个很大的挑战是如何评估模型的事实性，尤其是开放文本生成领域内，其需要涉及到定位真实知识在无数个世界知识内的位置。

2023-07-29 23:09:10 2145

原创大模型幻觉评估方法——忠实性（Faithfulness）与事实性（Factuality）

在本篇文章中，我们首先通过一篇早期工作讨论了忠实度和真实度的含义是什么。然后，我们综述了评估文本摘要忠实度/真实度/一致性的各种方法。可以看到不管是对于不同任务还是不同评价维度，较为普遍的趋势是趋向于大而统一：更大的元评估实验设定、更多的预训练、更大的模型、更统一的视角，等等等等。当下，GPT-4的出色表现引起热议，但是似乎构建更可控、可解释、鲁棒的文本生成指标仍然是一个开放问题，还有很长的路要走。下篇文章中，我们会探讨一下提升近期文本摘要的忠实性的相关工作。

2023-07-20 11:34:07 5296 2

原创 HaluEval： A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

尽管现在大模型拥有前所未有的能力，其依然会生成出一些幻觉文本，即生成出存在冲突或无法通过已有知识来验证的内容。本文探索：what types of content and to which extent LLMs tend to hallucinate？本文提出HalEval Benchmark，包括35000个幻觉/正常的样本，用于分析和评估大模型。其包含5000个通用的用户对话查询问题以及30000个任务相关的问题（包括QA、知识对话和文本摘要）。

2023-07-20 11:22:48 1029

原创深度探讨大模型位置编码及其外推性

现如今很多大模型都开始支持超过4096长度的推理，例如GPT-4支持超过30k，ChatGLM2-6B也支持最长为32K的文本，但是由于显存资源的限制，这些大模型在真正在训练过程中不一定要训练这么长的文本，通常在预训练时只会设计到4k左右，因此**如何确保在模型推理阶段可以支持远远超过预训练时的长度**，是目前大模型的核心问题之一，我们将这一问题归为**大模型的外推性**。

2023-07-16 18:38:12 3269 2

原创【通览一百个大模型】GLM（THU）

订阅专栏可获得博主多年积累的全部NLP、大模型和算法干货资料大礼包，，助力NLP科研、学习和求职。

2023-07-15 21:29:16 2035 2

原创【通览一百个大模型】MASS（Microsoft）

订阅专栏可获得博主多年积累的全部NLP、大模型和算法干货资料大礼包，，助力NLP科研、学习和求职。

2023-07-15 21:13:35 642

原创【通览一百个大模型】XLNet（Google）

从宏观来看，XLNet 实现了站在巨人 BERT 肩膀上的新的突破，将 AR 模型和双向训练有机地结合在一起。从微观来看，XLNet 引入的几个改进方法各有所长：Permutation LM 使得语言模型在训练时可以充分利用上下文的信息；Two-stream encoding 很好地区分了预测目标和非预测目标的 attention 的计算使结果更训练更加合理；

2023-07-15 20:44:18 700 1

原创基于ChatGLM的微调实现

下面描述具体的实现过程。

2023-07-15 20:06:54 2107

原创【通览一百个大模型】CodeX（OpenAI）

主要介绍CodeX大模型

2023-07-09 14:29:45 3689

原创【通览一百个大模型】Pythia（EleutherAI）

Pythia，一个由70M到12B个参数的解码器自回归语言模型套件，旨在专门促进科学研究。模型覆盖了多个数量级的模型规模。所有模型都按照相同的顺序在相同的数据上进行训练。数据和中间检查点可供公开研究使用。作者在Pile和去重后的Pile上训练了8个模型规模，提供了两套可以进行比较的套件副本。作者利用Pythia的这些关键特性，首次研究了精确的训练数据处理和模型规模对性别偏见、记忆能力和少样本学习等属性的影响。减轻性别偏见（Mitigating Gender Bias ）

2023-07-09 13:44:20 1203

原创【通览一百个大模型】Anthropic LLM（Anthropic）

主要介绍Anthropic LLM大模型

2023-07-08 15:25:11 1241

原创【通览一百个大模型】UL2（Google）

Prompt 主要适用于三个场景：低资源、低算力、统一场景。也曾在知乎上发表过想法：Prompt 在某种程度上可以进行模型的专家化(expertization)或者模块化(modularization)，需要和进行沟通。这篇文章使用 paradigm prompt 进行 denoiser 的 mode switching，有进一步的启发意义。脱离 denoiser 的 mixture，可能会有更加宏大的 picture.

2023-07-08 15:17:09 1012

Movie Review.rar

免费提供NLP情感分析数据集Movie Review。Pytorch实现版本代码可详情：https://blog.youkuaiyun.com/qq_36426650/article/details/105172198

2020-04-25

SemEval2010_task8_all_data.rar

关系抽取数据集，公开数据集，主要为监督学习方法。一共包含8000个训练句子、2717个测试句子，目前在测试集上最好结果f1值为89.5.

2019-11-24

数据结构图谱构建与关系抽取数据集.rar

本数据集主要提供对数据结构学科知识图谱的构建，主要包含500+数据结构方面的知识实体，9种关系，176000+示例，16000+实体对，已标注好3676个实体对关系。通过模型学习已标注的实体对来对未知实体对进行关系抽取，实现最终的图谱构建。对应博客：https://blog.youkuaiyun.com/qq_36426650/article/details/87719204

2019-11-11