- 博客(49)
- 收藏
- 关注
原创 LLM论文笔记 25: Chain-of-Thought Reasoning without Prompting
注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。1. LLMs 不需要prompting就可以生成链式推理路径,prompting只是将这些能力显性化的一种手段。2. cot path 往往与更高的model confidence相关,可以用作可靠性的metric。3. 探索多样化的解码路径能有效挖掘模型的内在推理能力,而不仅仅依赖于模型规模或训练数据的多样性。模型未经过指令调优时的推理能力缺陷,并在指令调优的模型中。
2025-03-16 16:22:50
346
1
原创 LLM论文笔记 24: A Theory for Length Generalization in Learning to Reason
如果推理问题的最大输入元素距离 R < ∞ ,并且训练数据包含所有长度为 4R+1 的子序列(可以通过滑动窗口(长度为 4R+1 )唯一确定下一步推理的输入)如果因果函数 f 被完全学习,推理问题可以表示为有向无环图(DAG),则通过递归地应用 f ,可以解决任意长度或规模的问题。因果函数 f 是完全可学习的(输入空间有限、因果函数输入维度有限),即可以通过有限的训练数据准确地学习到目标函数。如果输入空间 X 或输入维度是无限的,无论训练数据集有多大,模型在未知输入上的误差总是可能任意大。
2025-03-16 16:18:15
533
1
原创 LLM论文笔记 23: Meta Reasoning for Large Language Models
注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。3. MRP在更大的模型(如GPT-4)上表现得更为出色,而在较小的模型(如GPT-3.5)上则效果较差,表明。MRP是一种系统提示方法,能够帮助LLM动态选择最合适的推理方法,从而提升其灵活性和效果。中显示出了显著的优势,尤其在较简单的任务中与其他方法的表现差异较小时,MRP的优势不明显。2. 多个基准测试MRP表现出色,特别是在需要多种推理策略的任务中。
2025-03-12 14:30:58
568
原创 LLM论文笔记 22: Resonance RoPE: Improving Context Length Generalization of Large Language Models
注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。Resonance RoPE 通过调整 RoPE 的波长,使其变成整数,以减少插值误差。:RoPE 的高维旋转角度在长文本上超出了训练范围,导致模型无法正确处理新位置。RoPE的波长:描述了 RoPE 位置嵌入中,每个特征维度对应的。,在长文本任务上具有更低的 perplexity(PPL),导致长文本推理时的旋转角度错位,影响泛化能力。:RoPE 低维特征的。
2025-03-12 13:56:15
274
1
原创 LLM论文笔记 21: Meta-Reasoning: Semantics-Symbol Deconstruction for Large Language Models
可以减少语言之间的差异,帮助 LLMs 在多语种、复杂语义及不确定任务中提升推理准确性和稳定性(模型能够抽象化不同任务的共同推理结构,从而提高了跨领域和跨语义任务的推理能力)传统的符号方法通常依赖于将自然语言转换为程序化的正式语言(如 Python 或 SQL),但这类方法限制了推理任务的多样性和适用性。,推理的过程得到了简化(简化后的问题模型能够帮助 LLMs 更快地识别推理模式和结构,提高推理速度)提出将传统自然语言描述的推理问题使用符号表示,分为。来掌握推理任务,提高了模型的学习效率和普适性。
2025-03-08 21:09:20
383
1
原创 LLM论文笔记 20: How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning
具体地,模型被要求预测下一个token,而这些头在模型中负责不同类型的推理任务(决策、复制、归纳推理)。研究的重点是如何通过任务分解来分析模型的推理过程,识别在每个推理步骤中起作用的注意力头,并分析模型如何在多条并行路径中生成答案。:Llama-2 7B在第16层存在一个“功能断裂”,即模型在这层附近从依赖于预训练的语言统计(例如,双元组的统计关联)过渡到关注当前任务上下文的信息。方法,通过对模型进行多次前向传递并比较不同的输入条件(如污染的输入和正常输入),分析不同注意力头对模型决策的影响。
2025-03-08 21:02:59
845
1
原创 LLM论文笔记 19: On Limitations of the Transformer Architecture
CoT 只能通过增加大量的 token 来弥补 Transformer 的计算瓶颈,而不能从根本上提升 Transformer 的计算能力。注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。3. CoT 可以减少 Transformer 计算错误的概率,但无法根本性突破其计算能力的上限。参考:https://zhuanlan.zhihu.com/p/682254725。2. Transformer 的计算能力受限于。
2025-03-07 22:43:26
495
原创 LLM论文笔记 18: When Do Program-of-Thought Works for Reasoning?
注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。E 表示 control flow 的 edge 个数;n2 表示代码原理中操作数个数;N2 表示代码中操作数个数。,发现并非所有复杂的代码数据都可以被 LLM 学习或理解。4. 参数数量越多,LLM 推理能力的增益就越显着。复杂度高的代码块对于 LLM 来说可能太难学习。当前的 LLM 对代码等符号知识的理解有限。对于 PoT 的推理能力至关重要。低复杂度的代码块包含的知识不足。
2025-03-06 23:33:41
311
原创 LLM论文笔记 17: Program of Thoughts Prompting (PoT)
PoT方法在多个数学和金融问答数据集上,尤其是在数学数据集(如GSM8K、AQuA等)和金融数据集(如FinQA、ConvFinQA等)上,相较于CoT方法,表现出了显著的性能提升。注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。,通过PoT执行程序生成中间结果后,再通过CoT进一步推导出最终答案,这种方法能更好地解决复杂的多阶段推理问题。:PoT在生成程序时,不仅能够通过代码表达推理过程,还能将。prompt样例:使用 #
2025-03-06 23:19:32
517
1
原创 LLM论文笔记 16: Why think step by step? Reasoning emerges from the locality of experience
当训练数据具有局部结构时,链式推理能够有效地改善条件概率估计。(free generation,通过模型自发生成中间变量的推理方式)在某些条件下比直接预测表现更好,尤其是在局部这种方法能够让模型。:尽管链式推理在数据结构良好的型的训练数据结构不合理时,推理会失败,甚至可能仅回归到边际概率。注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。,模型能够在较少的训练样本下通过推理来更好地拟合条件概率,而不需要使用包含所有变量的完整数据。
2025-03-05 12:35:46
315
1
原创 手把手教你国内升级 ChatGPT Plus / Pro
本文将详细介绍如何快速获取一张虚拟信用卡,并通过该卡来获取ChatGPT Plus和ChatGPT Pro。
2025-03-05 12:26:16
1677
原创 LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly
主要探讨Transformer模型在长度泛化(length generalization)上的表现,特别是在整数加法任务中的应用。注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。3. 长度泛化的表现高度依赖于随机权重初始化和训练数据的顺序,导致不同试验之间的性能差异显著。2. 在适当的配置下,Transformer模型可以泛化到训练序列长度的。长度泛化指的是模型从训练中的短序列泛化到测试中的更长序列的能力。
2025-02-20 23:24:12
854
1
原创 LLM论文笔记 14: The Impact of Positional Encoding on Length Generalization in Transformers
注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。decoder-only transformer 如果NoPE同时具备绝对APE和RPE的能力。1. decoder-only 中不显式使用位置编码(NoPE)可以提高长度泛化性能。主要关注decoder-only transformer中的长度泛化能力。后面的注意力子层可以实现相对位置编码的能力(f_con+f_ref)的PE(同时关注短期和长期信息)可以显著提高增益。
2025-02-20 00:36:27
279
1
原创 LLM论文笔记 13: What Algorithms can Transformers Learn? A Study in Length Generalization
引入了一种面向 Transformer 的编程语言(RASP),用于描述 Transformer 能轻松表达的算法。3. (实验结论验证假说)符合假说的任务(例如计数和排序)展示了强大的长度泛化能力,而不符合的任务(例如奇偶性检查和加法)泛化性能较差。研究内容:探讨 Transformer 模型在算法任务上的长度泛化能力,即模型在训练集长度范围之外的任务表现。1. Transformer可以在简单的、易于学习的算法表示上呈现长度泛化。Transformer 倾向于学习简单的、易于表示的算法。
2025-02-19 23:29:42
559
1
原创 LLM论文笔记 12: Teaching Arithmetic to Small Transformers
观察到算数运算(加减乘除开根)上简单微调NTP是次优的(如加法123+456=579第一个预测的结果位是5,但是5由7和9决定),提出。注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。3. 泛化能力:对训练中未见的数值表现出一定的泛化能力,但对未训练的更长位数加法的泛化能力有限(基本没有长度泛化)->还发现了平衡不同位数和进位的sample显著提高性能。格式(CoT)可以显著提高精确度,cot可以显著减小需要的训练数据量。
2025-02-18 23:23:31
334
1
原创 LLM论文笔记 11: Exploring Length Generalization in Large Language Models
本文系统性地研究了基于 Transformer 的大规模语言模型(LLMs)在长度泛化任务中的表现,分析了不同训练和提示策略(注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。3. 自注意力是一种等变变换,能够执行像最大池化这样的池化操作,策略不允许在不同长度的问题之间进行知识转移。5. CoT+微调也无法推广到更长问题,干扰项是导致长度泛化失败的主要原因。4. 在微调机制中,缩放数据、模型大小和计算并不能提高长度泛化能力。
2025-02-18 23:19:45
419
1
原创 LLM论文笔记 10: Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought
(直接通过结果判定推理的正确性)适合衡量推理准确度。它还表明最宽松的证明准确性指标最适合衡量模型的推理能力。9. 大多数推理错误开始于严格有效的原子误导步骤(推理正确但是误入歧途),目前LLM问题来源于。使用形式逻辑解析模型生成的推理链条,将其每一步分类为严格有效、广泛有效或无效。10. 模型在正确证明路径之外花费的时间越多,返回正确证明的可能性就越小。,一个基于形式逻辑生成的问答数据集,用于评估模型的推理能力。,但在复杂的多步推理(例如多跳推理)中表现出困难。影响推理正确性(推理顺序)
2025-02-17 13:21:24
379
原创 LLM论文笔记 9: Neural Networks and the Chomsky Hierarchy
2. Transformer在一些任务中表现较差,例如正则语言任务(如Parity Check),表明其与Chomsky层级的对齐性不佳。注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。3. Transformer在序列长度超出训练范围时表现出较差的泛化能力,这可能归因于。上的表现,以及如何通过模型架构的改进提升其能力。,尤其是在任务复杂性超过其理论极限时。通过对神经网络在序列预测任务上的。在长序列上的值超出分布范围。
2025-02-17 13:15:01
515
1
原创 LLM论文笔记 8: Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation
注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。3. T5的位置嵌入可以实现外推但是导致内存加大和训练速度降低(本质上是改变attention value)(本质上不是改变attention value而是改变q/k的值)4. 可学习的 PE 无法实现外推,因为。2. 传统余弦位置编码无法实现外推。(PE) 可以实现长度外推。
2025-02-15 14:09:35
187
1
原创 LLM论文笔记 7: Investigating the Limitations of Transformers with Simple Arithmetic Tasks
注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。本文主要是实验结论,实验都是基于 pretrained-transformer 做的(T5模型)。1. 传统的语言处理方法明确使用语言学理论中的中间表示,而现代 Transformer 模型通过。的方法隐式学习这些表示,从而更灵活但也更难解释其内部的语言学知识结构。2. 通过对输入序列的简单操作(显式枚举数字位置的语义)将表示“可以帮助神经模型学习简单的算术任务(引出了后面。
2025-02-15 13:59:30
304
1
原创 LLM论文笔记 6: Training Compute-Optimal Large Language Models
在固定计算预算(FLOPs) C 下,通过调整模型大小 N 和对应的训练 token 数 D ,研究损失的最小值随模型大小的变化趋势(直接研究了在特定计算预算下,最优的模型大小是多少)在固定的模型大小 N 下,通过调整训练数据量(即训练的 token 数 D ),研究损失随计算预算 C 的变化趋势(估计给定 FLOPs 预算下的最优模型大小和所需的训练数据量)构建一个基于模型大小 N 和训练数据量 D 的损失函数 L(N, D) ,并通过实验数据拟合其参数,推导出理论上的最优模型大小和训练数据量分配。
2025-02-14 22:36:43
874
1
原创 LLM论文笔记 5: CodeT: Code Generation with Generated Tests
注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。1. 更多的测试用例通常可以提高代码大模型的性能,但当测试用例数量达到一定阈值后,性能提升效果减弱。2. 只考虑代码解决方案或测试用例数量的评分方法一致性地比CODET表现差,证明了考虑。3. 遗留问题:无法保证测试用例的质量(后续有更多相关工作)(内部思想还是通过多的测试是好测试、通过多的代码是好代码)本质上还是枚举交叉验证,形成。的双重执行协议的合理性。
2025-02-14 21:19:00
287
原创 LLM论文笔记 4: Direct Preference Optimization: Your Language Model is Secretly a Reward Model
注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。DPO在多个任务中表现与PPO相当 / 更优,不需要显式reward和RL。3. DPO表现出对温度和超参数 β 的鲁棒性(PPO高度依赖超参数调优)5. GPT-4可以作为自动评估偏好模型性能的有效工具。2. DPO目标中的动态权重是其保持稳定性的关键。(偏好概率与奖励值差异的指数比相关)的目标函数。:跳过奖励模型的训练和强化学习,使用。总结:RLHF 和 DPO 的区别。
2025-02-14 20:46:02
258
1
原创 LLM论文笔记 3: CodeDPO: Aligning Code Models with Self Generated and Verified Source Code
注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。1. 传统的偏好优化策略SFT无法教会LLM辨别正确和错误的代码,但是DPO可以。CodeDPO通过DPO和自生成+自验证实现了代码。3. 传统DPO依靠高质量的测试数据。2. SFT无法优化代码运行效率。最后叠加运行时间筛选。
2025-02-14 20:38:35
303
原创 LLM论文笔记 2: What Makes Large Language Models Reason in (Multi-Turn) Code Generation?
注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。CoT-retry 策略的效果:仅在初始尝试失败时才引入额外的推理提示,既节约了计算资源,又显著提升了多轮生成性能。将多轮代码生成与 CoT 结合,实现 Reason prompt + Instruct prompt 的。prompts 搜索。
2025-02-12 19:20:47
287
1
原创 LLM论文笔记 1: Direct Preference Learning with Only Self-Generated Tests and Code to Improve CodeLMs
LLM论文笔记 1: Direct Preference Learning with Only Self-Generated Tests and Code to Improve CodeLMs
2025-02-12 16:21:43
201
1
原创 DeepSeek v3 技术报告阅读笔记
本文参考 DeepSeek-v3 / v2 / v1 Technical Report 及相关参考模型论文本文不包括基础的知识点讲解,为笔记/大纲性质而非教程,建议阅读技术报告原文
2025-02-12 15:10:26
2122
1
原创 最新国内 ChatGPT Plus/Pro 获取教程
本文将详细介绍如何快速获取一张虚拟信用卡,并通过该卡来获取ChatGPT Plus和ChatGPT Pro。
2025-02-12 14:41:50
1163
原创 超宽带被动单光子成像 论文解读(Passive Ultra-Wideband Single-Photon Imaging)
当前高速成像的基本法则是:场景变化越快,就需要越多的光线来精确成像才不会有过多的噪声和运动模糊,所以在低通量环境无法实现。需要操作相机和信号源之间的同步频率,使用相同的重复频率成像。捕捉超快事件的同时无法同时捕捉较慢事件,因为同步周期是无法准确捕获事件的边界。时间在同步周期结束,在较长时间跨度内发生的任何事情都会被模糊化。简单来说,在低光条件下,现有的单光子相机的光通量估计技术无法适用于秒到皮秒级时间尺度的成像。因此本文开发了一种基于随机微积分(stochastic calculus)和。
2023-10-10 16:56:52
410
1
原创 AlexNet 论文解读 - ImageNet Classification with Deep Convolutional Neural Networks
提出的AlexNet基于卷积神经网络,限定了层数,提出激活函数ReLUReLUReLU和局部反应归一化方法LRNLRNLRN,使用数据处理、DropoutDropoutDropout等方法应对过拟合。
2023-10-05 17:34:33
372
原创 VGG Net 论文解读 - Very Deep Convolutional Networks for Large-scale Image Recognition
本文基于现有的卷积神经网络模型基础上,对其模型结构进行优化。本文所做的优化是增加模型深度(Depth),即增加更多的卷积层。而使用3x3的小卷积和可以使得高深度模型中数据的规模不会快速减小(图像上表现为不会过于降低分辨率)。改进后的模型在图像识别任务上有前所未有的精度,在2014年ImageNet挑战赛中获得了头把交椅。
2023-09-29 23:02:28
199
1
原创 Transformer 模型论文解读 - Attention Is All You Need
对于解决序列转导问题(常用的有语言建模、机器翻译、语音识别等) ,当前较为流行的方法是使用递归神经网络(特别是长短时记忆/门控递归神经网络)and这些任务的完成本质上使用的是注意力机制Attention使用神经网络进行注意力机制的计算受到顺序计算的限制(前馈传播),无法使用并行计算,即使使用因子分解和条件计算也不能更快的提高性能。因此引入模型。完全依赖于注意力机制,绘制输入输出的全局依赖关系。注意力机制:(即为该元素和前后文之间的关系)允许模型在特定位置生成输出时将注意力集中在输入序列的不同部分。
2023-09-24 15:24:57
211
1
原创 从⌈AcWing3752⌋看数位dp
给定一个整数K和一个长度为N的字符串S。已知,字符串S是由前K个小写字母组成。NSK由于满足条件的字符串数量可能很大,所以输出对10e97取模后的答案。第一行包含整数T,表示共有T组测试数据。每组数据第一行包含两个整数N和K。第二行包含一个长度为N的由小写字母组成的字符串S。每组数据输出一个结果,每个结果占一行。结果表示为Case #x: y,其中x为组别编号(从 1 开始),y为对1097取模后的答案。
2023-08-08 15:40:56
164
原创 MIPS-CPU31 Datapath Design methodology
MIPS-CPU31 Datapath Design methodology。
2023-05-23 21:04:37
328
原创 Numpy 1.2+(Scipy) 矩阵运算与图像处理
numpy库是python中的基础数学计算模块,主要以矩阵运算为主;scipy基于numpy提供高阶抽象和物理模型。本文使用版本,该版本相对于1.1不再支持scipy.misc等模块,故推荐使用Pillow库中的相关函数代替。python #命令行进入py环境 >> > import numpy >> > numpy.__version__直接使用array。
2023-04-14 10:42:52
356
原创 贪心算法理论解
贪心算法,顾名思义就是贪得当前情况下的最优解(局部最优解),在某些情况下,每次的选择如果都依赖于前面的依次选择而不受后续操作的影响,局部最优解组成全局最优解(最优子结构),就可以用贪心法求解。...
2022-07-20 23:48:55
412
原创 排序与检索(归并/快排/二分)
说到排序,学过STL的应该知道sort/stable_sort(后者可以使相同值的元素位置不改变,所以更“稳定”)。如果使用现成的排序函数,当然可以用选择排序/冒泡排序,但是其运算复杂度是极高的(O(n^2)),相对高效的排序算法有归并排序/快速排序和二分查找。...
2022-07-19 23:31:52
241
原创 路径寻找问题(状态空间搜索)
ACM学习笔记DAY18路径寻找问题(状态空间搜索)和上一小节的回溯法有很大的不同回溯法有明确的限制条件,只需找出满足条件下的一个解/所有解,也就是说这个相对明确的限制条件是回溯法得以“终止深究而回溯”的判定标准;而状态空间搜索就要模糊的多,一般是要找到一个从初始状态到终止状态的最优路径,而不是像回溯法一样找一个符合要求的解,而且“最优”是同类间的比较而非某些限制条件所规定。...
2022-07-15 23:56:37
491
原创 简单枚举 / 枚举排列
来到《算法竞赛入门经典》第七章《暴力枚举法》,提出的是暴力“列举”出所有可能性并一一试验的方法。目录1 简单枚举2 枚举排列2.1 生成1~n的排列2.2 生成可重集的排列2.3 解答树2.4 下一个排列简单枚举就是枚举一些例如整数、子串的简单类型。但是如果拿到题目直接上手枚举,可能会导致枚举次数过多(甚至引起TLE)。因此在枚举前先要进行分析。比如例题 除法(Division,Uva 725):对于这道题大多数人的思路是直接对abcde和fghij进行0~9的枚举,但是这样会导致枚举次数过多。所以可以从两
2022-07-10 23:08:50
1938
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人