论文理解
文章平均质量分 95
机器学习相关论文详细解读
云端FFF
not because they are easy, but because they are hard
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
论文理解【LLM-OR】——【OptiTree】Hierarchical thoughts generation with tree search for LLM optimization model
使用 LLM 对运筹优化问题(OR Problem)建模时,传统固定步骤分解在复杂数学结构下准确率低,本文提出 OptiTree:基于“子问题层级建模树”的树搜索检索,自适应地将原问题分解为一串更简单的子问题,并递归整合各子问题的高层建模思路形成全局指导,从而显著提升建模准确率原创 2025-12-29 19:40:21 · 745 阅读 · 0 评论 -
论文理解 【LLM-RL】—— Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the
本文系统评估了 RLVR 在提升 LLM 推理能力方面的实际效果。发现当前RLVR方法主要提高了基座模型已有推理路径的采样效率,但并未创造新的推理模式。相比之下,蒸馏方法能真正扩展模型推理能力。研究呼吁开发新的RL范式,如改进探索机制、数据设计和反馈信号,以真正释放强化学习在扩展模型推理边界方面的潜力。原创 2025-12-14 20:34:36 · 1050 阅读 · 1 评论 -
论文理解 【LLM-回归】—— Decoding-based Regression
本文探讨了语言模型(LLM)在数值回归任务中的能力,证明了其可逼近任意一维概率密度的理论界,在数值范围大、噪声复杂或数据较少的情形相比传统点回归头和 Riemann 回归头有优势原创 2025-10-15 23:24:29 · 1017 阅读 · 3 评论 -
论文理解【CV-对比学习】——【BYOL】Bootstrap Your Own Latent - A New Approach to Self-Supervised Learning
BYOL 是第一种无需负样本的自监督学习框架,其通过训练在线网络预测动量目标网络实现自蒸馏,借助预测器模块与目标网络的EMA更新机制稳定训练避免坍塌。该方法在ImageNet等基准取得SOTA并在下游任务表现优异,证明自监督不依赖对比即可学到强大表征原创 2025-09-19 05:14:19 · 1229 阅读 · 0 评论 -
论文理解【CV-对比学习】——【SimCLR】A Simple Framework for Contrastive Learning of Visual Representations
SimCLR 是一种简洁的自监督对比学习方法,通过强数据增强、非线性投影头与大批量训练,在无标签条件下学习判别性表示,在线性评估与下游任务中表现优异,大幅减少对人工标注的依赖。原创 2025-09-15 12:01:23 · 1054 阅读 · 0 评论 -
论文理解 【LLM-RL】——【EndoRM】Generalist Reward Models: Found Inside Large Language Models
本文指出,任何通过标准 “next token prediction” 训练得到的 LLM 内部已经隐含了一个通用奖励模型,其本质上等价于离线逆强化学习所得的奖励函数原创 2025-09-08 04:45:32 · 783 阅读 · 0 评论 -
论文理解【LLM-回归】—— 【RAFT】Better autoregressive regression with LLMs via regression-aware fine-tuning
本文提出了回归感知微调(RAFT)方法,通过对候选数值的概率加权期望直接优化均方误差,将回归损失直接融入解码式LLM的训练中,从而同时保留自回归预训练的优势并利用数值目标的特性,在多项自然语言回归任务中显著优于传统交叉熵微调和预测头方法原创 2025-08-17 19:26:51 · 1153 阅读 · 0 评论 -
论文理解【LLM-回归】—— 【NTL】Regress, Don‘t Guess--A Regression-like Loss on Number Tokens for Language Model
尽管 LLM 在文本生成方面表现出色,但它们缺乏对数字的自然归纳偏置,导致在涉及数值的任务中表现不佳。本文提出了一种新的损失函数——Number Token Loss (NTL),以增强语言模型在数值任务中的表现原创 2025-07-20 23:44:17 · 1398 阅读 · 1 评论 -
论文理解【Vision Transformer】—— 【Swin Transformer】Hierarchical Vision Transformer using Shifted Windows
Swin Transformer是VIT之后第二个极具影响力的Transformer-based视觉骨干网络,该模型通过引入图像数据的归纳偏置,将自注意力的计算复杂度降低为线性增长,且实现了多尺度特征提取,在识别、检测、分割等各类任务上取得了良好效果原创 2025-06-09 09:38:04 · 1132 阅读 · 0 评论 -
论文理解【LLM-NLP】——【SEQ*】Learn or Recall? Revisiting Incremental Learning with Pre-trained Language Mode
本文介绍 LLM 增量学习论文 SEQ*,它通过分析预训练语言模型(PLMs)在增量学习过程中发生遗忘的原因,仅对标准增强学习方法SEQ进行简单修改便达成了SOTA性能原创 2024-12-08 15:09:11 · 1496 阅读 · 0 评论 -
论文理解【Vision Transformer】—— 【MAE】Masked Autoencoders Are Scalable Vision Learners
本文介绍何凯明的经典之作MAE,它将BERT类模型的MLM自监督训练方法用到了ViT类CV模型上,通过设置大比例mask ratio和引入图像重建decoder的方法达成了良好的性能原创 2024-10-04 23:54:45 · 1386 阅读 · 0 评论 -
论文理解【LLM-agent】—— 【Reflexion】Language Agents with Verbal Reinforcement Learning
本文介绍 LLM agent 领域的经典方法 Reflexion,它通过引入 episodic memory 为 agent 提供长期记忆,在不微调模型的参数的同时实现了基于上下文的试错学习,性能提升显著原创 2024-09-02 12:44:21 · 3486 阅读 · 0 评论 -
论文速览【LLM-agent】—— 【ReAct】Synergizing Reasoning and Acting in Language Models
本文介绍LLM-agent领域的经典方法ReAct,它将LLM的自然语言推理能力和动作生成能力结合,使其同时适用于各类NLP和控制任务,并起到1+1>2的效果原创 2024-08-30 21:37:01 · 2451 阅读 · 0 评论 -
论文理解【Vision Transformer】—— 【VIT】An Image is Worth 16x16 Words: Transformers for Image Recognition
本文介绍经典的 ViT 论文,它是第一个将 Transformer 模型有效应用到较大规模 CV 任务上的工作,并且保持了 Transformer 模型本身的 Scaling 能力,启发了很多后续工作原创 2024-08-30 21:07:59 · 3991 阅读 · 0 评论 -
论文速览【LLM-OR】 —— 【ORLM】Training Large Language Models for Optimization Modeling
LLM 有能力将自然语言描述的工业场景问题建模为数学运筹优化问题,然后通过写代码调用经典求解器的方式加以解决。本文提出的 ORLM 方法主要关注如何合成数据来训练或微调这种领域模型原创 2024-08-27 20:00:54 · 3517 阅读 · 1 评论 -
论文理解【CV-目标检测】——【YOLO-V1】You Only Look Once: Unified, Real-Time Object Detection
首先简介了CV领域的主流任务,然后对最重要的目标检测算法之一YOLO-V1进行了详细介绍原创 2024-08-07 20:55:33 · 1661 阅读 · 0 评论 -
论文理解【LLM】—— TinyStories: How Small Can Language Models Be and Still Speak Coherent English?
本文在儿童故事这个非常垂直的领域数据上训练小规模语言模型(SLM),发现其具有和 LLM 相似的性能,相关分析对于理解 LMs 的能力很有参考意义原创 2024-07-25 21:36:41 · 2216 阅读 · 1 评论 -
论文理解【LLM】—— What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot...
本文通过对模型架构、预训练目标、是否多任务微调等进行大规模排列组合实验,找到了 LLM 的最佳训练方案,得到的工程结论对于我们设计实验很有帮助原创 2024-07-25 00:28:19 · 1614 阅读 · 1 评论 -
序列模型(4)—— Scaling Laws
本文介绍 LLM 训练过程中重要的经验规律 Scaling Laws,它可以指导我们如何最大化训练效率,我们还可以借助它通过小规模实验预测大模型的性能表现原创 2024-01-10 04:40:46 · 2743 阅读 · 0 评论 -
论文速览【Offline RL】——【IQL】Offline reinforcement learning with implicit Q-Learning
【速览】标题:Offline reinforcement learning with implicit Q-Learning;发表:ICLR 2022;领域:离线强化学习(offline/batch RL)—— IL-Based原创 2023-02-06 15:05:20 · 4518 阅读 · 1 评论 -
论文速览【ML4CO】—— 【Ptr-Net】Pointer Networks
标题:Pointer Networks;发表:NIPS 2015;领域:序列模型(seq2seq)改进 / 深度学习解决组合优化问题原创 2023-09-25 20:27:46 · 684 阅读 · 2 评论 -
论文速览【Offline RL】—— 【CQL】Conservative Q-Learning for Offline Reinforcement Learning
标题:Conservative Q-Learning for Offline Reinforcement Learning;发表:NIPS 2020;领域:离线强化学习(offline/batch RL)—— RL-Based原创 2023-07-08 08:51:13 · 2095 阅读 · 0 评论 -
论文速览【LLM】—— 【Transformer-XL】Attentive Language Models Beyond a Fixed-Length Context
标题:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context;发表:ACL 2019;领域:Transformer (decoder) 改进原创 2023-06-26 22:07:03 · 983 阅读 · 6 评论 -
论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation
标题:Offline RL Without Off-Policy Evaluation;发表:NIPS 2021;领域:离线强化学习(offline/batch RL)—— RL-Based / One-step原创 2023-01-30 03:38:29 · 1373 阅读 · 0 评论 -
论文理解【Offline RL】——【BooT】Bootstrapped Transformer for Offline Reinforcement Learning
标题:Bootstrapped Transformer for Offline Reinforcement Learning;发表:NIPS 2022;领域:离线强化学习(offline/batch RL)—— Transformer-Based / 数据增强原创 2023-01-12 18:34:23 · 631 阅读 · 0 评论 -
论文理解【Offline RL】——【TT】Offline Reinforcement Learning as One Big Sequence Modeling Problem
标题:Offline Reinforcement Learning as One Big Sequence Modeling Problem;发表:NIPS 2021;领域:离线强化学习(offline/batch RL)—— Transformer-Based / Model-Based原创 2023-01-08 00:01:04 · 1705 阅读 · 7 评论 -
论文理解【Offline RL】——【DT】Decision Transformer: Reinforcement Learning via Sequence Modeling
标题:Decision Transformer: Reinforcement Learning via Sequence Modeling;发表:NIPS 2021;领域:离线强化学习(offline/batch RL)—— Transformer Based / Hindsight 监督思想原创 2022-12-23 04:01:24 · 5498 阅读 · 7 评论 -
论文理解【Offline RL】——【RvS】What is Essential for Offline RL via Supervised Learning?
RvS: What is Essential for Offline RL via Supervised Learning?;ICLR 2022;离线强化学习(offline/batch RL)—— Hindsight 监督思想原创 2022-12-12 13:48:45 · 1222 阅读 · 0 评论 -
论文理解【Offline RL】——【BCQ】Off-Policy Deep Reinforcement Learning without Exploration
Off-Policy Deep Reinforcement Learning without Exploration;ICML 2019;离线强化学习(offline/batch RL)—— RL-Based 策略约束原创 2022-12-08 17:59:05 · 1896 阅读 · 0 评论 -
论文理解【Offline RL】—— A dataset perspective on offline reinforcement learning
标题:A dataset perspective on offline reinforcement learning;发表:NIPS 2021 Workshop;领域:Offline RL —— 数据集分析原创 2022-10-18 16:13:13 · 1112 阅读 · 0 评论 -
论文理解【RL经典】—— 【SQL】Reinforcement Learning with Deep Energy-Based Policies
标题:Reinforcement Learning with Deep Energy-Based Policies;发表:ICML 2017;领域:强化学习经典(Model-free + 最大熵思想),这篇是 SAC 的前身原创 2022-10-13 17:51:26 · 1632 阅读 · 1 评论 -
论文理解【RL - Exploration】—— 【Go-Explore】First return, then explore
标题:First return, then explore;发表:Nature 2021;领域:强化学习 —— Exploration原创 2022-09-01 11:39:12 · 1965 阅读 · 2 评论 -
论文理解【RL - MARL】—— 【CoPO】Learning to Simulate SDP System with Coordinated Policy Optimization
标题:Learning to Simulate Self-Driven Particles System with Coordinated Policy Optimization;发表:NIPS 2021;领域:强化学习 —— Multi-Agent原创 2022-08-22 22:33:01 · 2009 阅读 · 0 评论 -
论文理解【RL - Exp Replay】—— 【ReMERN & ReMERT】Regret Minimization Exp Replay in Off-Policy RL
标题:Regret Minimization Experience Replay in Off-Policy Reinforcement Learning;发表:NIPS 2021;领域:强化学习 —— experience replay原创 2022-08-19 20:47:12 · 731 阅读 · 0 评论 -
论文理解【RL - Exp Replay】—— 【LFIW】Experience Replay with Likelihood-free Importance Weights
标题:Experience Replay with Likelihood-free Importance Weights;发表:PMLR 2022;领域:强化学习 —— Experience Replay原创 2022-08-01 10:41:49 · 679 阅读 · 0 评论 -
论文理解【RL - Exp Replay】—— 【DisCor】Corrective Feedback in RL via Distribution Correction
DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction;发表于 NIPS 2020;强化学习 Experience Replay 领域原创 2022-08-13 04:18:55 · 1018 阅读 · 2 评论 -
论文理解【RL - Exp Replay】—— An Equivalence between Loss Functions and Non-Uniform Sampling in Exp Replay
标题:An Equivalence between Loss Functions and Non-Uniform Sampling in Experience Replay;发表:NIPS 2020;领域:强化学习 —— Replay Buffer原创 2022-05-25 08:51:45 · 639 阅读 · 0 评论 -
论文理解【RL经典】 —— 【DQN】Human-level control through deep reinforcement learning
标题:Human-level control through deep reinforcement learning发表:Nature 2015领域:强化学习经典(DQN系列)原创 2022-04-13 11:17:08 · 11591 阅读 · 4 评论 -
论文理解【RL - Exp Replay】 —— 【PER】Prioritized Experience Replay
标题:Prioritized Experience Replay文章链接:Curriculum Offline Imitating Learning发表:ICLR 2016领域:强化学习 —— Replay Buffer原创 2022-03-29 14:41:46 · 3209 阅读 · 0 评论 -
论文理解【Offline RL】 —— 【COIL】Curriculum Offline Imitating Learning
标题:Curriculum Offline Imitating Learning发表:NIPS 2021领域:离线强化学习(offline/batch RL)—— IL-based 方法原创 2022-01-16 04:36:56 · 2600 阅读 · 0 评论
分享