- 博客(1696)
- 资源 (7)
- 收藏
- 关注
原创 论文略读:MLPs Learn In-Context on Regression and Classification Tasks
尽管如此,目前仍不清楚 MLP 在大规模、真实世界任务中相较于 Transformer 的具体表现如何,以及两者之间潜在性能差距的来源。因此,作者呼吁进一步研究 MLP 架构在更复杂场景下的能力,以全面理解注意力机制相较于其他神经网络结构的真正优势所在。,即仅凭输入示例即可解决任务的能力,通常被视为 Transformer 模型的独特优势。不仅如此,在一系列来自心理学的经典任务中(这些任务专为测试关系推理能力而设计,且与 in-context 分类密切相关),更进一步地,在相同计算预算下,
2025-06-15 09:14:08
22
原创 论文略读:Does Refusal Training in LLMs Generalize to the Past Tense?
摘要:研究发现当前LLM拒绝训练机制存在时态泛化缺陷,将有害请求改写为过去时(如"How did people make...")可显著提高攻击成功率(GPT-4o从1%升至88%)。实验涵盖10个主流模型,发现未来时改写效果较差,暗示模型更易接受历史性提问。微调实验表明明确包含过去时样本可防御此类攻击。研究揭示现有对齐技术(SFT/RLHF等)的泛化脆弱性,相关代码已开源。
2025-06-15 08:56:45
110
原创 论文略读:SmartRAG: Jointly Learn RAG-Related Tasks From the Environment Feedback
通过联合优化,每个模块都能感知其他模块的行为,从而找到最佳的协作方式,使系统作为一个整体发挥最大效用。我们认为,像 RAG 这样集成多个模块的系统,应该进行。RAG 系统由多个模块协同工作组成。然而,这些模块通常是。对整个系统进行联合优化,设计的奖励函数旨在鼓励系统在。为验证这一观点,我们设计了一个名为。:基于有无检索结果生成最终回答。的特定流程,该流程包括一个。:生成最适合检索器的查询;:判断是否需要进行检索;
2025-06-15 08:28:59
22
原创 论文略读:Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers
我们招募了超过 100 位 NLP 研究人员,让他们撰写新颖想法,并对来自人类和 LLM 的构想进行盲审。然而,迄今为止尚无证据表明 LLM 系统能够完成科研流程的第一步——,首次对比评估了 LLM 研究构想智能体与人类 NLP 研究专家在。这些问题为今后构建更可靠、可信赖的研究智能体提出了重要挑战。近年来,大型语言模型(LLMs)的快速进展激发了人们对其在。方面的巨大潜力的乐观预期。越来越多的研究尝试构建能够。,更不用说完成整个研究流程了。LLM 生成的想法在内容上缺乏。为此,我们提出了一种。
2025-06-15 08:02:58
151
原创 论文略读:Can LLMs Solve Longer Math Word Problems Better?
摘要:本研究首次系统探索大语言模型(LLMs)在长上下文数学推理中的表现,提出"上下文长度泛化能力"(CoLeG)概念并构建E-GSM数据集。针对现有LLMs在冗长数学题上的不足,研究分别对闭源和开源模型提出改进策略:优化指令提示模板和设计微调辅助任务。实验表明这些方法显著提升模型表现,且主要增强推理能力。该工作揭示了LLMs的CoLeG局限,并提供了可泛化的解决方案。
2025-06-15 07:30:53
118
原创 论文略读:Personality Alignment of Large Language Models
考虑到人格对齐面临的挑战(如个人数据有限、偏好多样、对可扩展性要求高),我们提出了一种名为**激活干预优化(activation intervention optimization)**的方法,能够在仅需极少数据与计算资源的条件下,有效提升LLMs对个体行为偏好的对齐能力。为填补这一空白,本文提出了**“人格对齐(Personality Alignment)”在实验中展现出卓越性能,且所需优化时间仅为现有方法 DPO 的。当前的大语言模型(LLMs)在对齐时,通常旨在反映。这一全面的数据集,使我们能够。
2025-06-15 07:15:46
92
原创 论文略读:No Free Lunch: Fundamental Limits of Learning Non-Hallucinating Generative Models
然而,一个长期存在的挑战是**“幻觉”(hallucinations)现象,即模型生成的内容并不基于真实事实。尽管已有一些经验性策略尝试缓解这一问题,但目前尚缺乏严谨的理论理解**。为此,我们给出了一种系统性的方法,即将事实集合限制在具有有限VC维的概念类中,并在多种学习范式下验证了其有效性。迈出了关键的第一步,指明了未来更具原则性和可解释性的研究方向。——即便假设空间的规模仅为2,且整个训练集都是完全真实的。为突破这一限制,我们提出:必须在学习过程中引入与事实一致的。出发,构建了一个理论框架,旨在分析。
2025-06-15 06:53:10
49
原创 论文略读:MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses
本研究探讨大语言模型(LLMs)在化学领域的自动科学发现潜力,重点考察其能否仅凭研究背景问题生成新颖有效的研究假设。基于"化学假设可由背景问题与灵感来源推导"的洞见,研究将问题分解为三个子任务:灵感检索、假设生成和假设排序。通过构建包含51篇顶级期刊论文的基准数据集,并设计基于LLM的多智能体框架,实验证明该方法能有效"重新发现"论文的核心创新点。研究成果验证了LLM在加速化学科学发现方面的可行性。
2025-06-14 23:32:12
141
原创 论文略读: LAYERWISE RECURRENT ROUTER FOR MIXTURE-OF-EXPERTS
本文针对MoE模型中路由器独立分配token导致的参数效率低下问题,提出层间循环路由器RMoE。通过引入GRU建立跨层路由决策依赖关系,RMoE实现高效并行计算的同时显著提升模型性能。实验表明,该架构通过跨层信息共享改善了专家选择的准确性和多样性,且能与现有MoE方法无缝集成。研究为提升MoE模型的参数效率提供了新思路。
2025-06-14 23:24:02
174
原创 论文略读: CITYANCHOR: CITY-SCALE 3D VISUAL GROUNDING WITH MULTI-MODALITY LLMS
本文提出CityAnchor方法,用于城市级点云中的三维视觉指定位。针对现有方法难以处理大规模点云的局限,该方法采用两阶段策略:先通过LLM模型在二维地图上粗定位候选区域,再在这些区域进行细粒度匹配。在CityRefer和新建数据集上的实验验证了该方法的准确性和可扩展性,解决了城市级点云视觉定位的挑战。
2025-06-14 15:17:31
154
原创 论文略读:Imputation for prediction: beware of diminishing returns.
缺失值在众多领域中普遍存在,给预测模型的训练与部署带来了挑战。(如均值填充),也可能在某些情境下表现出一致性(consistency)和竞争力。这项研究挑战了“插补越好,预测越准”的常规假设,为资源分配提供了更理性的依据。:在真实数据场景下,配合强大模型时,插补质量对最终预测性能的影响是。依然对预测性能有帮助,这与传统统计学观点略有不同。然而,近期的理论与实证研究表明,即便是简单的。相比之下,对真实世界数据的预测影响较小。(如随机森林、深度神经网络)时;因此,在许多实际应用中,
2025-06-13 11:53:12
216
原创 论文略读:Projection Head is Secretly an Information Bottleneck
近年来,对比学习(contrastive learning)作为一种提取有意义数据表示的有前景范式,受到了广泛关注。,已被证明能够显著提升对比学习的性能。然而,尽管这一策略在实践中非常成功,其背后的作用机制。出发,对投影头的本质进行了深入的理论研究。我们建立了一个理论框架,能够对。我们相信,这一对投影头作用的理论理解,将为未来在对比学习中的。,以提升其对无关信息的过滤能力。基于上述理论洞察,我们提出了。我们的方法在下游性能上实现了。
2025-06-13 11:12:04
182
原创 论文略读:Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN
相比之下,**后置层归一化(Post-LN)**虽然能在深层保持更大的梯度,但会在浅层遭遇梯度消失的问题。在监督微调阶段,使用 Mix-LN 预训练的模型表现也更好,说明其在提升深层表示质量方面效果显著。尽管部分研究将此视为模型压缩的契机,本文则将其视为一种。我们证明:像 GPT 和 LLaMA 等主流模型所采用的 Pre-LN 会导致模型深层的。大型语言模型(LLMs)已取得显著成果,但近期研究发现,其。,该方法将 Pre-LN 与 Post-LN。,在不增加模型参数规模的前提下,,维持稳定梯度传导;
2025-06-13 11:08:04
165
原创 论文略读:Unlearning or Obfuscating? Jogging the Memory of Unlearned LLMs via Benign Relearning
摘要:研究发现当前大语言模型的遗忘方法存在严重漏洞,容易被简单的"良性"再学习攻击破解。实验表明,仅用少量松散相关数据(如公开医学文章或维基信息)就能唤醒模型"被遗忘"的有害知识(如生物武器信息或文本记忆)。通过对三个主流遗忘基准的测试,发现现有方法仅抑制输出而非真正清除知识表征。研究揭示了当前遗忘技术的本质缺陷,并提出了改进方向与防御建议。
2025-06-13 10:54:24
173
原创 论文略读:Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models
在深度学习的更广泛背景下,多模态大型语言模型(Multimodal Large Language Models)通过将强大的大型语言模型(LLMs)作为骨干,有效地将不同模态对齐至语言空间,从而取得了重大突破。我们实验证明,即使是当前表现最好的 Video-LLMs,在面对无关问题时也无法做出拒答——这并非因其缺乏视频理解能力,而是因为它们。该工作不仅提高了 Video-LLMs 在真实场景下的实用性,也为模型“知之为知之,不知为不知”的能力构建奠定了基础。然而,在现实场景中,用户往往会提出。
2025-06-13 10:33:25
119
原创 论文略读:Number Cookbook: Number Understanding of Language Models and How to Improve It
本研究首次对 LLM 的数值理解与处理能力进行了全面细致的刻画,构建了结构完备的评估基准,并探讨了不同模型架构与训练策略对 NUPA 的影响,揭示了当前 LLM 在基础数值认知方面的显著不足,同时为未来模型的改进提供了重要参考。
2025-06-13 10:22:23
249
原创 论文略读:MUSE: Machine Unlearning Six-Way Evaluation for Language Models
本文提出MUSE评估框架,针对语言模型机器遗忘技术建立了六项关键评估标准:防止原文/知识记忆、隐私保护、模型效用保持、可扩展性和可持续性。通过在70亿参数模型上测试8种主流遗忘算法发现:现有方法普遍难以兼顾删除效果与模型可用性,仅少数能防止隐私泄露,多数会损害保留数据性能且无法支持连续/大规模删除。研究揭示了当前机器遗忘技术的实用缺陷,强调未来需优化删除效果与模型性能的平衡。
2025-06-13 10:05:23
318
原创 论文略读:MoLEx: Mixture of Layer Experts for Fine-tuning with Sparse Upcycling
本文提出层专家混合模型MoLEx,一种新型参数高效微调方法。针对现有PEFT方法忽视模型层间信息互补性的问题,MoLEx创新地将预训练模型不同层作为"专家"进行条件组合,通过选择性激活层组合提取更丰富的结构化信息。该方法属于稀疏专家混合结构,在保持高效性的同时不增加额外计算开销。实验表明,MoLEx在GLUE和E2E等NLU/NLG任务中显著提升性能,为参数高效微调提供了利用模型层结构资源的新思路。
2025-06-13 08:30:36
347
原创 论文略读:Do Large Language Models Truly Understand Geometric Structures?
几何能力对大型语言模型(LLMs)而言是一项重大挑战,因为它不仅要求模型具备高级的空间理解力,还涉及抽象思维能力。然而,现有的数据集大多只关注模型的。基于 GeomRel 基准,我们对多种 LLM 进行了系统评估,发现当前模型在理解几何结构方面仍存在显著局限性。GeoCoT 的引入不仅带来了显著的性能改进,也为提升 LLM 的空间推理能力提供了新的研究方向。,该方法引导模型在解题过程中明确推理几何关系,从而显著提升了模型的识别和推理能力。,更准确地评估 LLM 对几何结构的理解能力。
2025-06-13 08:09:14
214
原创 论文略读:SysBench: Can LLMs Follow System Message?
本文介绍了一个名为SysBench的新基准,旨在评估大型语言模型(LLMs)对系统消息的遵循能力。针对当前LLMs在约束违规、指令误判和多轮对话不稳定性方面的局限,研究团队构建了包含500条定制化系统消息和多样化多轮对话的手工数据集,涵盖六类常见约束类型。通过制定完整的评估协议,研究对多个现有LLMs进行了系统测试,揭示了模型在遵循系统消息方面的优缺点。这项工作填补了该领域缺乏全面评估基准的空白,为未来优化LLMs的系统消息响应能力提供了重要参考。
2025-06-13 08:03:20
99
原创 论文略读:Ask, and it shall be given: On the Turing completeness of prompting
本文首次对大型语言模型(LLM)的提示范式进行理论研究,证明提示机制具有图灵完备性:固定大小的Transformer通过适当提示可实现任意可计算函数。研究还发现有限规模LLM通过提示能达到接近无限规模模型的复杂度上限。该成果为提示工程提供了理论基础,表明固定规模LLM通过提示即可实现多任务处理与泛化能力,为后续研究指明方向。
2025-06-13 07:56:33
188
原创 论文略读:Why Does the Effective Context Length of LLMs Fall Short?
实验结果表明,STRING 在无需重新训练的情况下,大幅提升了最新大规模模型(如 Llama3.1 70B 和 Qwen2 72B)在长上下文基准测试(RULER 和 InfiniteBench)中的表现,提升幅度超过 10 个百分点,分布式训练技术和高效注意力机制的进步,显著扩展了大型语言模型(LLMs)的上下文窗口长度。本研究将这一局限归因于:在预训练与后训练阶段,模型内部形成了。,这一分布妨碍了模型有效捕捉远距离信息的能力。,提升模型在长上下文中的表现能力。,以覆盖原本无效的位置,从而在。
2025-06-13 01:02:04
187
原创 论文略读:A Large-scale Dataset and Benchmark for Commuting Origin-Destination Flow Generation
通勤起始-目的地(OD)流是城市规划与交通系统中的关键输入,提供了某一地区居民在其他地区工作的流动信息。然而,受限于高昂的数据采集成本,研究者提出了多种物理和计算模型,利用现成的城市属性(如社会经济数据和兴趣点)来。这一发现可能会启发该领域向**图生成建模(graph generative modeling)**方向迈进。现有研究采用了多种不同技术,在不同数据集上使用不同评估指标,导致模型间难以直接比较,阻碍了统一评估标准的建立。为解决这一问题,我们构建了一个。的通勤OD流,涵盖了各类城市环境。
2025-06-13 00:58:30
216
原创 论文略读“LLM Unlearning via Loss Adjustment with Only Forget Data
这一挑战的根本原因在于,利用显式的保留数据或参考模型中隐含的保留知识来微调模型,往往会模糊“应被遗忘”与“应被保留”数据之间的界限,因为不同的查询可能引发相似的响应。所定义的f-散度的变分形式从理论上提供了一种调整损失的方式,即通过对模板响应的学习与对应被遗忘响应的忘记赋予不同的权重。实验结果表明,我们的方法不仅在遗忘性能方面优于现有方法,同时还能最小化对模型保留能力的影响,在多个任务上保持较高的效用,包括在《哈利·波特》数据集和MUSE基准上的版权内容遗忘,以及在TOFU数据集上的实体遗忘任务。
2025-06-13 00:53:46
137
原创 论文略读:Diffusion Transformers for Tabular Data Time Series Generation
本文提出基于DiffusionTransformers(DiTs)的方法解决时序表格数据生成的两大挑战:数据异质性和序列长度可变性。通过扩展DiTs框架并引入异构数据支持,在六个数据集上的实验表明,该方法显著优于现有技术,为这一新兴领域提供了有效解决方案。
2025-06-12 18:37:50
161
原创 论文略读:Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs
本文提出LoKU框架,针对大型语言模型(LLMs)中的敏感数据遗忘问题,设计了一种高效稳健的解决方案。该方法采用反向合页损失抑制敏感词生成,并引入基于相对Fisher信息的低秩初始化策略,实现选择性参数更新。实验在GPT-Neo、Phi-1.5B和Llama2-7B模型上进行验证,结果表明LoKU能有效删除敏感信息,同时最小化对模型性能的影响。项目代码已开源。
2025-06-12 18:33:46
307
原创 论文略读:CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery
CS-Bench:首个计算机科学领域的多语言基准测试集 研究团队开发了CS-Bench,这是首个用于评估大型语言模型(LLMs)在计算机科学领域表现的多语言基准测试集。该测试集包含约10,000个样本,覆盖计算机科学四大核心领域的26个子领域,支持英语、中文、法语和德语四种语言。通过对30多个主流LLM的系统评估,研究发现模型规模与其计算机科学能力密切相关,并发现LLMs在该领域的表现与其数学和编程能力高度相关。研究还量化分析了现有模型的不足,指出知识补充和专属推理机制等改进方向。该成果为评估LLMs在计算
2025-06-12 18:30:45
166
原创 论文略读:Large Language Models Assume People are More Rational than We Really are
研究发现主流大型语言模型(LLMs)对人类决策行为的预测存在系统性偏差:这些模型普遍高估人类理性程度,更倾向于使用期望值理论而非真实人类决策模式进行预测。有趣的是,这种偏差与人类在解释他人行为时表现出的"理性预期"高度相似。研究表明,LLMs学习到的决策模型更接近"人们如何期望别人决策",而非"人们实际如何决策",揭示了模型与人类心理预期之间的微妙对齐,以及其在理解真实人类行为上的局限。该成果通过系统比较多种先进LLMs与大规模人类决策数据集得出。
2025-06-12 18:20:25
482
原创 论文略读:Small-to-Large Generalization: Training Data Influences Models Consistently Across Scale
本文探讨了训练数据分布对不同规模语言模型行为的影响。研究发现,小模型和大模型对数据变化的响应高度相关,这一发现为利用低成本代理模型推断大模型行为提供了依据。研究重点分析了这一规律在数据归因和数据集选择两个关键应用中的有效性,证明小规模实验可有效预测大模型趋势,为优化大规模模型开发的数据策略提供了经济可行的解决方案。
2025-06-12 17:38:04
97
原创 论文略读:AutoG: Towards automatic graph construction from tabular data
本文聚焦图机器学习中常被忽视的图构建问题,针对现有研究缺乏系统性探索的现状,提出两项核心贡献:一是构建专用数据集以形式化评估图构建方法,二是开发基于大语言模型的AutoG自动建图系统。实验证明AutoG生成的图结构质量媲美人工构建,显著影响下游任务性能。研究为自动图构建提供了标准化评估框架与实用工具,相关代码已开源。
2025-06-12 17:34:36
332
原创 论文略读:S4M: S4 for multivariate time series forecasting with Missing values
本文提出端到端时间序列预测框架S4M,用于解决块状缺失数据场景下的预测问题。与传统两阶段方法不同,S4M将缺失数据建模直接集成到结构化状态空间序列模型(S4)中,通过自适应时间原型映射器提取稳健表示,并采用缺失感知双流S4模型处理数据,有效捕捉时空依赖关系。实验表明,S4M在多个真实数据集上表现优于现有方法,展现了处理缺失数据的强大能力。代码已开源。
2025-06-12 17:22:24
282
原创 论文略读:HR-Extreme: A High-Resolution Dataset for Extreme Weather Forecasting
本文针对极端天气预测的数据和模型不足问题,提出了高分辨率极端天气数据集HR-Extreme,基于NOAA的HRRR数据构建。评估发现现有深度学习模型和数值预报系统对极端天气的预测误差显著高于整体水平。提出的改进模型HR-Heim在极端天气预测上表现更优。研究揭示了极端天气是重要误差来源,强调未来需重点提升其预测准确性以增强实用价值。
2025-06-12 17:17:52
169
原创 论文略读:RegMix: Data Mixture as Regression for Language Model Pre-training
RegMix 首先在多种数据混合上训练大量小模型,通过回归模型预测未见数据混合的性能,最后将预测效果最好的混合比例。上训练,用于拟合回归模型并预测最佳混合策略。随后,我们使用该预测的最佳混合比例训练了一个。(即模型大小扩大 1000 倍,训练数据量扩大 25 倍)。大型语言模型(LLM)的预训练数据混合比例对模型性能有显著影响,但。,因此需要 RegMix 这样的自动方法;,以此实现计算资源的大规模放大利用。更进一步,RegMix 在最多。不同领域之间的交互十分复杂,在实证验证中,我们训练了。
2025-06-11 15:27:10
292
原创 论文略读 CAUSALRIVERS- SCALING UP BENCHMARKING OF CAUSAL DISCOVERY FOR REAL-WORLD TIME-SERIES
【摘要】本文介绍了CausalRivers——目前最大规模的时序因果发现基准套件,旨在解决现有方法在真实场景评估不足的问题。该基准基于东德(666站)和巴伐利亚(494站)2019-2023年15分钟分辨率的水文数据,包含易北河洪水事件等特殊场景,构建了两个真实因果图并可生成数千子图。实验评估了多种因果发现方法的表现,证明该基准能促进方法间的公平比较。除因果发现外,该数据集还可用于时序预测、异常检测等领域,有望推动因果发现方法的发展。
2025-06-11 15:24:54
269
原创 论文略读:When Attention Sink Emerges in Language Models: An Empirical View
本文研究发现,自回归语言模型中普遍存在"注意力陷阱"现象,即模型对首个token分配过多注意力。研究揭示该现象源于预训练中softmax归一化导致的键偏置,表现为非信息性的注意力分数存储。实验表明,在10亿参数规模以内,采用sigmoid注意力可消除该现象。该发现为理解语言模型机制和优化推理过程提供了新视角。
2025-06-11 15:19:38
474
原创 论文略读:RAG-SR: Retrieval-Augmented Generation for Neural Symbolic Regression
为缓解语言模型可能产生的“幻觉(hallucination)”,我们设计了一个。,在运行时自适应地生成符合语义需求的符号树,作为有效的特征构造模块。,以便更好地与基于搜索的符号回归算法集成。,这不仅消耗大量计算资源,还难以应对包含。,显式利用搜索到的符号表达式进行约束。,进一步提升模型的鲁棒性与泛化能力。为解决这些限制,我们提出了一个。实验结果表明,我们的框架在。此外,我们还引入了一种。
2025-06-11 15:16:03
259
原创 论文略读:Multiple-choice question answering (MCQA) is a key competence of performant transformer languag
多项选择问答(Multiple-choice question answering, MCQA)是衡量高性能 Transformer 语言模型核心能力的关键任务,已被多个主流基准广泛采用。然而,近期研究发现,即使是表现优异的模型,在任务格式稍作变化(例如打乱选项顺序)时,性能也可能大幅波动。为此,我们采用**词汇投影(vocabulary projection)与激活补丁(activation patching)**等方法,定位模型中负责预测正确答案的关键隐藏状态。最后,我们发现,在整个训练过程中,
2025-06-11 11:59:01
127
原创 论文略读:Mixture-of-Agents Enhances Large Language Model Capabilities
摘要: 论文提出了一种新型的Mixture-of-Agents(MoA)架构,用于整合多个大语言模型(LLMs)的集体智慧。该分层结构通过让每层代理(agent)参考前一层所有代理的输出,实现了多模型优势的协同。实验表明,MoA在AlpacaEval2.0、Arena-Hard等基准测试中性能超越GPT-4Omni,达到了当前最优水平。该方法为多LLM协同提供了有效解决方案。
2025-06-11 11:56:05
327
原创 论文略读:DAILYDILEMMAS:REVEALINGVALUEPREFERENCES OFLLMSWITHQUANDARIESOFDAILYLIFE
Plutchik 情绪之轮(Plutchik's Wheel of Emotions)马斯洛需求层次(Maslow's Hierarchy of Needs)道德基础理论(Moral Foundations Theory)亚里士多德美德伦理(Aristotle's Virtues)世界价值观调查(World Values Survey)
2025-06-11 11:52:27
319
原创 论文略读:Robustness Reprogramming for Representation Learning
2025 ICLR spotlight
2025-06-11 11:23:13
144
network embedding lecture slide
2023-01-01
python 实现 cmaes (调用方便)
2022-02-13
ASTGCN(AAAI 2019).pdf
2021-08-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人