自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2727)
  • 资源 (1)
  • 收藏
  • 关注

原创 2025_NIPS_DECEPTIONBENCH: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenari

尽管大型语言模型(LLMs)在各类认知任务中取得了显著进展,但这些能力的快速提升也催生了新的欺骗行为,可能在高风险应用场景中引发严重风险。更关键的是,真实世界场景中欺骗行为的特征仍未得到充分探索。为填补这一空白,我们构建了DeceptionBench——首个系统评估欺骗倾向在不同社会领域如何表现、其内在行为模式是什么以及外在因素如何影响这些倾向的基准测试集。

2026-01-09 11:30:00 1

原创 2025_NIPS_ViSpec: Accelerating Vision-Language Models with Vision-Aware Speculative Decoding

该研究聚焦于视觉语言模型(VLMs)推理加速问题,针对现有推测解码技术在VLMs中仅能实现有限加速(<1.5倍)的痛点,提出了专为VLMs设计的视觉感知推测解码框架(ViSpec)。核心思路是解决视觉数据冗余与模态一致性难题:通过轻量级视觉适配模块压缩图像令牌,提取全局视觉特征并注入文本生成过程,同时构建含长响应的合成训练数据集,让小型草稿模型能有效利用视觉上下文进行预测。

2026-01-09 10:30:00 2

原创 2025_NIPS_Act Only When It Pays: Efficient Reinforcement Learning for LLM Reasoning via Selective Ro

强化学习(如PPO和GRPO)推动了近期大语言模型(LLM)推理任务的突破性进展。扩大rollout规模以采样更多提示词,能让模型选择性地使用更高质量的数据进行训练,从而稳定强化学习训练过程并提升模型性能,但这会带来巨大的计算开销。本文首先证明,通过在rollout前跳过无信息提示词,可避免很大一部分此类开销。我们对奖励动态的分析揭示了提示词价值具有强时间一致性:在某一训练轮次中无信息的提示词,在未来近期轮次中可能仍保持无信息状态。

2026-01-09 09:30:00 4

原创 2025_NIPS_DIFFSSR: Stereo Image Super-resolution Using Differential Transformer

在计算机视觉领域,立体图像超分辨率(StereoSR)任务因其在增强现实、虚拟现实和自动驾驶中的潜在应用而受到广泛关注。传统基于Transformer的模型虽功能强大,但常受注意力噪声影响,导致超分辨率图像的重建效果欠佳。本文提出一种名为DIFFSSR的新型神经网络架构,旨在解决这些挑战。我们引入差分交叉注意力块(DCAB)和滑动立体交叉注意力模块(SSCAM),以增强特征融合并减轻注意力噪声的影响。DCAB能够区分相关与无关上下文,放大对重要特征的注意力并抵消噪声;

2026-01-09 08:30:00 4

原创 2025_NIPS_DNA-DetectLLM: Unveiling AI-Generated Text via a DNA-Inspired Mutation-Repair Paradigm

随着大型语言模型(LLMs)的快速发展,AI生成文本与人类撰写文本的界限日益模糊,引发了虚假信息传播、著作权归属模糊、知识产权纠纷等社会风险,亟需可靠的AI生成文本检测方法。然而,现有生成模型的输出质量不断提升,导致两类文本的特征分布大量重叠,传统检测方法(基于训练或无训练)因依赖固定特征边界,检测准确性和鲁棒性面临严峻挑战。随着大型语言模型(LLMs)的快速发展,AI生成文本与人类撰写文本的界限已变得模糊。

2026-01-09 07:30:00 3

原创 2025_NIPS_Conformal Information Pursuit for Interactively Guiding Large Language Models

指令微调的大型语言模型(LLMs)的一个重要应用场景是交互式解决问答任务。在该场景中,LLM智能体需要通过向用户依次查询相关信息来进行预测,而非单轮对话。本文探索了旨在最小化预期查询次数的序列查询策略。信息追踪(IP)便是其中一种策略,它是一种贪心算法,在每次迭代中选择能最大化信息增益(或等价地最小化不确定性)的查询。然而,由于LLM的概率输出往往存在过度自信或自信不足的问题,实际中很难准确估计其互信息或条件熵,这导致查询选择和预测性能欠佳。

2026-01-08 11:30:00 2

原创 2025_NIPS_PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation

大语言模型(LLMs)在文本到SQL(Text-to-SQL)任务中已展现出日益显著的有效性。然而,另一项密切相关的任务——跨系统SQL翻译(又称SQL到SQL翻译),即将为一个数据库系统(如MySQL)编写的查询转换为适用于另一个系统(如ClickHouse)的等效查询,具有极高的实际意义,但尚未得到充分探索。现有SQL基准测试并不适合用于SQL到SQL翻译的评估,原因在于:(1)它们仅聚焦于有限的数据库系统(通常仅为SQLite);

2026-01-08 10:30:00 2

原创 LLM Weekly(2025.12.29-2026.1.4)

深度求索提出全新训练方法,助力中国人工智能能效提升 深度求索发布一篇关于流形约束超连接(Manifold-Constrained Hyper-Connections) 的论文,该训练框架可提升大型人工智能模型的可扩展性,同时降低算力与能耗需求。研究团队基于字节跳动2024年的技术成果,对参数量从30亿到270亿不等的模型展开测试。此项研究先于深度求索备受期待的R2模型问世,分析人士指出,即便面临美国的芯片限制,该模型仍有望再度颠覆全球人工智能领域格局。谷歌在NotebookLM平台测试30分钟音频课程功能

2026-01-08 10:11:22 5

原创 2025_NIPS_Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis

本文聚焦光滑非凸优化问题,研究非线性预处理梯度方法,重点分析类Sigmoid预处理子(自带梯度裁剪特性),提出带动量的改进算法和随机变体,并通过理论推导与实验验证其有效性。我们研究适用于光滑非凸优化问题的非线性预处理梯度方法,重点关注类Sigmoid预处理子——这类预处理子本质上实现了一种梯度裁剪,与广泛使用的梯度裁剪技术类似。基于这一思路,我们提出一种新型重球型(heavy ball-type)算法,并在广义光滑性条件下提供收敛保证。

2026-01-08 09:30:00 4

原创 2025_NIPS_Efficient Prompt Compression with Evaluator Heads for Long-Context Transformer Inference

尽管涉及长文本输入的应用对于有效利用大语言模型(LLMs)至关重要,但这些应用也会导致计算成本增加和性能下降。为解决这一挑战,我们提出了一种高效、无需训练的提示压缩方法,该方法能在压缩后的提示中保留关键信息。我们在基于Transformer的LLMs中识别出特定的注意力头(我们将其命名为评估头),这些注意力头能够筛选出长输入中对推理最为重要的tokens。基于这一发现,我们开发了EHPC——一种基于评估头的提示压缩方法。

2026-01-08 08:30:00 112

原创 2025_NIPS_Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning

思维链(CoT)中仅少数令牌(约20%)具有高熵,这类“分叉令牌”是决定推理路径的关键节点,低熵令牌主要完成语句衔接。RLVR训练中,模型基本保留基础模型的熵模式,主要调整高熵令牌的熵值,低熵令牌熵值波动极小。仅针对Top20%高熵令牌进行策略梯度更新,在Qwen3系列模型上实现与全令牌训练相当或更优的性能,且模型规模越大效果越显著(32B模型在AIME基准上提升超11分),而仅训练低熵令牌会导致性能大幅下降。

2026-01-08 07:30:00 95

原创 2025_NIPS_MISA: Memory-Efficient LLMs Optimization with Module-wise Importance Sampling

该文针对大语言模型(LLMs)预训练和微调的高内存需求问题,提出一种基于模块级重要性采样的内存高效优化方法MISA。MISA将Transformer层分解为更细粒度的模块(如多头注意力的WqW_qWq​WkW_kWk​WvW_vWv​、前馈网络的WupW_{up}Wup​WdownW_{down}Wdown​等),通过加权随机采样激活模块进行优化,在减少梯度方差的同时,实现比现有分层优化方法更优的内存效率和收敛性能。

2026-01-07 10:30:00 5

原创 2025_NIPS_Mint: A Simple Test-Time Adaptation of VisionLanguage Models against Common Corruptions

预训练视觉语言模型(如CLIP)具有出色的零样本泛化能力,但在输入损坏导致的分布偏移下仍易受影响。本文研究了损坏对CLIP图像嵌入的影响,发现一种一致现象——嵌入方差坍缩:随着损坏程度增加,类内和类间方差均会缩小。我们发现这种坍缩与性能退化密切相关,类间方差与分类准确率呈强相关性。为解释该现象,我们分析了损坏如何改变嵌入空间结构,理论结果表明视觉编码器倾向于编码损坏相关信号,稀释类别判别特征并压缩表示几何结构。我们进一步证明,即使基于伪标签估计,最大化类间方差也能显著提升嵌入质量。

2026-01-07 09:30:00 109

原创 2025_NIPS_JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

该研究聚焦视觉语言模型(VLMs)的安全边界漏洞,提出了一种名为JailBound的新型越狱攻击框架,核心目标是突破VLMs的内部安全机制,诱导其生成违反政策的有害输出。视觉语言模型(VLMs)展现出令人瞩目的性能,但强大视觉编码器的集成显著扩大了其攻击面,使其越来越容易受到越狱攻击。然而,现有越狱方法缺乏明确的攻击目标,往往依赖易陷入局部最优且缺乏精准方向引导的梯度策略,并且通常分离处理视觉和文本模态——这种做法忽视了关键的跨模态交互,从而限制了攻击效果。

2026-01-07 08:30:00 71

原创 2025_NIPS_IGD: Token Decisiveness Modeling via Information Gain in LLMs for Personalized Recommendat

本文聚焦于基于大语言模型(LLM)的推荐系统(LLM4Rec),核心解决现有方法中“平等对待所有物品令牌”导致的性能缺陷。现有LLM4Rec将推荐任务转化为令牌级自回归生成任务,但仅追求令牌可能性最大化,忽略了不同令牌在物品区分中的“决定性差异”——大量低决定性令牌(如语法填充词)虽贡献小,却因高logit值主导训练和解码,引入偏差。令牌决定性量化方法:将物品生成视为决策过程,用“信息增益(IG)”衡量令牌决定性(即令牌对降低物品分布不确定性的贡献);IGD策略。

2026-01-07 07:30:00 5

原创 2025_NIPS_CLAWS:Creativity detection for LLM-generated solutions using Attention Window of Sections

近年来,大型语言模型(LLMs)在提升推理能力方面取得了显著成功。通过强化学习(RL)训练的LLM在数学和编程等挑战性任务中表现出色,即便模型规模相对较小。然而,尽管这些模型在任务准确性上取得了令人瞩目的进步,与写作任务不同,推理任务中LLM生成内容的创造力评估却被严重忽视。推理任务中创造力评估研究的缺失主要源于两大挑战:(1)创造力的范围难以界定;(2)评估过程需要人工参与。

2026-01-06 10:30:00 67

原创 2025_NIPS_Predictive Coding Enhances Meta-RL To Achieve Interpretable Bayes-Optimal Belief Represent

该研究聚焦部分可观测环境(POMDPs)下的元强化学习(meta-RL),针对传统元强化学习虽能接近贝叶斯最优策略,但难以学习紧凑、可解释的贝叶斯最优信念状态的问题,提出将自监督预测编码模块融入元强化学习框架。通过在多种POMDP任务(如双臂老虎机、Tiger任务、连续控制任务等)中进行状态机仿真分析,验证了该框架能学习到更接近贝叶斯最优信念的可解释表示,在需要主动信息收集的复杂任务中表现更优,且显著提升泛化能力(零样本泛化和分布外迁移学习)。

2026-01-06 09:30:00 375

原创 2025_NIPS_Neither Valid nor Reliable? Investigating the Use of LLMs as Judges

自然语言生成(NLG)系统的评估仍是自然语言处理(NLP)领域的核心挑战,而旨在实现通用性的大型语言模型(LLMs)的兴起进一步加剧了这一复杂性。近年来,大型语言模型作为评估者(LLJs)已成为传统评估指标的潜在替代方案,但其实效性尚未得到充分探索。本立场论文认为,当前对LLJs的热潮可能为时尚早,因为其应用速度已超过对其作为评估者的可靠性和有效性的严格审查。

2026-01-06 08:30:00 130

原创 2025_NIPS_Transformers Learn Faster with Semantic Focus

各种形式的稀疏注意力已被用于缓解Transformer中注意力机制的二次计算和内存成本。我们并非从效率角度,而是从可学习性和泛化能力的角度研究稀疏Transformer。通过对多种注意力机制的实证研究,我们发现:输入依赖型稀疏注意力模型的收敛速度和泛化能力似乎优于标准注意力模型,而输入无关型稀疏注意力模型则无此优势——这一现象在不同架构和优化超参数选择下均稳健存在。这一结果可解读为:通过输入依赖型稀疏注意力的形式,将模型的“语义聚焦”集中在当前考虑的令牌上,能够加速学习过程。

2026-01-06 07:30:00 176

原创 2024_ICLR_Honorable mentions_AMORTIZING INTRACTABLE INFERENCE IN LARGE LANGUAGE MODELS

该研究针对自回归大语言模型(LLMs)在难解后验分布采样中的局限,提出一种基于生成流网络(GFlowNets)的微调方法,通过摊销贝叶斯推理实现对难解后验的高效采样。核心优势包括提升样本多样性、数据效率和分布外泛化能力,在句子续写、故事填充、主观性分类、算术推理等任务中验证了有效性。自回归大语言模型(LLMs)通过下一个token的条件分布从训练数据中压缩知识,这限制了只能通过从头到尾的自回归采样来高效查询这些知识。然而,许多重要任务(包括序列续写、文本填充和其他形式的约束生成)都涉及从未知后验分布中采样。

2026-01-05 10:15:00 9

原创 2024_ICLR_Honorable mentions_BEYOND WEISFEILER-LEHMAN: A QUANTITATIVE FRAMEWORK FOR GNN

本文针对现有Weisfeiler-Lehman(WL)层级评估图神经网络(GNN)表达能力的局限性(粗糙、定性、与实际需求脱节),提出了一种基于同态表达性(homomorphism expressivity)的定量分析框架。核心是通过GNN模型对图结构的同态计数能力,刻画其可编码的子结构集合,实现不同GNN架构的精准表达性对比。

2026-01-05 08:30:00 95

原创 2024_ICLR_Honorable mentions_APPROXIMATING NASH EQUILIBRIA IN NORMALFORM GAMES VIA STOCHASTIC

我们提出了首个适用于标准型博弈近似纳什均衡的损失函数,该函数支持无偏蒙特卡洛估计。这一构造使我们能够部署标准的非凸随机优化技术来近似纳什均衡,进而形成具有可证明保证的新型算法。我们通过实验补充了理论分析,结果表明随机梯度下降能够优于以往的最优方法。

2026-01-05 08:00:00 10

原创 2025_NIPS_HETEROGENEOUS SWARMS: Jointly Optimizing Model Roles and Weights for Multi-LLM Systems

我们提出HETEROGENEOUS SWARMS算法,通过联合优化模型角色与权重来设计多LLM系统。该算法将多LLM系统表示为基于拓扑消息传递的LLM有向无环图(DAG),以实现协作生成。给定一组LLM专家和效用函数,HETEROGENEOUS SWARMS包含两个迭代步骤:角色步骤和权重步骤。

2026-01-05 07:45:00 127

原创 2024_ICLR_GENERALIZATION IN DIFFUSION MODELS ARISES FROM GEOMETRY-ADAPTIVE HARMONIC REPRESENTATIONS

深度神经网络(DNNs)经图像去噪训练后,可通过基于得分的反向扩散算法生成高质量样本。这些令人印象深刻的能力似乎意味着其摆脱了维数灾难,但近期关于训练集记忆现象的报道引发了一个疑问:这些网络是否在学习数据的“真实”连续密度?本文表明,当训练图像数量足够大时,在数据集非重叠子集上训练的两个DNN会学习到几乎相同的得分函数,进而学习到相同的密度。在这种强泛化机制下,扩散生成的图像与训练集不同且视觉质量很高,这表明DNN的归纳偏置与数据密度高度契合。

2026-01-04 10:30:00 7

原创 2024_ICLR-LEARNING INTERACTIVE REAL-WORLD SIMULATORS

在互联网数据上训练的生成模型彻底改变了文本、图像和视频内容的创作方式。或许生成模型的下一个里程碑是能够响应人类、机器人和其他交互式智能体的动作,模拟真实体验。真实世界模拟器的应用范围广泛,从游戏和电影中的可控内容生成,到纯在模拟环境中训练可直接部署于现实世界的具身智能体等。本文探索了通过生成建模学习通用真实世界交互模拟器(UniSim)的可能性。

2026-01-04 09:30:00 87

原创 2024_NIPS_Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Chall

时空推理在网络物理系统(CPS)中起着关键作用。尽管大型语言模型(LLMs)和大型推理模型(LRMs)取得了诸多进展,但它们对复杂时空信号的推理能力仍未得到充分探索。本文提出了一个分层的时空推理基准测试STARK,从三个推理复杂度层级系统评估LLMs:状态估计(例如预测场变量、时空事件定位与跟踪)、基于状态的时空推理(例如推断时空关系)以及融合上下文和领域知识的世界知识感知推理(例如意图预测、地标感知导航)。

2026-01-04 08:45:00 122

原创 2024_ICLR-Never Train from Scratch: FAIR COMPARISON OF LONGSEQUENCE MODELS REQUIRES DATA-DRIVEN PRIO

在机器学习领域,建模序列中的长程依赖关系是一项长期目标,这催生出诸如状态空间模型等架构,它们在长序列任务上的性能显著优于Transformer。然而,这些令人印象深刻的实证增益大多是在基准测试(如Long Range Arena)中验证的——在这些基准中,模型采用随机初始化,通过输入序列预测目标标签进行训练。本文中,我们发现随机初始化会严重高估不同架构间的性能差异;

2026-01-04 08:30:00 11

原创 2024_ICLR-PROTEIN DISCOVERY WITH DISCRETE WALK-JUMP SAMPLING

我们通过学习平滑能量函数、利用朗之万马尔可夫链蒙特卡洛(MCMC)从平滑数据流形采样、并通过单步去噪投影回真实数据流形,解决了离散生成模型的训练和采样难题。我们的离散步跳采样(dWJS)框架融合了基于能量模型的对比散度训练和基于分数模型的样本质量优势,同时通过仅需单一噪声水平的设计简化了训练和采样过程。我们在抗体蛋白质生成建模任务中评估了该方法的鲁棒性,并引入分布一致性分数作为蛋白质生成模型的基准指标。

2026-01-04 07:30:00 8

原创 2024_ICLR_VISION TRANSFORMERS NEED REGISTERS

问题发现:在监督学习(如DeiT-III)、文本监督学习(如OpenCLIP)和自监督学习(如DINOv2)训练的ViT模型中,存在一类特征图伪影——高范数异常令牌(outlier tokens)。这类令牌占总令牌数约2%,范数约为普通令牌的10倍,主要出现在图像低信息背景区域,在模型中层附近出现,仅在大尺寸模型经过足够长时间训练后产生。伪影特性。

2026-01-03 10:30:00 94

原创 MMGR: Multi-Modal Generative Reasoning

本文提出了MMGR(多模态生成推理评估基准),旨在解决现有生成模型评估仅侧重感知保真度(如FVD)、忽视物理、逻辑、空间等核心推理能力的缺陷。该基准基于物理推理、逻辑推理、3D空间推理、2D空间推理、时间推理五大核心能力,覆盖三大任务领域:抽象推理(迷宫、数独、ARC-AGI、数学题)、具身导航(3D实景导航、最后一公里导航等)、物理常识(基础物理交互、体育场景),共包含1853个评估样本。

2026-01-03 09:30:00 99

原创 2024_ICLR_Honorable mentions_FLOW MATCHING ON GENERAL GEOMETRIES

我们提出黎曼流匹配(RFM),这是一种在流形上训练连续归一化流的简洁而强大的框架。现有流形生成建模方法要么需要昂贵的模拟,要么本质上无法扩展到高维,要么对极限量采用近似导致训练目标有偏。黎曼流匹配绕过了这些限制,相比现有方法具有多项优势:在简单几何上无需模拟、无需计算散度、且能以闭形式计算目标向量场。RFM的核心创新在于构建了一种相对简单的预度量用于定义目标向量场,该预度量涵盖了现有的欧几里得情形。为扩展到通用几何,我们利用谱分解实时高效计算预度量。

2026-01-03 07:30:00 17

原创 2024_NIPS_Bootstrap Off-policy with World Model

在线规划已被证明在强化学习(RL)中能有效提升样本效率和最终性能。然而,利用规划进行环境交互不可避免地会导致收集的数据与策略实际行为之间出现分歧,从而损害模型学习和策略改进的效果。为解决这一问题,我们提出了 BOOM(Bootstrap Off-policy with WOrld Model)框架,该框架通过 Bootstrap 循环将规划与离线策略学习紧密整合:策略初始化规划器,规划器通过行为对齐精炼动作以引导策略更新。

2026-01-02 12:45:00 14

原创 2024_ICLR_Honorable mentions_IS IMAGENET WORTH 1 VIDEO? LEARNING STRONG IMAGE ENCODERS FROM 1 LONG

自监督学习解锁了将预训练规模扩展到数十亿张图像的潜力,因为无需进行标注。但我们是否在充分利用数据?我们能否更高效地利用数据?在本研究中,我们通过两项贡献尝试回答这一问题。首先,我们对第一人称视频展开研究,推出了“Walking Tours”数据集。这些视频分辨率高、时长可达数小时,以单次不间断拍摄的形式呈现,包含大量物体、动作以及自然的场景过渡。它们无需标注且未经筛选,因此适用于自监督学习,且与人类学习过程具有可比性。其次,我们提出一种新颖的自监督图像预训练方法,专为连续视频学习量身打造。

2026-01-02 09:30:00 127

原创 2024_ICLR_Honorable mentions_META CONTINUAL LEARNING REVISITED: IMPLICITLY ENHANCING ONLINE HESSIAN

正则化方法迄今为止一直是持续学习的主流选择。近期理论研究表明,这些方法本质上均依赖于模型权重的Hessian矩阵近似。然而,由于训练过程中Hessian估计固定不变,它们在知识迁移与遗忘之间存在次优权衡。另一类看似并行的元持续学习(Meta-CL)算法,通过对齐先前任务与当前任务的梯度发挥作用。本文重新审视Meta-CL,并首次建立其与正则化方法的关联。具体而言,Meta-CL以在线方式隐式近似Hessian,兼具及时自适应的优势,但同时受限于记忆缓冲随机采样带来的高方差问题。

2026-01-02 08:30:00 121

原创 Step-GUI Technical Report

多模态大型语言模型的最新进展为GUI自动化带来了前所未有的机遇。然而,一个核心挑战依然存在:如何在保证标注可靠性的同时,高效获取高质量训练数据?本文提出一种由校准步骤奖励系统(Calibrated Step Reward System)驱动的自进化训练流程,通过轨迹级校准将模型生成的交互轨迹转化为可靠的训练信号,在实现>90%标注准确率的同时,将成本降低10~100倍。

2026-01-02 07:30:00 18

原创 2024_NIPS_What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions

本文聚焦大语言模型(LLMs)训练数据的价值评估问题,核心解决现有数据评估方法在LLM场景下计算和内存成本过高的痛点。通过改进基于梯度的影响函数(influence functions),提出低秩梯度投影算法LOGRA和开源软件LOGIX,实现了高效、可扩展的数据价值评估。实验验证了该方案在准确性与效率上的优势,可支持十亿级参数模型和万亿级token数据集的评估,为数据提供者的信用认定与补偿提供技术支撑。大型语言模型(LLMs)基于海量人类撰写数据训练,但数据提供者往往未获得相应认可。

2026-01-01 13:45:00 12

原创 Adaptation of Agentic AI

智能体适配(Agent Adaptation):优化智能体内部参数或策略,包括A1(以工具执行结果为信号)和A2(以智能体输出为信号)。工具适配(Tool Adaptation):优化外部工具而非智能体本身,包括T1(与智能体无关的工具适配)和T2(由智能体监督的工具适配)。研究对比了四大范式在成本、灵活性、数据效率等维度的权衡,分析了各范式的典型方法、技术演进及应用场景(如深度研究、软件开发、药物发现),并指出协同适配、持续适配、安全适配和高效适配是未来核心方向。

2026-01-01 09:30:00 108

原创 Kling-Omni Technical Report

多模态视觉语言(MVL)交互范式:突破纯文本提示的局限性,将自然语言作为语义骨架,结合多模态描述构建统一输入表示,增强模型对空间关系、视觉参考和时间动态的理解与控制。任务统一架构:首次将视频生成、编辑、智能推理整合为端到端系统,消除任务边界,支持多任务组合执行,避免传统流水线方案的误差累积。深度智能推理能力:通过提示增强器与视觉语言推理引擎的融合,实现世界知识调用(如GPS坐标解析)、几何关系推理、逻辑任务求解等超越纯像素合成的智能能力。高效训练与推理优化。

2026-01-01 08:30:00 130

原创 Memory in the Age of AI Agents: A Survey

记忆已成为并将继续是基于基础模型的智能体的核心能力。它支撑着长时程推理、持续适应以及与复杂环境的有效交互。随着智能体记忆研究的快速扩展并受到前所未有的关注,该领域也变得日益分散。现有归入智能体记忆范畴的研究在动机、实现方式、假设和评估协议上往往存在显著差异,而定义松散的记忆术语的激增进一步模糊了概念清晰度。传统的长短时记忆等分类已不足以捕捉当代智能体记忆系统的多样性和动态性。本综述旨在提供当前智能体记忆研究的最新全面图景。

2026-01-01 07:30:00 30

原创 Partnering with AI: A Pedagogical Feedback System for LLM Integration into Programming Education

本文聚焦于将大型语言模型(LLMs)整合到编程教育中,旨在构建一个符合教学原则的LLM驱动反馈系统。研究首先通过与中学计算机教师的初步访谈,提炼出反馈策略的三个关键适应标准(学生表现、任务进度、学生输入),并结合已有的反馈模型,提出了一个新的教学反馈框架。该框架以任务描述、学生掌握水平、学生尝试成果和(可选)学生文本输入为输入,通过多代理LLM系统生成适应性反馈。为验证框架有效性,研究团队开发了一个基于Python的网页应用,并对8名中学计算机教师进行了混合方法评估(定量评分与定性访谈结合)。

2025-12-31 12:15:00 16

C语言编程实例100题

里面有C语言程序示例,没有100个,但是个个讲的都很好,对于初学者帮助很大。。

2012-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除