自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2012)
  • 资源 (1)
  • 收藏
  • 关注

原创 Large Language Model Compression via the Nested Activation-Aware Decomposition

激活分布的变异性:不同数据集和模型的激活分布差异导致传统SVD方法性能下降。未见激活的适应性:现有方法在处理新数据集或任务时容易出现"过拟合"。截断感知数据白化:通过调整权重矩阵与激活分布的关系,确保奇异值截断时的最小损失。双向分解结构:在保持原始权重矩阵信息的同时,吸收激活异常值。实验结果表明,NSVD在8个数据集和6个模型(涵盖LLaMA、OPT、Mistral三大家族)上均优于现有SVD方法(如ASVD、SVD-LLM),尤其在30%-50%压缩率或多语言/多任务场景下优势显著。

2025-04-01 11:02:12 3

原创 Survey on Evaluation of LLM-based Agents

基于LLM的智能体代表了AI范式的转变,使自主系统能够在动态环境中进行规划、推理、使用工具并保持记忆。基础能力(规划、工具使用、自我反思、记忆);领域特定基准(网页、软件工程、科学、对话代理);通用智能体评估;评估框架。研究揭示了动态评估趋势(如更真实的挑战场景和实时基准),并指出未来需解决的关键问题:成本效率、安全性、鲁棒性及细粒度评估方法的开发。本综述为智能体评估的快速演进提供了全景图,指明了研究方向。

2025-04-01 09:30:00 123

原创 RWKV-7 “Goose“ with Expressive Dynamic State Evolution

我们提出了一种新的序列建模架构RWKV-7 “Goose”,及其预训练语言模型。该模型在30亿参数规模下的多语言任务中达到了新的SOTA性能,并在英语任务中接近当前SOTA,而训练所需的token数量显著少于其他顶级3B模型。RWKV-7保持了常数内存使用和每token常数推理时间。RWKV-7引入了具有向量值门控和上下文学习率的广义增量规则,以及松弛的值替换规则。我们证明了RWKV-7能够进行状态跟踪并识别所有正则语言,同时保留训练的并行性。

2025-04-01 08:30:00 4

原创 Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

大型语言模型(LLMs)在复杂任务中展现出卓越能力。近期,OpenAI o1和DeepSeek-R1等大型推理模型(LRMs)通过监督微调(SFT)和强化学习(RL)技术优化思维链(CoT)推理,进一步提升了数学、编程等System-2推理领域的性能。然而,较长的CoT推理序列虽能提高准确性,但冗余的输出会导致显著的计算开销,即“过度思考现象”。高效推理旨在优化推理长度同时保留能力,可降低计算成本并提升实时应用响应速度。尽管潜力巨大,高效推理仍处于研究初期。

2025-03-31 10:48:31 189

原创 Measuring AI Ability to Complete Long Tasks

本文提出了一种量化AI系统能力的新指标——50%任务完成时间跨度(50%-task-completion time horizon),即人类完成AI模型以50%成功率完成的任务所需的平均时间。当前前沿模型的50%时间跨度约为50分钟。自2019年以来,AI的时间跨度每七个月翻倍,2024年增速可能加快。性能提升主要得益于逻辑推理、工具使用能力和错误适应能力的增强。若趋势持续,未来五年内AI可能完成人类需一个月的软件任务。尽管AI基准测试进展迅速,其现实意义仍不明确。50%任务完成时间跨度。

2025-03-31 10:44:02 102

原创 Communication-Efficient Language Model Training Scales Reliably and Robustly

本文研究了通信高效的分布式训练方法DiLoCo在大规模语言模型(LLM)训练中的扩展规律。通过固定计算预算,作者分析了DiLoCo在模型规模、超参数(学习率、批量大小等)和令牌预算下的行为,并提出了扩展定律。实验表明,DiLoCo在模型规模增大时表现出可预测性和鲁棒性,其最优批量大小更大,通信成本更低,且在某些情况下比传统数据并行方法(Data-Parallel)性能更优。通信高效的语言模型训练可靠且鲁棒地扩展:DiLoCo的扩展定律。

2025-03-31 10:22:44 136

原创 Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection

大语言模型(LLMs)在生成内容中表现出各种偏差和刻板印象。尽管已有大量研究探讨LLMs中的偏差问题,但以往工作主要集中在显式偏差上,对更微妙的隐式偏差则大多未进行深入探究。本文提出一个基于社会心理学理论的系统框架,用于研究和比较LLMs中的显式和隐式偏差。我们提出一种新颖的基于 “自我反思” 的评估框架,该框架分两个阶段运作:首先通过模拟心理评估方法测量隐式偏差,然后通过促使LLMs分析自己生成的内容来评估显式偏差。

2025-03-30 09:30:00 390

原创 Evaluating Large Language Models Against Human Annotators in Latent Content Analysis

在快速数字通信时代,每天都会产生大量文本数据,这就需要高效的潜在内容分析方法来提取有意义的信息。大语言模型(LLMs)为实现这一过程的自动化提供了可能,但目前缺乏在多个维度上将其性能与人类标注者进行全面比较的评估。本研究评估了包括OpenAI的GPT-4、Gemini、Llama和Mixtral等7种前沿大语言模型在分析情感、政治倾向、情感强度和讽刺检测方面相对于人类标注者的可靠性、一致性和质量。

2025-03-30 08:30:00 8

原创 Progressive Document-level Text Simplification via Large Language Models

文本简化研究主要集中在词汇和句子层面的变化。长文档级简化(DS)仍相对缺乏探索。像ChatGPT这样的大语言模型(LLMs)在许多自然语言处理任务中表现出色。然而,它们在DS任务上的表现并不理想,常常将DS仅仅视为文档总结。对于DS任务,生成的长序列不仅要始终与原始文档保持一致,还需完成包括语篇、句子和词汇层面的适度简化操作。人类编辑采用分层复杂度简化策略来简化文档。本研究致力于通过利用LLMs的多阶段协作来模拟这一策略。

2025-03-29 09:30:00 95

原创 AGGA: A Dataset of Academic Guidelines for Generative AI and Large Language Models

本研究介绍了AGGA数据集,该数据集包含80条在学术环境中使用生成式人工智能(GAIs)和大语言模型(LLMs)的学术指南,这些指南均精心收集自各大学官方网站。该数据集包含188,674个单词,是自然语言处理任务中宝贵的资源,可应用于需求工程中的模型合成、抽象识别和文档结构评估等任务。此外,AGGA数据集可进一步标注,作为各种任务的基准,包括歧义检测、需求分类和等效需求识别。我们采用了严谨的方法进行全面审查,挑选的大学代表了全球各类机构,包括六大洲的顶尖大学。

2025-03-29 08:30:00 8

原创 LLM Weekly(2025.03.17-03.23)

原文地址:https://medium.com/nlplanet/claude-can-now-search-the-web-weekly-ai-newsletter-march-24th-2025-8bd25852f676

2025-03-28 16:39:48 343

原创 ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

有效评估多跳工具使用能力对于分析大语言模型(LLMs)的理解、推理和函数调用能力至关重要。然而,由于缺乏可靠的评估数据集,这方面的进展受到了阻碍。为了解决这一问题,我们提出了ToolHop,这是一个包含995个用户查询和3912个相关工具的数据集,专门用于严格评估多跳工具使用能力。ToolHop通过一种新颖的查询驱动数据构建方法,包括工具创建、文档细化和代码生成,确保了多样化的查询、有意义的相互依赖关系、本地可执行的工具、详细的反馈以及可验证的答案。

2025-03-28 09:30:00 126

原创 Hidden Entity Detection from GitHub Leveraging Large Language Models

命名实体识别是从非结构化数据源构建知识库时的一项重要任务。实体检测方法大多依赖大量训练数据,而大语言模型(LLMs)则通过利用其在预训练过程中获得的能力,为零样本学习(ZSL)或少样本学习(FSL)方法开辟了道路。特别是在无法获取大规模训练数据的非常专业的场景中,零样本/少样本学习带来了新的机遇。本文顺应这一最新趋势,研究在这类场景中利用大语言模型自动检测GitHub仓库文本内容中的数据集和软件的潜力。

2025-03-28 08:30:00 83

原创 LLM4SR: A Survey on Large Language Models for Scientific Research

近年来,大语言模型(LLMs)的迅速发展改变了科学研究的格局,在研究周期的各个阶段都提供了前所未有的支持。本文首次系统地探讨了LLMs如何彻底改变科学研究过程。我们分析了LLMs在研究的四个关键阶段(假设发现、实验规划与实施、科学写作和同行评审)中所发挥的独特作用。我们的综述全面展示了特定任务的方法和评估基准。通过识别当前的挑战并提出未来的研究方向,本综述不仅突出了LLMs的变革潜力,还旨在启发和指导研究人员及从业者利用LLMs推动科学探索。

2025-03-27 09:30:00 75

原创 Investigating Numerical Translation with Large Language Models

数字翻译不准确可能会导致严重的安全问题,从财务损失到医疗失误等。虽然大语言模型(LLMs)在机器翻译方面取得了显著进展,但其翻译数字的能力尚未得到充分探索。本研究专注于评估基于大语言模型的机器翻译系统在处理数字数据时的可靠性。为了系统地测试当前开源大语言模型的数字翻译能力,我们基于真实业务数据构建了一个中英数字翻译数据集,涵盖了十种数字翻译类型。在该数据集上的实验表明,数字翻译错误是一个常见问题,大多数开源大语言模型在面对我们的测试场景时表现不佳。

2025-03-27 08:30:00 9

原创 LLM+AL: Bridging Large Language Models and Action Languages for Complex Reasoning About Actions

大语言模型(LLMs)在各种智能任务中取得了显著进展,但在需要系统搜索的复杂行动推理任务上仍存在困难。为解决这一局限,我们提出一种方法,将大语言模型的自然语言理解能力与行动语言的符号推理优势相结合。我们的方法称为LLM+AL,它利用大语言模型在语义解析和常识知识生成方面的优势,以及行动语言基于编码知识进行自动推理的能力。我们使用复杂行动推理基准测试,将LLM+AL与最先进的大语言模型(包括CHATGPT-4、CLAUDE 3 OPUS、GEMINI ULTRA 1.0和O1-PREVIEW)进行比较。

2025-03-26 09:30:00 99

原创 LangFair: A Python Package for Assessing Bias and Fairness in Large Language Model Use Cases

大语言模型(LLMs)已被观察到在许多方面存在偏差,这可能会对由性别、种族、性取向或年龄等受保护属性所确定的特定群体造成不良后果,甚至使情况恶化。为了帮助填补这一空白,我们推出了langfair,这是一个开源的Python软件包,旨在为LLM从业者提供工具,以评估与他们特定用例相关的偏差和公平性风险。该软件包提供了轻松生成评估数据集的功能,这些数据集由LLM对特定用例提示的响应组成,随后还能为从业者的用例计算适用的指标。为了指导指标选择,LangFair提供了一个可行的决策框架。

2025-03-26 08:30:00 10

原创 Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models

大语言模型(LLMs)遵循包含多个约束的指令至关重要。然而,提升大语言模型遵循软约束的能力仍是一个尚未探索的领域。为了填补这一空白,我们最初设计了一个流程,用于自动构建具有高质量输出的数据集。此外,为了充分利用数据构建过程中生成的正负样本,我们选择直接偏好优化(DPO)作为训练方法。考虑到约束数量所反映的软约束难度,我们设计了一种基于约束数量的课程学习训练范式。我们通过实验评估了我们的方法在提高大语言模型软约束遵循能力方面的有效性,并分析了推动性能提升的因素。数据集和代码可在上公开获取。

2025-03-25 09:30:00 110

原创 BoostStep: Boosting Mathematical Capability of Large Language Models via Improved Single-step

大语言模型(LLMs)在通过多步推理解决复杂数学问题方面展现出了令人瞩目的能力,并且可以通过精心设计的上下文学习(ICL)示例进一步提升。然而,这种潜力常常受到ICL中的两个主要挑战的限制:粒度不匹配和无关信息。我们观察到,虽然大语言模型擅长分解数学问题,但它们在细粒度步骤的推理中常常出现错误。此外,在问题级别检索到的ICL示例可能会省略关键步骤,甚至用无关的细节误导模型。

2025-03-25 08:30:00 15

原创 ENHANCING HUMAN-LIKE RESPONSES IN LARGE LANGUAGE MODELS

本文探索了使大语言模型(LLMs)更具类人特质的进展。我们专注于在人工智能系统中增强自然语言理解、对话连贯性和情商的技术。该研究评估了多种方法,包括使用多样化的数据集进行微调、融入心理学原理,以及设计能更好模拟人类推理模式的模型。我们的研究结果表明,这些改进不仅改善了用户交互,还为不同领域的人工智能应用开辟了新的可能性。未来的工作将探讨这些类人属性带来的伦理影响和潜在偏见。本研究提出了多项有助于推动大语言模型(LLMs)实现更自然、类人交互发展的贡献。

2025-03-24 15:51:34 383

原创 Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

最近,o1-like模型受到了广泛关注,这些模型通过生成长思维链(CoT)推理步骤来提高现有大语言模型(LLMs)的推理能力。在本文中,为了理解这些长CoT的质量,并衡量现有LLMs对这些长CoT的批判能力,我们引入了DeltaBench。DeltaBench包含了不同o1-like模型(如QwQ、DeepSeek-R1)针对不同推理任务(如数学、代码、通用推理)生成的长CoT,用于衡量在长CoT推理中检测错误的能力。

2025-03-24 09:30:00 120

原创 Towards Label-Only Membership Inference Attack against Pre-trained Large Language Models

成员推理攻击(MIAs)旨在预测某个数据样本是否属于模型的训练集。尽管先前的研究已对大语言模型(LLMs)中的成员推理攻击进行了广泛探索,但这些研究通常需要访问完整的输出logits(即基于logits的攻击),而在实际应用中,完整的输出logits通常是不可获取的。在本文中,我们研究了预训练的大语言模型在标签仅设置下对成员推理攻击的脆弱性,在这种设置下,攻击者只能访问生成的token(文本)。

2025-03-24 08:30:00 74

原创 When Large Language Models Meet Speech: A Survey on Integration Approaches

大语言模型(LLMs)的最新进展激发了人们将其应用扩展到基于文本的任务之外的兴趣。大量研究探索了将其他模态与LLMs相结合,尤其是与文本天然相关的语音模态。本文对语音与LLMs的集成进行了综述,将方法分为三大主要类型:基于文本的集成、基于潜在表示的集成和基于音频令牌的集成。我们还展示了这些方法如何应用于各种与语音相关的应用中,并强调了该领域的挑战,为未来的研究提供启发。

2025-03-23 09:30:00 74

原创 SolEval: Benchmarking Large Language Models for Repository-level Solidity Code Generation

大语言模型(LLMs)已经改变了代码生成的方式。然而,大多数现有方法主要集中在Python和Java等主流语言上,忽视了Solidity语言,它是以太坊智能合约的主要编程语言。由于缺乏足够的Solidity基准测试,大语言模型生成安全且成本效益高的智能合约的能力仍未得到充分探索。为了填补这一空白,我们构建了SolEval,这是首个专为Solidity智能合约生成设计的存储库级基准测试,用于评估大语言模型在Solidity方面的性能。

2025-03-23 08:30:00 108

原创 Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

随着先进大语言模型(LLMs)的兴起,人工文本检测(ATD)变得越来越重要。尽管人们付出了诸多努力,但没有一种算法能在不同类型的未知文本上始终表现良好,也无法保证对新的大语言模型能有效泛化。可解释性在实现这一目标中起着至关重要的作用。在本研究中,我们通过使用稀疏自动编码器(SAE)从Gemma-2-2b的残差流中提取特征,增强了人工文本检测的可解释性。我们识别出可解释且高效的特征,并通过特定领域和模型的统计数据、导向方法以及人工或基于大语言模型的解释,分析它们的语义和相关性。

2025-03-22 09:30:00 80

原创 LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

在大型多模态模型(LMMs)中增强推理能力面临着独特挑战,这源于视觉感知和逻辑推理之间的复杂相互作用,尤其是在30亿参数的紧凑型架构中,架构限制了推理能力和模态对齐。虽然基于规则的强化学习(RL)在纯文本领域表现出色,但其向多模态的扩展面临两个关键障碍:(1)由于答案模糊和复杂推理示例稀缺导致的数据限制;(2)多模态预训练导致的基础推理能力下降。为应对这些挑战,我们提出了LMM-R1,这是一个两阶段框架,通过基础推理增强(FRE)和多模态泛化训练(MGT),将基于规则的RL应用于多模态推理。

2025-03-22 08:30:00 136

原创 Predictable Scale: Part I — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining

大语言模型(LLMs)在各种任务中展现出令人瞩目的能力,然而,要有效部署这些模型,需要对超参数进行仔细优化。通过对多种配置进行广泛的网格搜索实证研究,我们发现了适用于这些超参数的通用缩放定律:最优学习率与模型参数和数据规模均呈幂律关系,而最优批量大小主要随数据规模变化。我们的分析表明,在固定模型和数据规模条件下,超参数的优化景观是凸的。这种凸性意味着存在一个最优超参数平台。我们为社区贡献了一种通用的、即插即用的最优超参数工具。在测试集上,其估计值与通过穷举搜索得到的全局最优LLM性能仅相差0.09%。

2025-03-21 09:30:00 146

原创 Transformers without Normalization

归一化层在现代神经网络中无处不在,长期以来一直被认为是必不可少的。这项工作表明,使用一种非常简单的技术,不含归一化层的Transformer也能达到相同甚至更好的性能。我们引入动态双曲正切(Dynamic Tanh, DyT),这是一种逐元素操作,即DyTxtanh⁡αxDyTxtanhαx,可直接替代Transformer中的归一化层。DyT的灵感来自于观察到Transformer中的层归一化通常会产生类似双曲正切的S形输入 - 输出映射。

2025-03-21 08:30:00 69

原创 Gemma 3 Technical Report

我们推出Gemma 3,这是Gemma系列轻量级开源模型的多模态扩展版本,参数规模从10亿到270亿不等。该版本引入了视觉理解能力,扩大了语言覆盖范围,并支持至少128K令牌的长文本上下文。我们还改进了模型架构,通过增加局部与全局注意力层的比例,缩短局部注意力的跨度,减少了在长文本推理时容易激增的KV缓存内存。Gemma 3模型采用蒸馏训练,在预训练和指令微调版本中均比Gemma 2性能更优。

2025-03-20 11:00:18 74

原创 LLM Weekly(2025.03.10-03.16)

OpenAI推出全新工具与API套件,简化AI智能体开发流程,帮助开发者打造更可靠的任务导向型应用。本次更新包含响应式API、智能体开发工具包,以及整合网页/文件搜索与计算机操作功能的内置工具。谷歌DeepMind发布新一代开源模型Gemma 3,支持在单个GPU/TPU上高效运行。该模型支持140种语言,具备进阶文本与视觉推理能力,拥有128k令牌的上下文窗口,堪称当前单卡最强模型。获英伟达投资的云计算公司CoreWeave与OpenAI签订五年119亿美元云计算服务合同,为其IPO铺路。

2025-03-20 10:56:10 692

原创 Large Language Models as Attribution Regularizers for Efficient Model Training

大语言模型(LLMs)在多个领域展现出卓越性能。然而,如何有效利用其丰富知识来训练下游较小模型仍是一个有待解决的挑战,尤其在表格数据学习领域,由于可解释性和效率因素,更倾向于使用简单模型。在本文中,我们提出一种新颖且简单的方法,将大语言模型生成的全局任务特征归因融入到较小网络的训练过程中。具体而言,我们提出了一个归因匹配正则化项,使较小模型的训练动态与大语言模型提供的见解保持一致。通过这种方式,我们的方法在少样本学习场景中表现出色。

2025-03-19 09:30:00 9

原创 Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents

基于大语言模型(LLMs)的智能体系统在超越传统自然语言处理任务的现实应用中取得了巨大进展。本文提出了一种新的由大语言模型驱动的多智能体系统(LLM-MAS)基准测试平台Collab-Overcooked,它基于广受欢迎的Overcooked-AI游戏构建,在交互式环境中设置了更具实用性和挑战性的任务。Collab-Overcooked从两个全新的角度扩展了现有基准。第一,它提供了一个支持多种任务和目标的多智能体框架,并鼓励通过自然语言通信进行协作。

2025-03-19 08:30:00 104

原创 ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models

随着大语言模型(LLMs)在电子商务等领域的应用日益广泛,特定领域的概念评估基准对于评估其领域能力至关重要。在复杂的电子商务应用中,现有的大语言模型可能会生成与事实不符的信息。因此,有必要构建一个电子商务概念基准。现有基准面临两个主要挑战:(1)处理任务的异构性和多样性;(2)区分电子商务领域内的通用性和特殊性。为了解决这些问题,我们提出了ChineseEcomQA,这是一个可扩展的问答基准,专注于基础电子商务概念。

2025-03-18 09:30:00 77

原创 3D-AFFORDANCELLM: HARNESSING LARGE LANGUAGE MODELS FOR OPEN-VOCABULARY AFFORDANCE DETECTION

3D可及性检测是一个具有挑战性的问题,在各种机器人任务中有着广泛的应用。现有方法通常将检测范式制定为基于标签的语义分割任务。这种范式依赖于预定义的标签,缺乏理解复杂自然语言的能力,导致在开放世界场景中的泛化能力有限。为了解决这些限制,我们将传统的可及性检测范式重新定义为指令推理可及性分割(IRAS)任务。该任务旨在根据查询推理文本输出可及性掩码区域,避免了输入标签的固定类别。相应地,我们提出了3D-AffordanceLLM(3D-ADLLM),这是一个专为在3D开放场景中进行推理可及性检测而设计的框架。具

2025-03-18 08:30:00 185

原创 ChatMol: A Versatile Molecule Designer Based on the Numerically Enhanced Large Language Model

面向目标的全新分子设计,即生成具有特定性质或子结构约束的分子,是药物发现中一项至关重要但极具挑战性的任务。现有的方法,如贝叶斯优化和强化学习,通常需要训练多个性质预测器,并且在纳入子结构约束方面存在困难。受大语言模型(LLMs)在文本生成领域成功的启发,我们提出了ChatMol,这是一种新颖的方法,利用大语言模型在多种约束条件下进行分子设计。首先,我们构建了一种与大语言模型兼容的分子表示形式,并在多个在线大语言模型上验证了其有效性。

2025-03-17 09:30:00 100

原创 Can Large Language Models Unveil the Mysteries? An Exploration of Their Ability to Unlock

在复杂场景中结合多种感知输入并进行组合推理是人类一项复杂的认知功能。随着多模态大语言模型的发展,近期的基准测试倾向于评估跨多图像的视觉理解能力。然而,它们常常忽略了跨多种感知信息进行组合推理的必要性。为了探究先进模型在复杂场景中整合多种感知输入以进行组合推理的能力,我们引入了两个基准测试:线索视觉问答(CVQA)和密码线索视觉问答(CPVQA)。CVQA包含三种任务类型,用于评估视觉理解和合成能力;CPVQA包含两种任务类型,专注于对视觉数据的准确解释和应用。针对这些基准测试,我们提出了三种即插即用的方法:

2025-03-17 08:30:00 123

原创 Unified Reward Model for Multimodal Understanding and Generation

近年来,人类偏好对齐技术的进步显著提升了多模态生成与理解能力。关键方法是训练奖励模型来指导偏好优化。然而,现有模型通常针对特定任务设计,限制了其在多样化视觉应用中的适应性。我们认为,联合学习评估多个任务可能产生协同效应,即增强的图像理解可提升图像生成评估能力,而改进的图像评估又能通过更优的帧分析惠及视频评估。为此,本文提出了UNIFIEDREWARD,首个用于多模态理解与生成评估的统一奖励模型,支持成对排序和逐点评分,可用于视觉模型的偏好对齐。

2025-03-16 09:30:00 99

原创 Conformal Tail Risk Control for Large Language Model Alignment

大语言模型(LLMs)的最新发展使其在各种任务中得到广泛应用。大语言模型在社会中的普及促使人们对其性能的可靠性提出了更高要求。特别是在风险敏感的应用场景中,需要特别关注那些意外的不良结果,即尾部事件,例如有害的回答、侮辱性语言和冒犯性输出。由于获取人工标注的成本较高,通用评分模型应运而生,以实现对这些尾部事件量化过程的自动化。这一现象导致了人机评分机制之间可能存在的不一致性。在这项工作中,我们提出了一种针对黑盒模型的轻量级校准框架,该框架可确保人机之间的一致性,并提供可证明的保证。

2025-03-16 08:30:00 97

原创 Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

大型语言模型(LLM)彻底改变了自然语言处理(NLP)领域,然而开源多语言LLM仍然稀缺,现有模型的语言覆盖范围通常有限。这些模型通常优先考虑资源丰富的语言,而广泛使用但资源不足的语言往往被忽视。为了解决这一差距,我们推出了Babel,这是一个开放的多语言LLM,覆盖了按使用人数排名前25的语言,支持全球90%以上的人口,并包含许多其他开放多语言LLM忽略的语言。与传统的持续预训练方法不同,Babel通过层扩展技术扩展其参数数量,从而提高了性能上限。

2025-03-15 09:30:00 116

原创 Visual-RFT: Visual Reinforcement Fine-Tuning

强化微调(RFT)在像OpenAI o1这样的大型推理模型中,通过对答案的反馈进行学习,这在微调数据稀缺的应用中尤为有用。最近的开源工作如DeepSeek R1表明,使用可验证奖励的强化学习是复现o1的一个关键方向。虽然R1风格的模型在语言模型中取得了成功,但其在多模态领域的应用仍未得到充分探索。本文引入了视觉强化微调(Visual-RFT),进一步扩展了RFT在视觉任务上的应用领域。

2025-03-15 08:30:00 138

C语言编程实例100题

里面有C语言程序示例,没有100个,但是个个讲的都很好,对于初学者帮助很大。。

2012-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除