自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2145)
  • 资源 (1)
  • 收藏
  • 关注

原创 Theatrical Language Processing: Exploring AI-Augmented Improvisational Acting and Scriptwriting

本文提出了戏剧语言处理(Theatrical Language Processing, TLP)概念,并开发了AI创意支持工具,旨在通过人机交互提升演员的即兴表演创造力。AI生成的非常规场景能激发演员创造力,迫使其应对陌生情境,提升问题解决能力;AI的不可预测性增强了表演的 spontaneity,但过度详细的脚本会限制演员对潜台词的探索空间;工具优势:快速生成定制化剧本,突破传统脚本的重复性和局限性,为即兴训练提供新范式。人工智能的日益融合开辟了新途径,包括其在增强创造力方面的新兴作用。

2025-06-03 09:30:00 7

原创 Evolutionary thoughts: integration of large language models and evolutionary algorithms

本文提出将大型语言模型(LLMs)与进化算法(EAs)结合,以解决复杂问题中的优化和函数合成任务。研究设计了四个难度递增的任务(计数、最大-最小值、逆序、排序),要求算法通过输入-输出对推断映射函数。LLM引导的进化搜索:利用LLM生成初始种群个体和优化变异操作,减少搜索空间的随机性,提升候选解的质量。高效评估框架:开发基于C++和CUDA的快速评估系统,支持多核CPU和GPU加速,解决大规模种群评估的计算瓶颈。实验验证。

2025-06-03 08:30:00 81

原创 Adaptive Stress Testing Black-Box LLM Planners

大型语言模型(LLMs)最近在跨决策任务(包括规划、控制和预测)的泛化能力上取得了成功,但其产生不安全和非预期输出的“幻觉”倾向带来了风险。我们认为,检测此类故障是必要的,尤其是在安全关键场景中。现有的黑箱方法通常通过识别多个样本间的不一致性来检测幻觉,这些方法通常引入提示扰动,如随机化细节顺序或生成对抗性输入,其核心思想是自信的模型应产生稳定的输出。我们首先通过手动案例研究表明,其他形式的扰动(如添加噪声、移除传感器细节)会导致LLMs在驾驶环境中产生幻觉。

2025-06-02 09:30:00 99

原创 KG-HTC: Integrating Knowledge Graphs into LLMs for Effective Zero-shot Hierarchical Text

本文提出了一种名为KG-HTC的零样本层次文本分类方法,旨在解决层次文本分类(HTC)中数据标注成本高、标签空间大、长尾分布等问题。该方法通过将知识图谱(KG)与大型语言模型(LLM)结合,利用检索增强生成(RAG)框架从知识图谱中动态检索与输入文本语义相关的子图,并将其转换为结构化提示,引导LLM进行层次分类。实验在三个公开数据集(WoS、Dbpedia、Amazon)上表明,KG-HTC在严格零样本设置下显著优于基线方法,尤其在深层标签分类中表现更佳。

2025-06-02 08:30:00 176

原创 LITRANSPROQA: An LLM-based LITerary TRANSlation Evaluation Metric with PROfessional Question

本文聚焦于文学翻译评估领域,针对现有评估指标过度关注机械准确性、忽视艺术性表达及文化真实性的问题,提出了一种基于大语言模型(LLM)的新型评估框架。该框架通过整合专业文学译者和研究者的见解,设计了一套针对文学翻译核心要素(如文学手法、文化理解、语气等)的问答体系,无需参考译文即可评估翻译质量。

2025-06-01 09:30:00 70

原创 QualBench: Benchmarking Chinese LLMs with Localized Professional Qualifications for Vertical Domain

本文聚焦于中文大语言模型(LLMs)在垂直领域的评估问题,提出了首个基于中国本土职业资格考试的多领域中文问答基准QualBench。数据集覆盖安全生产、消防安全、建筑工程、经济金融、石油天然气、银行保险6个垂直领域,包含来自24项职业资格考试的17,298道题目,强调本地化和政策一致性。通过实验评估发现,中文LLM(如Qwen2.5)在本土领域知识上显著优于非中文模型(如GPT-4o),但最高准确率仅75.26%,表明模型在专业知识覆盖上仍有不足。

2025-06-01 08:30:00 118

原创 Exploring the Feasibility of Multilingual Grammatical Error Correction with a Single LLM up to 9B

本文围绕17个参数不超过90亿的大型语言模型(LLMs)在英语、德语、意大利语和瑞典语这四种语言的多语言语法错误纠正(GEC)任务中的性能展开研究,旨在探索单个模型处理多种语言语法纠错的可行性,并对不同模型的表现进行对比分析。近期的语言模型能够成功解决各种与语言相关的任务,并且许多模型能够理解以不同语言表述的输入。在本文中,我们探讨了17种流行模型在使用单一模型纠正英语、德语、意大利语和瑞典语文本中的语法问题时的性能。我们分析了这些模型生成的输出,重点在于减少语法错误的数量,同时保持较小的修改幅度。

2025-05-31 09:30:00 115

原创 Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study

本文聚焦于多语言仇恨言论检测领域,对大型语言模型(LLMs)在零样本和少样本提示下的表现展开研究。通过运用多种提示策略(涵盖零样本提示、少样本提示、思维链提示、角色扮演提示等),针对西班牙语、葡萄牙语、德语、法语、意大利语、土耳其语、印地语和阿拉伯语这8种非英语语言的仇恨言论检测任务,对LLaMA、Qwen、Aya、BloomZ等 instruction-tuned 多语言大模型的性能进行评估,并与微调后的编码器模型(像XLM-T、mDeBERTa)进行对比。

2025-05-31 08:30:00 15

原创 Qwen3技术报告

在这项工作中,我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列旨在提升性能、效率和多语言能力的大型语言模型(LLMs),涵盖稠密和混合专家(MoE)架构,参数规模从6亿到2350亿不等。Qwen3的关键创新在于将思考模式(用于复杂多步推理)和非思考模式(用于快速上下文驱动响应)整合到统一框架中,无需在不同模型(如聊天优化模型GPT-4o和专用推理模型QwQ32B)之间切换,可根据用户查询或聊天模板动态切换模式。同时,Qwen3引入思考预算机制。

2025-05-30 10:55:20 96

原创 LLM-Text Watermarking based on Lagrange Interpolation

本文提出了一种基于拉格朗日插值的大语言模型(LLM)生成文本水印方案,旨在解决LLM生成文本的来源归因问题,应对错误信息、伪造新闻、抄袭等挑战。核心思想是将秘密身份编码为有限域上的直线方程,并通过伪随机生成的坐标点嵌入文本。即使文本被对手大量篡改,只要至少保留3个有效点,即可通过求解最大共线点问题(MCP)恢复作者身份。大型语言模型(LLM)的快速发展使其成为许多人工智能和机器学习驱动的人机交互的基础技术。

2025-05-30 09:30:00 106

原创 Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

背景与目标随着LLMs的普及,其在公共卫生领域的信息准确性至关重要,但目前缺乏针对英国政府公共卫生指南的评估。开发新基准,包含超8000道多选题(MCQA)和开放式问答,用于评估LLMs对英国公共卫生指南的知识水平。数据与方法数据集:从英国政府网站收集1150份公共卫生指南文件,处理为687份Markdown格式文档,涵盖10大主题和352个指导领域。基准生成:通过自动化流程生成MCQA问题,利用LLM分类、过滤无效问题,并引入人工审核确保质量。评估模型。

2025-05-30 08:30:00 73

原创 LLM Weekly(2025.05.19-05.25)

通过构建包含 4 万偏好对的 WebPRM 数据集,并推出 WebRewardBench 评估框架,该模型在 WebRewardBench 上比 GPT-4o 准确率提升 30 点,在 WebArena-lite 任务中性能提升 10.9 点,同时降低成本。通过混合精度量化,研究识别并解决权重和激活误差,指出当训练数据充足时,降低权重误差是提升 QAT 性能的关键。该模型基于数万亿不同来源的 token 预训练,擅长图像操作、虚拟导航等复杂推理任务,在标准基准测试中超越现有开源模型。🔬 有趣论文与代码库。

2025-05-29 11:14:18 253

原创 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

结合上述分析,我们得出三个关键观察结果。首先,RLVR模型解决的问题基础模型也可以解决;观察到的平均分数改进源于这些已解决问题的更高效采样,而不是学习解决新问题。其次,RLVR训练后,模型的推理覆盖范围通常比其基础模型更窄。第三,RLVR模型利用的所有推理路径已经存在于基础模型的采样分布中。这些发现表明,RLVR并没有引入根本上新的推理能力,训练模型的推理能力仍然受其基础模型的限制。

2025-05-29 11:04:59 377

原创 Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes

本文聚焦于大语言模型(LLMs)与人类偏好对齐的难题,提出了潜在偏好编码框架(Latent Preference Coding, LPC)。传统方法依赖单一奖励函数,难以捕捉人类偏好的多维度和冲突性(如“帮助性”与“安全性”的权衡)。LPC通过离散潜在代码建模偏好背后的隐含因素及其组合,无需预定义奖励函数和人工权重,可自动从数据中推断因素及其重要性。

2025-05-29 09:30:00 101

原创 Scalable Multi-Stage Influence Function for Large Language Models via Eigenvalue-Corrected Kronecker

预训练大型语言模型(LLMs)通常通过微调来适应下游任务。由于大部分知识是在预训练阶段获取的,将微调后LLMs的预测归因于预训练数据可能提供有价值的见解。影响函数已被提出作为一种基于训练数据解释模型预测的手段。然而,现有方法无法计算“多阶段”影响,且缺乏对数十亿规模LLMs的可扩展性。本文提出了多阶段影响函数,在全参数微调范式下将微调后LLMs的下游预测归因于预训练数据。为了提高多阶段影响函数的效率和实用性,我们利用特征值校正的克罗内克分解(EK-FAC)参数化进行高效近似。

2025-05-29 08:30:00 86

原创 HEXGEN-TEXT2SQL: Optimizing LLM Inference Request Scheduling for Agentic Text-to-SQL Workflows

本文聚焦于基于大语言模型(LLM)的智能文本到SQL系统在异构GPU集群中的调度与执行问题,提出了HEXGEN-TEXT2SQL框架,旨在解决多阶段工作流、严格延迟约束和资源异构性带来的挑战。问题分析:现有LLM服务框架无法有效处理文本到SQL工作流中的任务依赖、延迟变化和资源异构性,导致服务级别目标(SLO)频繁违反。框架设计分层调度策略:全局负载均衡调度器根据模型实例的处理能力和当前负载分配任务;本地优先级队列基于任务紧迫性动态调整执行顺序,支持任务抢占。轻量级仿真调参。

2025-05-28 09:30:00 162

原创 Towards Mitigating API Hallucination in Code Generated by LLMs with Hierarchical Dependency Aware

摘要应用程序编程接口(API)在现代软件开发中至关重要。大语言模型(LLMs)辅助自动化代码生成,但在实际开发场景中常面临API幻觉问题,包括调用不存在的API和误用现有API。现有研究借助检索增强生成(RAG)方法缓解幻觉问题,但往往失败,因为它们通常忽略实际项目中的结构依赖,且未真正验证生成的API是否可用。为解决这些局限,我们提出MARIN,一种基于层次依赖感知的缓解LLMs生成代码中API幻觉的框架。

2025-05-28 08:30:00 105

原创 Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data

本文聚焦于大规模语言模型(LLMs)训练中数据质量提升问题,提出了Ultra-FineWeb高效数据过滤管道数据质量验证效率低和种子数据选择依赖人工主观性。通过结合高效验证策略、多源种子优化和轻量级分类器,作者构建了更高质量的Ultra-FineWeb数据集(包含1万亿英语token和1200亿中文token),并在多个基准任务上验证了其有效性。

2025-05-27 09:30:00 131

原创 DSDrive: Distilling Large Language Model for Lightweight End-to-End Autonomous Driving with Unified

本文提出了一种轻量级端到端自动驾驶框架DSDrive,旨在解决传统端到端自动驾驶框架中认知过程不足的问题,同时应对大语言模型(LLMs)在自动驾驶中集成时面临的计算效率低和高层语义推理与低层轨迹规划脱节的挑战。框架设计知识蒸馏:利用紧凑型LLM(如LLaMA-1B)作为学生模型,通过蒸馏从大型视觉语言模型(VLM,如Qwen2.5-VL-max)中提取推理能力,生成结构化的“思考-回答”数据集,保留复杂推理能力。双头部协调模块。

2025-05-27 08:30:00 88

原创 Augmented Body Communicator: Enhancing daily body expression for people with upper limb limitations

上肢运动受限人群在社交互动中面临诸多挑战。当前机械臂的应用主要集中于功能性任务,但在提升用户身体语言能力方面仍有广阔探索空间。本文提出一种结合机械臂与大语言模型(LLM)的增强身体沟通系统(ABC)。通过“运动记忆”功能,残障用户及其辅助者可协作创建机械臂动作,LLM系统则根据互动中的上下文线索推荐最合适的动作。该系统对6名上肢运动障碍患者进行了深入测试,结果表明其显著提升了用户的自我表达能力。基于研究结果,本文为支持残障人士身体语言能力和功能性任务的机械臂设计提供了建议。

2025-05-26 09:30:00 118

原创 Free and Fair Hardware: A Pathway to Copyright Infringement-Free Verilog Generation using LLMs

摘要大语言模型(LLM)在硬件设计任务(如生成功能性Verilog代码)中的能力局限,促使研究人员利用开源存储库中精心整理的硬件数据集进行各种微调优化。然而,这些数据集规模有限,且对重用许可的检查极少,导致微调后的LLM存在潜在的版权侵权风险。因此,我们提出了一个评估基准,用于估计经过Verilog训练的LLM生成受版权保护代码的风险。为了最小化这种风险,我们提供了一个开源Verilog数据集FreeSet,其中包含超过22万个文件,以及用于自动管理数据集的框架,以确保Verilog数据的合理使用。

2025-05-26 08:30:00 86

原创 A SCALING LAW FOR TOKEN EFFICIENCY IN LLM FINE-TUNING UNDER FIXED COMPUTE BUDGETS

翻译我们提出了一种在固定计算预算下微调大型语言模型(LLMs)的缩放定律,该定律明确考虑了数据构成。传统方法仅通过总标记数衡量训练数据,但示例数量及其平均标记长度(我们称之为数据集体积)对模型性能起决定性作用。AccuracyAVβMγEAccuracyAVβMγE其中体积VN⋅LVN⋅L(示例数×平均标记长度),M为模型大小,参数通过既定流程调整(Pareja等人,2024)。

2025-05-25 09:30:00 105

原创 Harnessing LLMs Explanations to Boost Surrogate Models in Tabular Data Classification

大型语言模型(LLMs)在解决复杂任务方面表现出卓越能力,使其成为增强表格学习的有前途工具。然而,现有基于LLM的方法存在资源需求高、示例选择不佳和可解释性有限等问题,严重阻碍了其预测性能和实际应用。为解决这些问题,我们提出了一种新的表格预测上下文学习框架。核心思想是利用LLM生成的解释来指导一个更小、可本地部署的替代语言模型(SLM)进行可解释的表格预测。具体而言,我们的框架主要包括三个阶段:(i)事后解释生成,利用LLM为候选示例中的问答对生成解释,揭示答案背后的推理过程;

2025-05-25 08:30:00 72

原创 What Is Next for LLMs? Next-Generation AI Computing Hardware Using Photonic Chips

本文聚焦于光子芯片在下一代人工智能计算硬件中的应用,探讨其如何应对大型语言模型(LLMs)带来的计算与能效挑战,主要内容涵盖以下方面:光子神经网络组件:二维材料集成:神经形态与自旋电子学:大型语言模型(LLMs)正迅速突破当代计算硬件的极限。例如,训练GPT-3估计消耗了约1300 MWh的电力,而预测表明未来的模型可能需要城市级(千兆瓦)的电力预算。这些需求促使人们探索超越传统冯·诺依曼架构的计算范式。本综述调查了为下一代生成式人工智能计算优化的新兴光子硬件。我们讨论了集成光子神经网络架构(如马赫-曾德尔

2025-05-24 09:30:00 107

原创 LLMs Outperform Experts on Challenging Biology Benchmarks

本研究系统评估了2022年11月至2025年4月期间发布的27个前沿大型语言模型(LLMs)在8个生物学基准测试(涵盖分子生物学、遗传学、克隆、病毒学和生物安全等领域)上的表现。模型性能显著提升:在病毒学能力测试(VCT-Text)的纯文本子集上,顶级模型的性能在研究期间提升了4倍以上,目前顶级模型的表现是病毒学专家的两倍。在其他挑战性基准测试(如LAB-Bench克隆场景、GPQA和WMDP的生物学子集)中,多个模型达到或超过了专家水平。提示策略的影响有限。

2025-05-24 08:30:00 103

原创 A Large Language Model-Enhanced Q-learning for Capacitated Vehicle Routing Problem with Time Windows

带时间窗的容量限制车辆路径问题(CVRPTW)是经典的NP难组合优化问题,广泛应用于物流配送和运输管理。其复杂性源于车辆容量和时间窗约束,给传统方法带来巨大挑战。大语言模型(LLMs)的发展为寻找CVRPTW的近似解提供了新可能。本文提出一种新颖的LLM增强Q学习框架,以解决具有实时紧急约束的CVRPTW。我们的方案引入自适应两阶段训练机制,从LLM引导的探索阶段过渡到Q网络的自主优化阶段。为确保可靠性,我们基于思维链(CoT)为LLMs设计了三层自校正机制:语法验证、语义验证和物理约束执行。

2025-05-23 11:07:09 28

原创 LLMS GET LOST IN MULTI-TURN CONVERSATION

大型语言模型(LLMs)是对话接口。因此,LLMs不仅能在用户完全明确当前任务时提供帮助,还能通过多轮对话交流帮助用户定义、探索和完善需求。尽管对LLM对话日志的分析表明,用户指令中的不完整描述频繁出现,但LLM评估主要集中在单轮、完全明确的指令场景。在这项工作中,我们进行了大规模模拟实验,比较LLMs在单轮和多轮场景中的性能。实验证实,所有测试的顶尖开源和闭源LLMs在多轮对话中的表现显著低于单轮,六个生成任务的平均下降幅度为39%。

2025-05-23 11:06:30 142

原创 Multi-Agent Systems for Robotic Autonomy with LLMs

Abstract自大型语言模型(LLMs)问世以来,基于此类模型的研究一直备受学术界关注并产生了重要影响,尤其是在人工智能和机器人领域。本文提出了一种基于LLMs的多智能体框架,构建了一个集成系统,用于机器人任务分析、机械设计和路径生成。该框架包括三个核心智能体:任务分析器、机器人设计器和强化学习设计器。输出采用多模态结果格式,如代码文件或技术报告,以增强可读性和可用性。为了对比评估泛化能力,我们使用来自GPT和DeepSeek的模型进行了实验。

2025-05-22 17:52:41 125

原创 GesPrompt: Leveraging Co-Speech Gestures to Augment LLM-Based Interaction in Virtual Reality

本文提出了GesPrompt系统,这是一种结合语音和协同手势的多模态XR交互界面,旨在解决用户在虚拟现实(VR)环境中向基于大语言模型(LLM)的协同助手描述3D环境时的挑战。传统的纯文本或语音输入难以准确传达复杂的时空信息,而GesPrompt通过提取协同手势中的时空参考信息,减少了对精确文本提示的依赖,降低了用户的认知负荷。基于大语言模型(LLM)的协同助手在扩展现实(XR)应用中展现出巨大潜力。然而,用户在向协同助手描述3D环境时面临挑战,仅通过文本或语音传达时空信息的复杂性较高。

2025-05-22 17:52:11 93

原创 Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM

基于Transformer的模型是现代机器学习的基础,但其执行过程(尤其是大语言模型(LLM)的自回归解码阶段)因频繁的内存访问和不断增长的键值(KV)缓存,给内存系统带来了巨大压力,形成内存带宽瓶颈,且随着上下文长度的增加,这一问题愈发严重。处理内存(PIM)架构因具备高内部带宽和内存附近的计算并行性,成为颇具前景的解决方案。然而,现有PIM设计主要针对密集注意力优化,难以应对现代KV缓存稀疏技术引入的动态、不规则访问模式,导致工作负载不平衡,降低吞吐量和资源利用率。

2025-05-21 09:30:00 155

原创 Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

本文提出了首个基于统一多模态思维链(CoT)的奖励模型UNIFIEDREWARD-THINK,旨在通过显式长链推理提升多模态奖励模型的可靠性和鲁棒性。冷启动阶段:使用少量图像生成偏好数据蒸馏GPT-4o的推理过程,使模型学习CoT推理的格式和结构。拒绝采样阶段:利用大规模统一多模态偏好数据激发模型在各类视觉任务中的推理能力,保留正确推理样本以强化准确模式。组相对策略优化(GRPO)阶段:对错误预测样本进行基于GRPO的强化微调,推动模型探索多样化推理路径,优化推理准确性。

2025-05-21 08:30:00 917

原创 A Day in Their Shoes: Using LLM-Based Perspective-Taking Interactive Fiction to Reduce Stigma Toward

本文聚焦于运用基于大语言模型(LLM)的交互式小说(IF)框架,来推动视角采择并减少对“脏活”(Dirty Work)的社会污名。研究选取了四类“脏活”职业,分别是清洁工、消防员、警察和护理员,通过实验和访谈,深入探究了该框架在降低职业偏见方面的实际效果、作用机制以及面临的挑战。那些被称作“脏活”的职业,往往面临着根深蒂固的社会污名。这种污名不仅对从事这些职业的工作者的心理健康产生不利影响,还阻碍了职业公平的实现。

2025-05-20 09:30:00 131

原创 Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers

Transformer在众多自然语言处理任务中取得了巨大成功,但其在多步事实推理中仍存在显著不足,尤其是在真实世界知识稀疏的场景下。近期关于“grokking”的研究表明,神经网络一旦检测到潜在逻辑模式,就能从记忆阶段过渡到完全泛化阶段——但这些研究主要基于小规模合成任务。本文首次将grokking扩展到真实世界事实数据,并通过精心设计的合成数据增强现有知识图谱,将推理事实与原子事实的比例ϕr\phi_rϕr​提升至触发grokking所需的阈值以上,从而解决数据集稀疏性问题。

2025-05-20 08:30:00 94

原创 From Millions of Tweets to Actionable Insights: Leveraging LLMs for User Profiling

本文提出了一种基于大语言模型(LLM)的社交媒体用户画像方法,旨在解决传统方法依赖大量标注数据、特征不可解释、适应性差等问题。数据过滤:通过半监督语义过滤方法,利用领域知识库(如维基数据)从600万条波斯语政治推文中筛选出170万条政治相关内容,构建数据集PersianPol6M。画像生成抽象式画像:使用LLM生成自然语言摘要,提炼用户观点和趋势。提取式画像:从推文中选取最具代表性的原文,保留用户真实表达。评估框架:通过基于LLM的开卷问答任务,对比画像与完整推文历史的立场检测性能,验证信息保留能力。

2025-05-19 09:30:00 103

原创 ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching

本文提出了一种名为ZEROSEARCH的强化学习框架,旨在解决现有大语言模型(LLMs)在利用真实搜索引擎进行搜索能力训练时面临的两大挑战:文档质量不可控和API成本过高。监督微调构建检索模块:通过轻量级监督微调将LLM转化为检索模块,使其能够根据查询生成相关文档和噪声文档,实现对文档质量的可控模拟。基于课程的训练策略:在强化学习训练过程中,采用逐步降级文档质量的课程式展开策略,使模型在逐渐增加的挑战中提升推理能力。高效可扩展的训练机制。

2025-05-19 08:30:00 101

原创 Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation

本文聚焦于大语言模型(LLMs)的机器遗忘(Machine Unlearning)领域,提出了一种名为Unilogit的自蒸馏方法,旨在解决模型在选择性遗忘敏感信息的同时保持整体性能的挑战,以满足数据隐私法规(如GDPR)的要求。

2025-05-18 10:30:00 81

原创 Towards Understanding Camera Motions in Any Video

因此,我们与一组十几名在相机运动方面具有高技能的计算机视觉研究人员和专业电影摄影师(包括本文的一些作者)合作,通过构建精确的相机运动原语分类法和开发强大且可扩展的标注框架来应对这些挑战,下文将对此进行解释。人类对相机运动的感知。此外,这些方法无法捕捉相机运动的高级语义,例如镜头背后的意图(如跟踪对象或展示场景)或运动发生的上下文(如手持、云台稳定或车载)。另一方面,最近的多模态视觉系统,如GPT-4o和Gemini,通过大规模训练展现出强大的类人感知能力,但其理解相机运动的能力在很大程度上仍未得到测试。

2025-05-18 09:30:00 127

原创 ToolRL: Reward is All Tool Learning Needs

2025-05-18 08:30:00 25

原创 Absolute Zero: Reinforced Self-play Reasoning with Zero Data

本文提出了一种名为的强化学习新范式,旨在解决现有强化学习方法依赖人工标注数据的问题。核心是让模型通过自我博弈(self-play)自主生成任务并解决,无需任何外部数据。核心框架:Absolute Zero推理器(AZR)模型同时担任**任务提议者(proposer)和问题解决者(solver)**双重角色。提议者生成三种类型的编程任务(演绎、归纳、溯因),对应不同推理模式,并通过代码执行器验证任务有效性和答案正确性,提供可验证的奖励信号。

2025-05-17 09:30:00 115

原创 Tina: Tiny Reasoning Models via LoRA

2025-05-17 08:30:00 150

C语言编程实例100题

里面有C语言程序示例,没有100个,但是个个讲的都很好,对于初学者帮助很大。。

2012-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除