UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DisTime: Distribution-based Time Representation for Video Large Language Models
研究背景视频大语言模型(Video-LLMs)在时间敏感任务(如时刻检索、密集视频字幕、接地视频问答)中面临离散时间表示和时间感知数据集有限的挑战。现有方法存在三大问题:文本-数字混合表示(如GroundingGPT)导致分类混淆;专用时间标记(如Momentor)受长尾分布和时间不连续性影响;重型时间模块(如InternVideo2.5)增加计算成本且依赖视觉信息重输入。DisTime框架核心设计:引入可学习时间标记。原创 2025-06-09 14:49:36 · 14 阅读 · 0 评论 -
Latte: Transfering LLMs’ Latent-level Knowledge for Few-shot Tabular Learning
本文聚焦于小样本表格学习(Few-shot Tabular Learning)难题,提出了Latte框架,借助大语言模型(LLMs)的潜在知识优化下游模型训练,有效缓解了小样本场景下的数据不足与过拟合问题。具体内容如下:问题背景Latte框架设计实验验证训练时潜在知识提取首次将LLMs作为“教师”,在训练阶段提取其隐层状态的潜在知识(非文本生成),避免文本级知识的幻觉问题,提升特征工程可靠性。语义感知与知识融合架构无监督预训练与元学习结合利用无标注数据生成伪标签进行元学习,为下游任务提供鲁棒的参数初始化原创 2025-06-11 10:30:00 · 65 阅读 · 0 评论 -
PRIMG : Efficient LLM-driven Test Generation Using Mutant Prioritization
本文提出了一种针对Solidity智能合约的测试用例生成框架PRIMG(Prioritization and Refinement Integrated Mutation-driven Generation),旨在通过突变优先化和LLM驱动的测试生成,解决传统变异测试中测试套件庞大、计算开销高的问题。框架设计突变优先化模块:利用机器学习模型(岭回归)预测存活突变体的“有用性”,基于突变体包含图(DMSG)和测试完整性提升概率(TCAP),选择高影响力的突变体作为测试目标,减少冗余。测试生成模块。原创 2025-06-11 08:30:00 · 103 阅读 · 0 评论 -
Frame In, Frame Out: Do LLMs Generate More Biased News Headlines than Humans?
研究背景媒体框架通过选择性强调或淡化某些细节来塑造公众认知,而LLMs在自动化新闻生成中的应用日益广泛,其可能引入或放大框架偏见的问题引发担忧。现有研究多关注人类框架,对LLMs如何内化和重现框架模式的探讨较少。研究方法使用XSUM数据集(BBC新闻摘要),对比27种LLMs(包括开箱即用和微调模型)与人类生成的新闻标题的框架倾向。采用GPT-4系列模型作为“评审团”检测框架,通过关键词分类法分析不同主题(如政治、健康、经济等)的框架差异。核心发现人类与LLMs对比。原创 2025-06-10 09:30:00 · 83 阅读 · 0 评论 -
Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization
摘要高质量多模态生物医学数据的稀缺性限制了预训练大语言模型(LLMs)在专业生物医学任务中的有效微调能力。为应对这一挑战,我们提出了MINT(多模态集成知识迁移)框架,通过偏好优化将单模态大解码器模型与高质量多模态生物医学数据中的领域特定决策模式对齐。尽管MINT支持不同的优化技术,但我们主要以优势比偏好优化(ORPO)框架为 backbone 实现。该策略使对齐后的LLMs能够使用纯文本或纯图像输入执行预测任务,同时保留从多模态数据中学习到的知识。原创 2025-06-10 08:30:00 · 102 阅读 · 0 评论 -
Period-LLM: Extending the Periodic Capability of Multimodal Large Language Model
周期性或准周期性现象揭示了各种自然过程的内在特征,如天气模式、运动行为、交通流量和生物信号。鉴于这些现象跨越多种模态,多模态大语言模型(MLLMs)的能力为有效捕捉和理解其复杂本质提供了广阔前景。然而,当前MLLMs在周期性任务中面临挑战,主要源于以下限制:1)缺乏时间建模能力;2)短周期和长周期之间的冲突。本文介绍了Period-LLM,这是一种多模态大语言模型,旨在提升跨各种模态的周期性任务性能,并构建了一个具有不同难度的基准,用于评估大型模型的跨模态周期性能力。原创 2025-06-09 08:30:00 · 641 阅读 · 0 评论 -
Mind the Quote: Enabling Quotation-Aware Dialogue in LLMs via Plug-and-Play Modules
本文聚焦于提升大语言模型(LLMs)在对话中处理引用文本的能力,提出了一种名为QuAda的即插即用模块,旨在解决现有模型缺乏显式定位和利用引用片段的问题。问题建模:将引用对话形式化为跨段条件生成(span-conditioned generation),将对话分解为历史记录HHH、引用片段集合RRR和意图话语UUU,定义了Base、Multi-Span、Exclude、Info-Combine、Coref五种典型引用场景。数据构建。原创 2025-06-09 09:30:00 · 94 阅读 · 0 评论 -
MMAFFBen: A Multilingual and Multimodal Affective Analysis Benchmark for Evaluating LLMs and VLMs
大型语言模型(LLMs)和视觉语言模型(VLMs,统称LMs)已革新了自然语言处理(NLP)和计算机视觉(CV)领域,在多个领域展现出显著潜力。然而,其在情感分析(即情绪分析和情感检测)中的能力仍未被充分探索。这一空白主要归因于缺乏全面的评估基准,以及情感分析任务本身的复杂性。本文引入MMAFFBen,首个用于多语言多模态情感分析的大规模开源基准。MMAFFBen涵盖35种语言的文本、图像和视频模态,包含四项关键情感分析任务:情感极性、情感强度、情绪分类和情绪强度。原创 2025-06-08 09:30:00 · 85 阅读 · 0 评论 -
HARDTESTS: Synthesizing High-Quality Test Cases for LLM Coding
摘要验证器在大型语言模型(LLM)推理中至关重要,强化学习等后期训练技术均需依赖验证器。然而,对于复杂编程问题,可靠验证器难以获取,因为伪装良好的错误解决方案通常只能通过精心设计的边缘测试用例检测,而这类测试用例难以合成。为此,我们提出HARDTESTGEN,一种基于LLM的高质量测试合成流水线。通过该流水线,我们构建了包含47k问题和合成高质量测试用例的竞赛编程数据集HARDTESTS。原创 2025-06-08 08:30:00 · 128 阅读 · 0 评论 -
LLM-powered Query Expansion for Enhancing Boundary Prediction in Language-driven Action Localization
语言驱动的视频动作定位任务不仅需要语言查询与视频片段的语义对齐,还需要对动作边界进行预测。然而,语言查询主要描述动作的主要内容,通常缺乏动作起始和结束边界的具体细节,这增加了人工边界标注的主观性,导致训练数据中存在边界不确定性。本文提出了两项创新:一方面,通过大语言模型(LLM)生成动作起始和结束边界的文本描述,对原始查询进行扩展。该方法为动作定位提供了更详细的边界线索,从而降低边界不确定性的影响。原创 2025-06-07 09:30:00 · 76 阅读 · 0 评论 -
Large Language Models Are More Persuasive Than Incentivized Human Persuaders
本文通过大规模实验对比了前沿大语言模型(LLM,Claude Sonnet 3.5)与受激励人类说服者的说服能力,发现LLM在真实(引导正确答案)和欺骗性(引导错误答案)场景中均显著优于人类,且其说服力直接影响答题者的准确率和收益。研究强调了AI说服能力的潜在风险,呼吁加强对齐和治理框架。摘要我们在一个交互式、实时对话测验环境中,直接比较了前沿大语言模型(LLM;Claude Sonnet 3.5)与受激励人类说服者的说服能力。原创 2025-06-07 08:30:00 · 124 阅读 · 0 评论 -
Emerging Properties in Unified Multimodal Pretraining
本文介绍了字节跳动开源的多模态基础模型BAGEL,其核心目标是通过大规模交错多模态数据预训练,实现统一的多模态理解与生成能力。BAGEL采用仅解码器架构和混合Transformer专家(MoT)设计,在文本、图像、视频和网页数据上进行训练,展现出复杂多模态推理的新兴能力,如自由形式图像操作、未来帧预测、3D操作和世界导航等。实验表明,BAGEL在标准基准测试中显著优于开源模型,并通过数据构建协议和模型架构创新,缩小了与专有系统(如GPT-4o、Gemini 2.0)的差距。原创 2025-06-06 09:30:00 · 94 阅读 · 0 评论 -
WEB-SHEPHERD: Advancing PRMs for Reinforcing Web Agents
本文聚焦于网络导航领域的过程奖励模型(PRM)研究,提出了首个专为评估网络代理轨迹设计的模型,并构建了配套的训练数据集和评估基准。问题背景:现有网络代理依赖多模态大语言模型(MLLM)作为奖励模型,存在速度慢、成本高、性能不足等问题,尤其在长程序列决策中表现不稳定。核心方法:作为过程奖励模型,通过结构化清单(Checklist)将用户指令分解为可解释的子目标,实现对代理轨迹的步骤级评估。:包含4万个步骤级偏好对和注释清单,覆盖多领域、多难度任务,支持PRM训练。原创 2025-06-06 08:30:00 · 102 阅读 · 0 评论 -
Qwen3技术报告
在这项工作中,我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列旨在提升性能、效率和多语言能力的大型语言模型(LLMs),涵盖稠密和混合专家(MoE)架构,参数规模从6亿到2350亿不等。Qwen3的关键创新在于将思考模式(用于复杂多步推理)和非思考模式(用于快速上下文驱动响应)整合到统一框架中,无需在不同模型(如聊天优化模型GPT-4o和专用推理模型QwQ32B)之间切换,可根据用户查询或聊天模板动态切换模式。同时,Qwen3引入思考预算机制。原创 2025-05-30 10:55:20 · 101 阅读 · 0 评论 -
Scaling Law for Quantization-Aware Training
本文围绕大语言模型(LLMs)的量化感知训练(QAT)展开研究,重点探讨4-bit精度(W4A4)下的缩放规律。通过268次QAT实验,分析了模型规模(N)、训练数据量(D)和量化粒度(G)对量化误差的影响,并提出统一的缩放定律。量化误差的影响因素:误差随模型规模增大而减小,随训练数据量和量化粒度粗化而增大。误差分解:权重和激活误差均遵循整体趋势,但敏感度不同。权重误差对训练数据更敏感,而激活误差(尤其是FC2层输入)是W4A4的主要瓶颈。混合精度优化。原创 2025-06-05 09:30:00 · 62 阅读 · 0 评论 -
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models
指令遵循对于使大型语言模型(LLMs)与用户意图保持一致至关重要。尽管最近面向推理的模型在复杂数学问题上表现出令人印象深刻的性能,但它们遵循自然语言指令的能力仍未得到充分探索。在这项工作中,我们引入了MathIF,这是一个专门用于评估数学推理任务中指令遵循能力的基准。我们的实证分析揭示了推理能力扩展与保持可控性之间的持续矛盾,因为推理更有效的模型往往难以遵守用户指令。我们发现,在蒸馏的长思维链上进行微调或使用面向推理的强化学习训练的模型,其指令遵循能力通常会下降,尤其是在生成长度增加时。原创 2025-06-05 08:30:00 · 432 阅读 · 0 评论 -
LLM Weekly(2025.05.19-05.25)
通过构建包含 4 万偏好对的 WebPRM 数据集,并推出 WebRewardBench 评估框架,该模型在 WebRewardBench 上比 GPT-4o 准确率提升 30 点,在 WebArena-lite 任务中性能提升 10.9 点,同时降低成本。通过混合精度量化,研究识别并解决权重和激活误差,指出当训练数据充足时,降低权重误差是提升 QAT 性能的关键。该模型基于数万亿不同来源的 token 预训练,擅长图像操作、虚拟导航等复杂推理任务,在标准基准测试中超越现有开源模型。🔬 有趣论文与代码库。原创 2025-05-29 11:14:18 · 263 阅读 · 0 评论 -
A Reputation System for Large Language Model-based Multi-agent Systems to Avoid the Tragedy
本文聚焦于基于大语言模型的多智能体系统(Generative Multi-Agent Systems, MASs)中“公地悲剧”问题,提出动态双层声誉框架RepuNet,通过智能体层面的声誉动态和系统层面的网络演化,结合直接交互与间接 gossip 机制,有效促进合作并避免资源过度开发。实验验证了RepuNet在资源共享和投资博弈场景中的有效性,揭示了合作集群形成、剥削者孤立及正向 gossip 偏好等新兴现象。摘要公地悲剧(个人自利导致集体灾难性后果)是人类社会普遍存在的挑战。原创 2025-06-04 08:30:00 · 102 阅读 · 0 评论 -
Theatrical Language Processing: Exploring AI-Augmented Improvisational Acting and Scriptwriting
本文提出了戏剧语言处理(Theatrical Language Processing, TLP)概念,并开发了AI创意支持工具,旨在通过人机交互提升演员的即兴表演创造力。AI生成的非常规场景能激发演员创造力,迫使其应对陌生情境,提升问题解决能力;AI的不可预测性增强了表演的 spontaneity,但过度详细的脚本会限制演员对潜台词的探索空间;工具优势:快速生成定制化剧本,突破传统脚本的重复性和局限性,为即兴训练提供新范式。人工智能的日益融合开辟了新途径,包括其在增强创造力方面的新兴作用。原创 2025-06-03 09:30:00 · 19 阅读 · 0 评论 -
APOLLO: Automated LLM and Lean Collaboration for Advanced Formal Reasoning
本文提出了APOLLO系统,这是一种将大型语言模型(LLM)与Lean形式验证系统相结合的自动化定理证明框架,旨在解决传统方法中LLM生成证明效率低、错误率高的问题。APOLLO通过模块化流程实现了对LLM生成证明的自动化修复,具体包括语法修正(Syntax Refiner)、错误块隔离(Sorrifier)、自动求解(Auto Solver)和递归修复(Recursive repair)等步骤。原创 2025-06-04 09:30:00 · 146 阅读 · 0 评论 -
Evolutionary thoughts: integration of large language models and evolutionary algorithms
本文提出将大型语言模型(LLMs)与进化算法(EAs)结合,以解决复杂问题中的优化和函数合成任务。研究设计了四个难度递增的任务(计数、最大-最小值、逆序、排序),要求算法通过输入-输出对推断映射函数。LLM引导的进化搜索:利用LLM生成初始种群个体和优化变异操作,减少搜索空间的随机性,提升候选解的质量。高效评估框架:开发基于C++和CUDA的快速评估系统,支持多核CPU和GPU加速,解决大规模种群评估的计算瓶颈。实验验证。原创 2025-06-03 08:30:00 · 336 阅读 · 0 评论 -
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
结合上述分析,我们得出三个关键观察结果。首先,RLVR模型解决的问题基础模型也可以解决;观察到的平均分数改进源于这些已解决问题的更高效采样,而不是学习解决新问题。其次,RLVR训练后,模型的推理覆盖范围通常比其基础模型更窄。第三,RLVR模型利用的所有推理路径已经存在于基础模型的采样分布中。这些发现表明,RLVR并没有引入根本上新的推理能力,训练模型的推理能力仍然受其基础模型的限制。原创 2025-05-29 11:04:59 · 380 阅读 · 0 评论 -
Adaptive Stress Testing Black-Box LLM Planners
大型语言模型(LLMs)最近在跨决策任务(包括规划、控制和预测)的泛化能力上取得了成功,但其产生不安全和非预期输出的“幻觉”倾向带来了风险。我们认为,检测此类故障是必要的,尤其是在安全关键场景中。现有的黑箱方法通常通过识别多个样本间的不一致性来检测幻觉,这些方法通常引入提示扰动,如随机化细节顺序或生成对抗性输入,其核心思想是自信的模型应产生稳定的输出。我们首先通过手动案例研究表明,其他形式的扰动(如添加噪声、移除传感器细节)会导致LLMs在驾驶环境中产生幻觉。原创 2025-06-02 09:30:00 · 107 阅读 · 0 评论 -
KG-HTC: Integrating Knowledge Graphs into LLMs for Effective Zero-shot Hierarchical Text
本文提出了一种名为KG-HTC的零样本层次文本分类方法,旨在解决层次文本分类(HTC)中数据标注成本高、标签空间大、长尾分布等问题。该方法通过将知识图谱(KG)与大型语言模型(LLM)结合,利用检索增强生成(RAG)框架从知识图谱中动态检索与输入文本语义相关的子图,并将其转换为结构化提示,引导LLM进行层次分类。实验在三个公开数据集(WoS、Dbpedia、Amazon)上表明,KG-HTC在严格零样本设置下显著优于基线方法,尤其在深层标签分类中表现更佳。原创 2025-06-02 08:30:00 · 196 阅读 · 0 评论 -
LITRANSPROQA: An LLM-based LITerary TRANSlation Evaluation Metric with PROfessional Question
本文聚焦于文学翻译评估领域,针对现有评估指标过度关注机械准确性、忽视艺术性表达及文化真实性的问题,提出了一种基于大语言模型(LLM)的新型评估框架。该框架通过整合专业文学译者和研究者的见解,设计了一套针对文学翻译核心要素(如文学手法、文化理解、语气等)的问答体系,无需参考译文即可评估翻译质量。原创 2025-06-01 09:30:00 · 79 阅读 · 0 评论 -
QualBench: Benchmarking Chinese LLMs with Localized Professional Qualifications for Vertical Domain
本文聚焦于中文大语言模型(LLMs)在垂直领域的评估问题,提出了首个基于中国本土职业资格考试的多领域中文问答基准QualBench。数据集覆盖安全生产、消防安全、建筑工程、经济金融、石油天然气、银行保险6个垂直领域,包含来自24项职业资格考试的17,298道题目,强调本地化和政策一致性。通过实验评估发现,中文LLM(如Qwen2.5)在本土领域知识上显著优于非中文模型(如GPT-4o),但最高准确率仅75.26%,表明模型在专业知识覆盖上仍有不足。原创 2025-06-01 08:30:00 · 123 阅读 · 0 评论 -
Exploring the Feasibility of Multilingual Grammatical Error Correction with a Single LLM up to 9B
本文围绕17个参数不超过90亿的大型语言模型(LLMs)在英语、德语、意大利语和瑞典语这四种语言的多语言语法错误纠正(GEC)任务中的性能展开研究,旨在探索单个模型处理多种语言语法纠错的可行性,并对不同模型的表现进行对比分析。近期的语言模型能够成功解决各种与语言相关的任务,并且许多模型能够理解以不同语言表述的输入。在本文中,我们探讨了17种流行模型在使用单一模型纠正英语、德语、意大利语和瑞典语文本中的语法问题时的性能。我们分析了这些模型生成的输出,重点在于减少语法错误的数量,同时保持较小的修改幅度。原创 2025-05-31 09:30:00 · 122 阅读 · 0 评论 -
Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study
本文聚焦于多语言仇恨言论检测领域,对大型语言模型(LLMs)在零样本和少样本提示下的表现展开研究。通过运用多种提示策略(涵盖零样本提示、少样本提示、思维链提示、角色扮演提示等),针对西班牙语、葡萄牙语、德语、法语、意大利语、土耳其语、印地语和阿拉伯语这8种非英语语言的仇恨言论检测任务,对LLaMA、Qwen、Aya、BloomZ等 instruction-tuned 多语言大模型的性能进行评估,并与微调后的编码器模型(像XLM-T、mDeBERTa)进行对比。原创 2025-05-31 08:30:00 · 18 阅读 · 0 评论 -
LLM-Text Watermarking based on Lagrange Interpolation
本文提出了一种基于拉格朗日插值的大语言模型(LLM)生成文本水印方案,旨在解决LLM生成文本的来源归因问题,应对错误信息、伪造新闻、抄袭等挑战。核心思想是将秘密身份编码为有限域上的直线方程,并通过伪随机生成的坐标点嵌入文本。即使文本被对手大量篡改,只要至少保留3个有效点,即可通过求解最大共线点问题(MCP)恢复作者身份。大型语言模型(LLM)的快速发展使其成为许多人工智能和机器学习驱动的人机交互的基础技术。原创 2025-05-30 09:30:00 · 108 阅读 · 0 评论 -
Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information
背景与目标随着LLMs的普及,其在公共卫生领域的信息准确性至关重要,但目前缺乏针对英国政府公共卫生指南的评估。开发新基准,包含超8000道多选题(MCQA)和开放式问答,用于评估LLMs对英国公共卫生指南的知识水平。数据与方法数据集:从英国政府网站收集1150份公共卫生指南文件,处理为687份Markdown格式文档,涵盖10大主题和352个指导领域。基准生成:通过自动化流程生成MCQA问题,利用LLM分类、过滤无效问题,并引入人工审核确保质量。评估模型。原创 2025-05-30 08:30:00 · 77 阅读 · 0 评论 -
Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes
本文聚焦于大语言模型(LLMs)与人类偏好对齐的难题,提出了潜在偏好编码框架(Latent Preference Coding, LPC)。传统方法依赖单一奖励函数,难以捕捉人类偏好的多维度和冲突性(如“帮助性”与“安全性”的权衡)。LPC通过离散潜在代码建模偏好背后的隐含因素及其组合,无需预定义奖励函数和人工权重,可自动从数据中推断因素及其重要性。原创 2025-05-29 09:30:00 · 103 阅读 · 0 评论 -
Scalable Multi-Stage Influence Function for Large Language Models via Eigenvalue-Corrected Kronecker
预训练大型语言模型(LLMs)通常通过微调来适应下游任务。由于大部分知识是在预训练阶段获取的,将微调后LLMs的预测归因于预训练数据可能提供有价值的见解。影响函数已被提出作为一种基于训练数据解释模型预测的手段。然而,现有方法无法计算“多阶段”影响,且缺乏对数十亿规模LLMs的可扩展性。本文提出了多阶段影响函数,在全参数微调范式下将微调后LLMs的下游预测归因于预训练数据。为了提高多阶段影响函数的效率和实用性,我们利用特征值校正的克罗内克分解(EK-FAC)参数化进行高效近似。原创 2025-05-29 08:30:00 · 88 阅读 · 0 评论 -
HEXGEN-TEXT2SQL: Optimizing LLM Inference Request Scheduling for Agentic Text-to-SQL Workflows
本文聚焦于基于大语言模型(LLM)的智能文本到SQL系统在异构GPU集群中的调度与执行问题,提出了HEXGEN-TEXT2SQL框架,旨在解决多阶段工作流、严格延迟约束和资源异构性带来的挑战。问题分析:现有LLM服务框架无法有效处理文本到SQL工作流中的任务依赖、延迟变化和资源异构性,导致服务级别目标(SLO)频繁违反。框架设计分层调度策略:全局负载均衡调度器根据模型实例的处理能力和当前负载分配任务;本地优先级队列基于任务紧迫性动态调整执行顺序,支持任务抢占。轻量级仿真调参。原创 2025-05-28 09:30:00 · 167 阅读 · 0 评论 -
Towards Mitigating API Hallucination in Code Generated by LLMs with Hierarchical Dependency Aware
摘要应用程序编程接口(API)在现代软件开发中至关重要。大语言模型(LLMs)辅助自动化代码生成,但在实际开发场景中常面临API幻觉问题,包括调用不存在的API和误用现有API。现有研究借助检索增强生成(RAG)方法缓解幻觉问题,但往往失败,因为它们通常忽略实际项目中的结构依赖,且未真正验证生成的API是否可用。为解决这些局限,我们提出MARIN,一种基于层次依赖感知的缓解LLMs生成代码中API幻觉的框架。原创 2025-05-28 08:30:00 · 107 阅读 · 0 评论 -
Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data
本文聚焦于大规模语言模型(LLMs)训练中数据质量提升问题,提出了Ultra-FineWeb高效数据过滤管道数据质量验证效率低和种子数据选择依赖人工主观性。通过结合高效验证策略、多源种子优化和轻量级分类器,作者构建了更高质量的Ultra-FineWeb数据集(包含1万亿英语token和1200亿中文token),并在多个基准任务上验证了其有效性。原创 2025-05-27 09:30:00 · 138 阅读 · 0 评论 -
DSDrive: Distilling Large Language Model for Lightweight End-to-End Autonomous Driving with Unified
本文提出了一种轻量级端到端自动驾驶框架DSDrive,旨在解决传统端到端自动驾驶框架中认知过程不足的问题,同时应对大语言模型(LLMs)在自动驾驶中集成时面临的计算效率低和高层语义推理与低层轨迹规划脱节的挑战。框架设计知识蒸馏:利用紧凑型LLM(如LLaMA-1B)作为学生模型,通过蒸馏从大型视觉语言模型(VLM,如Qwen2.5-VL-max)中提取推理能力,生成结构化的“思考-回答”数据集,保留复杂推理能力。双头部协调模块。原创 2025-05-27 08:30:00 · 92 阅读 · 0 评论 -
Augmented Body Communicator: Enhancing daily body expression for people with upper limb limitations
上肢运动受限人群在社交互动中面临诸多挑战。当前机械臂的应用主要集中于功能性任务,但在提升用户身体语言能力方面仍有广阔探索空间。本文提出一种结合机械臂与大语言模型(LLM)的增强身体沟通系统(ABC)。通过“运动记忆”功能,残障用户及其辅助者可协作创建机械臂动作,LLM系统则根据互动中的上下文线索推荐最合适的动作。该系统对6名上肢运动障碍患者进行了深入测试,结果表明其显著提升了用户的自我表达能力。基于研究结果,本文为支持残障人士身体语言能力和功能性任务的机械臂设计提供了建议。原创 2025-05-26 09:30:00 · 120 阅读 · 0 评论 -
Free and Fair Hardware: A Pathway to Copyright Infringement-Free Verilog Generation using LLMs
摘要大语言模型(LLM)在硬件设计任务(如生成功能性Verilog代码)中的能力局限,促使研究人员利用开源存储库中精心整理的硬件数据集进行各种微调优化。然而,这些数据集规模有限,且对重用许可的检查极少,导致微调后的LLM存在潜在的版权侵权风险。因此,我们提出了一个评估基准,用于估计经过Verilog训练的LLM生成受版权保护代码的风险。为了最小化这种风险,我们提供了一个开源Verilog数据集FreeSet,其中包含超过22万个文件,以及用于自动管理数据集的框架,以确保Verilog数据的合理使用。原创 2025-05-26 08:30:00 · 89 阅读 · 0 评论 -
A SCALING LAW FOR TOKEN EFFICIENCY IN LLM FINE-TUNING UNDER FIXED COMPUTE BUDGETS
翻译我们提出了一种在固定计算预算下微调大型语言模型(LLMs)的缩放定律,该定律明确考虑了数据构成。传统方法仅通过总标记数衡量训练数据,但示例数量及其平均标记长度(我们称之为数据集体积)对模型性能起决定性作用。AccuracyAVβMγEAccuracyAVβMγE其中体积VN⋅LVN⋅L(示例数×平均标记长度),M为模型大小,参数通过既定流程调整(Pareja等人,2024)。原创 2025-05-25 09:30:00 · 106 阅读 · 0 评论 -
Harnessing LLMs Explanations to Boost Surrogate Models in Tabular Data Classification
大型语言模型(LLMs)在解决复杂任务方面表现出卓越能力,使其成为增强表格学习的有前途工具。然而,现有基于LLM的方法存在资源需求高、示例选择不佳和可解释性有限等问题,严重阻碍了其预测性能和实际应用。为解决这些问题,我们提出了一种新的表格预测上下文学习框架。核心思想是利用LLM生成的解释来指导一个更小、可本地部署的替代语言模型(SLM)进行可解释的表格预测。具体而言,我们的框架主要包括三个阶段:(i)事后解释生成,利用LLM为候选示例中的问答对生成解释,揭示答案背后的推理过程;原创 2025-05-25 08:30:00 · 74 阅读 · 0 评论