UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Memory Retrieval and Consolidation in Large Language Models through Function Tokens
LLMs虽能通过预训练巩固知识、推理时检索知识,但记忆检索与巩固的机制尚不明确。研究受语言学中“功能词”概念启发,将LLM的令牌分为函数令牌(高频,如标点、介词、冠词)和内容令牌(低频,如名词、动词),探究二者在记忆机制中的作用。大型语言模型(LLMs)的显著成功,源于其能在预训练阶段将海量知识巩固到记忆中,并在推理阶段从记忆中检索知识——这一能力使其具备知识记忆、指令遵循和推理等高级功能。然而,LLMs中记忆检索与巩固的机制仍未被充分理解。原创 2025-11-24 14:59:16 · 7 阅读 · 0 评论 -
Metric Calculating Benchmark: Code-Verifiable Complicate Instruction Following Benchmark
研究背景:当前前沿LLMs已在MATH、IFEval等多个传统基准上接近饱和,而依赖人工或LLM作为评估者的基准存在主观性,亟需兼具挑战性与客观性的新基准。MCBench基准设计核心构成:包含三部分,分别是计算目标NLP指标的分步指南(Rubric)、用于计算指标的语句对(Candidate)、与指南对应的可执行Python平行参考代码。评估维度:从三个关键能力评估LLMs,一是复杂指令遵循能力,处理平均超5000字符的多步指令;二是数学推理能力,完成各步骤精确算术运算;原创 2025-11-21 15:00:40 · 129 阅读 · 0 评论 -
Generation and annotation of item usage scenarios in e-commerce using large language models
研究背景:传统电商互补推荐依赖历史数据的统计共现,但数据稀疏、有噪声,且难以捕捉主观的商品互补关系;用户需求会随场景变化,比如买相机后更需要SD卡而非同类相机,传统推荐无法满足这类动态需求。核心假设:人们选择互补商品时,会先想象具体使用场景,再基于场景识别需求。例如“用相机在家庭旅行拍纪念照”的场景,会引出对SD卡、三脚架的需求,该场景可作为连接主商品与互补品的中间载体。研究过程输入设计:采用电商平台(ASKUL)的四级商品分类作为输入,而非单个商品,兼顾可扩展性与信息丰富度。原创 2025-11-21 14:57:33 · 115 阅读 · 0 评论 -
One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion
扩散模型难以突破训练分辨率的限制:直接高分辨率采样速度慢、成本高,而事后图像超分辨率(ISR)在解码后执行,会引入伪影并增加额外延迟。本文提出潜在超分适配器(LUA),这是一个轻量级模块,在最终 VAE 解码步骤前,直接对生成器的潜在代码执行超分辨率。LUA 可作为即插即用组件集成,无需修改基础模型或增加额外扩散阶段,通过潜在空间中的单次前馈传递实现高分辨率合成。原创 2025-11-24 09:30:00 · 133 阅读 · 0 评论 -
TiDAR: Think in Diffusion, Talk in Autoregression
TiDAR 是一款序列级混合架构语言模型,核心目标是解决自回归(AR)模型吞吐量低、扩散语言模型(dLM)质量与并行性矛盾的问题。其通过“扩散 drafting(思考)+ 自回归 sampling(生成)”的双模式设计,在单模型单次前向传播中实现并行高效生成与高质量输出的平衡。背景:AR模型生成质量高但逐token生成、吞吐量低;扩散模型支持并行生成但存在质量退化,现有方法难以兼顾三者。原创 2025-11-24 08:30:00 · 88 阅读 · 0 评论 -
LLM Weekly(2025.11.10-11.16)
尽管各组织对员工规模的预期存在差异,但64%的组织认为AI能促进创新,不过仅有39%的组织表示AI对息税折旧摊销前利润(EBIT)产生了显著影响。文章解决了内存使用和效率方面的挑战,探索了梯度检查点技术,并测试了多种优化策略,以提升模型的训练吞吐量和平均浮点运算利用率。评估显示,它在效率上超越了推测解码和其他扩散模型,每秒生成的令牌数量提升4.71至5.91倍,同时保持自回归模型的质量水平。该模型实现了150毫秒内的实时转录,支持英语、法语、西班牙语等多种语言,在30种语言中的准确率达到93.5%。原创 2025-11-20 14:25:49 · 450 阅读 · 0 评论 -
Haibu Mathematical-Medical Intelligent Agent: Enhancing Large Language Model Reliability in Medical
研究背景与问题LLMs在处理复杂医疗信息上潜力巨大,可应用于临床决策支持、疾病诊断等领域,但因其概率性本质,存在事实幻觉和逻辑不一致问题,在医疗这类高风险领域难以接受。现有缓解LLMs不可靠性的方法,如检索增强生成(RAG)、模型微调等,虽能降低错误频率,却无法根除错误,也缺乏对推理过程的形式化验证机制,LLMs的“黑箱”特性阻碍了信任建立。解决方案:Haibu MMIA架构核心设计。原创 2025-11-23 09:30:00 · 96 阅读 · 0 评论 -
Large Language Models Meet Virtual Cell: A Survey
核心背景与定义虚拟细胞:指在计算机中模拟细胞结构、功能与动态变化的计算系统,可加速药物研发、实现个性化医疗,但传统建模受限于知识不全与数据稀疏。LLMs的价值:凭借大规模数据处理能力,可直接学习核苷酸、转录组等生物数据特征,解决传统虚拟细胞建模的瓶颈,成为当前研究核心驱动力。LLMs应用的两大核心范式LLMs作为“预言机(Oracle)”:直接建模细胞内部状态与动态,无需依赖外部工具。包括6类应用方向,具体如下表:| 应用方向 | 核心任务 | 代表模型 |原创 2025-11-23 08:30:00 · 147 阅读 · 0 评论 -
Role-Conditioned Refusals: Evaluating Access Control Reasoning in Large Language Models
传统计算中,基于角色的访问控制(RBAC)是安全基石,但LLMs生成式特性会模糊角色边界,可能导致未授权用户获取敏感数据(如医疗、财务信息)。现有研究多依赖合成场景,缺乏对真实可执行访问规则的支持,无法有效评估LLMs在实际访问控制中的可靠性。访问控制是安全计算的基石,但大型语言模型(LLMs)往往会因生成无限制响应而模糊角色边界。本文研究“角色条件拒绝”问题,重点关注LLM遵循访问控制策略的能力——即授权时正常响应、未授权时拒绝访问。原创 2025-11-22 09:30:00 · 127 阅读 · 0 评论 -
L2M-AID: Autonomous Cyber-Physical Defense by Fusing Semantic Reasoning of Large Language Models
研究背景:工业物联网(IIoT)中OT与IT融合,使关键信息物理系统暴露于复杂多阶段攻击;传统基于特征的入侵检测系统(SIDS)无法应对零日攻击,基于异常的入侵检测系统(AIDS)易被“低速攻击”规避,且均缺乏对攻击者意图的理解。框架设计:L2M-AID采用分层多智能体架构,分为战略层和战术层。战略层的“协调智能体”由LLM驱动,负责威胁关联分析、任务分解与态势感知;战术层包含网络监控、主机分析、威胁情报、缓解执行4类专项智能体,执行数据感知、异常检测与防御响应。核心机制。原创 2025-11-22 08:30:00 · 120 阅读 · 0 评论 -
Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models
核心问题:现有检索系统中,LLMs的推理能力与嵌入模型(如BERT类)的向量生成相互独立,导致LLMs无法通过语义分析优化嵌入质量,难以处理需要多步推理的复杂检索任务。框架设计:提出Search-R3(Reasoning-Reinforced Representation for Search),将嵌入生成视为LLMs推理过程的直接结果。通过“预填充(Prefill)-生成(Generation)”模式,先让模型输出查询意图的分析推理步骤,再生成包含语义信息的,从该token的隐藏状态中提取嵌入向量。原创 2025-11-20 09:30:00 · 129 阅读 · 0 评论 -
Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models
语码转换(CSW)指在单一话语中交替使用多种语言和文字,即便在大语言模型(LLMs)快速发展的背景下,它仍是多语言自然语言处理(NLP)领域的核心挑战。多数LLM在处理混合语言输入时仍存在困难,加之语码转换数据集有限且评估存在偏见,这些因素阻碍了LLM在多语言社会中的应用。本综述首次对关注语码转换的LLM研究进行全面分析,回顾了涵盖5个研究领域、12类NLP任务、30余个数据集以及80多种语言的308项研究。原创 2025-11-20 08:30:00 · 165 阅读 · 0 评论 -
Textual interpretation of transient image classifications from large language models
研究背景:现代天文巡天产生海量瞬变源数据,需区分真实天体信号(如超新星)与虚假成像伪影,但传统卷积神经网络(CNNs)虽分类精度高(超98%),其潜在表示不透明,可解释性差。核心实验:使用谷歌LLM模型Gemini,在Pan-STARRS、MeerLICHT、ATLAS三个光学瞬变巡天数据集上测试,仅提供每个望远镜15个带注释的“目标图-参考图-差值图”样本及简洁指令,平均分类准确率达93%。关键功能。原创 2025-11-13 16:47:58 · 28 阅读 · 0 评论 -
Ethical AI prompt recommendations in large language models using collaborative filtering
研究背景与问题LLMs在加速AI解决方案开发的同时,存在偏见、公平性及问责制等伦理风险,尤其在医疗、金融等高危领域影响显著。传统伦理监管方法(如基于规则的过滤、人工审核)存在可扩展性差、适应性弱的问题,无法应对不断变化的伦理标准与新兴风险。核心方法设计双智能体系统:以LLM(如ChatGPT)为第一智能体,协同过滤算法为第二智能体。LLM将用户提交的提示传递给协同过滤算法,算法通过计算提示间相似度,推荐高相关度的后续提示。原创 2025-11-19 09:00:00 · 170 阅读 · 0 评论 -
Utilizing Large Language Models for Machine Learning Explainability
研究目标:评估OpenAI GPT、Anthropic Claude、DeepSeek这三款主流LLMs,在自主生成ML流水线时的模型性能与可解释性,验证LLMs作为可解释ML流水线自动化工具的潜力。实验设计任务选择:包含两类分类任务,一是基于自定义数据集的驾驶员警觉状态预测(二分类任务),二是基于公开酵母数据集的蛋白质定位预测(多标签分类任务)。模型生成:让LLMs为四种常见分类器(随机森林、XGBoost、多层感知器MLP、长短期记忆网络LSTM)生成训练流水线代码。评估维度。原创 2025-11-19 09:30:00 · 135 阅读 · 0 评论 -
OpenJAI-v1.0: An Open Thai Large Language Model
模型基础与开发目标以Qwen3-14B为基础模型,开发支持泰语和英语的开源大型语言模型OpenJAI-v1.0。核心目标是提升模型在实际任务中的性能,重点强化指令遵循、长上下文理解和工具使用三大核心能力,同时避免灾难性遗忘。数据与实验设置数据集构建:围绕三大核心能力构建高质量数据集,均采用指令-响应格式,且所有样本经过严格筛选或翻译以适配双语需求。指令遵循数据集:整合公开高质量数据与合成数据,经LLM评估筛选,训练时排除IFBench基准约束以保证零样本泛化评估准确性。原创 2025-11-18 09:30:00 · 168 阅读 · 0 评论 -
Mid-Training of Large Language Models: A Survey
大型语言模型(LLMs)的开发通常遵循“大规模预训练+任务特定微调”的流程。近期研究进展凸显了“中期训练”这一中间阶段的重要性——在此阶段,模型会经历多轮“退火式”训练,优化数据质量、调整优化调度策略并扩展上下文长度。该阶段可缓解噪声 tokens 导致的收益递减问题、稳定收敛过程,并在训练后期拓展模型能力。其有效性可通过梯度噪声规模、信息瓶颈与课程学习三大理论解释,这些理论共同促进模型的泛化能力与抽象能力提升。尽管中期训练已被广泛应用于最先进的LLM系统,但目前尚无研究将其作为统一范式进行综述。原创 2025-11-18 08:30:00 · 387 阅读 · 0 评论 -
LLM Weekly(2025.11.03-11.09)
该模型采用量化感知训练(Quantization-Aware Training),实现高速、尖端的推理效果,在智能体搜索、编程及各类任务的推理能力上均取得显著提升。研究人员构建了“深度推理数据集”(Deep Reasoning Dataset),测试模型在递增复杂度任务中的表现,发现模型在高复杂度场景下性能大幅下降。为提升 Siri 性能,苹果将在其私有云计算服务器(Private Cloud Compute)上运行 Gemini 模型,支持实时个性化查询,同时确保 Siri 与苹果生态系统的深度融合。原创 2025-11-12 15:53:15 · 629 阅读 · 0 评论 -
Gender Biasin Large Language Modelsfor Healthcare: Assignment Consistency and Clinical Implications
将大型语言模型(LLMs)整合到医疗领域,有望提升临床决策水平,但这些模型易受偏见影响,这一问题仍需重点关注。长期以来,性别因素会影响医生的行为和患者的治疗结果,因此人们担忧,当LLMs扮演类似人类的角色(如临床医生或医学教育工作者)时,可能会复制甚至放大与性别相关的偏见。本研究采用《新英格兰医学杂志》挑战赛(NEJM)的病例,为多个开源和专有LLMs分配了不同性别(女性、男性或未指定)。原创 2025-11-17 09:30:00 · 118 阅读 · 0 评论 -
GraphGhost: Tracing Structures Behind Large Language Models
大型语言模型(LLMs)展现出卓越的推理能力,但其背后支撑这些能力的结构机制仍未得到充分探索。在本研究中,我们提出GraphGhost——一个统一框架,该框架将神经元激活及其信号传播表示为图结构,以此解释LLMs如何从序列输入中捕捉结构语义,并通过结构一致的机制生成输出。这种基于图的视角使我们能够运用PageRank等图算法来刻画LLMs的特性,揭示不同数据集上模型共有的及特有的推理行为。原创 2025-11-16 09:30:00 · 164 阅读 · 0 评论 -
MathRobust-LV: Evaluation of Large Language Models’ Robustness to Linguistic Variations
大语言模型在数学基准测试中表现优异,但其数学推理能力对语言表述变化的鲁棒性尚未得到充分探索。尽管近期研究越来越多地将国际数学奥林匹克(IMO)等高水平竞赛作为评估推理能力的黄金标准,但我们认为,在真实教育场景中对高中难度数学题进行全面基准测试更为重要。本文提出MathRobust-LV——一个测试集与评估方法,该方法模拟教师在出题时调整题目表述但保持难度不变的方式:在保留数值结构与答案的前提下,仅改变题目表层信息(如名称、场景、变量符号)。原创 2025-11-16 08:30:00 · 116 阅读 · 0 评论 -
Leveraging Large Language Models for Cybersecurity Risk Assessment — A Case from Forestry
研究背景与问题安全关键型软件系统(如林业自主机械)需严格网络安全风险评估,但企业普遍面临网络安全、AI、合规多领域专家短缺问题。现有法规(如《机械法规2023/1230》《网络弹性法案》)要求全面风险评估,而工程师缺乏专业支持,需工具辅助评估漏洞与威胁。研究方法采用设计科学研究方法,分两个周期开展:第一周期通过文献综述、3次专家访谈明确需求;第二周期基于Llama 2模型构建含RAG架构的工具,结合12位专家的访谈、交互测试与问卷调查迭代优化。原创 2025-11-12 09:24:56 · 28 阅读 · 0 评论 -
An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
现有多模态模型存在局限性:纯自回归(AR)模型生成速度慢、图像质量差;AR-扩散混合模型破坏模型统一性;部分离散扩散模型性能有限且缺乏下游任务支持。研究目标是构建一个开源、高效、统一的多模态模型,同时支持文本到图像生成、图像到图像编辑、图像理解等多种任务,推进通用多模态智能研究。本文提出 Lumina-DiMOO,一款用于无缝多模态生成与理解的开源基础模型。与以往的统一模型不同,Lumina-DiMOO 采用全离散扩散建模来处理不同模态的输入与输出。原创 2025-11-17 08:30:00 · 178 阅读 · 0 评论 -
Probing the Difficulty Perception Mechanism of Large Language Models
大语言模型(LLMs)在复杂推理任务中的应用日益广泛,但人们对其内部评估问题难度的能力知之甚少,而这种能力对于自适应推理和高效资源分配至关重要。本研究旨在探究LLMs是否会在其内部表征中内隐编码问题难度。通过对LLMs最后一个token的表征进行线性探针分析,我们证明数学问题的难度级别可通过线性模型进行建模。我们进一步定位出Transformer最后一层中的特定注意力头:这些注意力头对简单问题和困难问题呈现出相反的激活模式,从而实现对难度的感知。消融实验证实了该定位的准确性。原创 2025-11-15 09:30:00 · 177 阅读 · 0 评论 -
Earl: Efficient Agentic Reinforcement Learning Systems for Large Language Models
智能体强化学习(Agentic RL)是大模型(LLM)后训练的关键技术,能通过多轮交互和工具使用提升模型推理、决策能力,但训练中存在两大瓶颈。上下文长度爆炸:多轮交互使上下文长度快速增长,导致内存占用激增(如Llama-3.1-70B模型在8192上下文长度下需354GB显存),易触发内存溢出(OOM),现有“硬限制+长度惩罚”方案会制约模型性能。原创 2025-11-15 08:30:00 · 129 阅读 · 0 评论 -
EvalMORAAL: Interpretable Chain-of-Thought and LLM-as-Judge Evaluation for Moral Alignment in
我们提出了EvalMORAAL框架,这是一个透明的思维链(Chain-of-Thought,CoT)评估框架。该框架采用两种评分方法(对数概率评分法和直接评分法),并结合“模型作为评估者”的互评机制,对20个大型语言模型(LLMs)的道德对齐性进行评估。我们基于世界价值观调查(World Values Survey,WVS,涵盖55个国家、19个主题)和皮尤全球态度调查(PEW Global Attitudes Survey,涵盖39个国家、8个主题)对模型展开评估。原创 2025-11-14 09:30:00 · 132 阅读 · 0 评论 -
LLM-FS-Agent: A Deliberative Role-based Large Language Model Architecture for Transparent Feature
在机器学习流程中,高维数据这一普遍存在的难题常导致模型可解释性降低、效率受损。尽管大语言模型(LLMs)已在通过特征选择(FS)实现降维(DR)方面展现出潜力,但现有基于LLM的方法往往缺乏结构化推理能力,且无法为其决策提供透明的理由。本文提出LLM-FS-Agent,这是一种新型多智能体架构,专为可解释且稳健的特征选择设计。该系统通过协调多个LLM智能体开展结构化“辩论”发挥作用,每个智能体均在明确的角色范围内运作,能够共同评估特征相关性,并为特征选择结果提供详细依据。原创 2025-11-14 08:30:00 · 153 阅读 · 0 评论 -
PROMPT REINFORCING FOR LONG-TERM PLANNING OF LARGE LANGUAGE MODELS
研究背景:LLMs在单轮任务中表现优异,但在多轮交互(如文本生成SQL、任务导向对话)中,常因早期假设错误、无法追踪用户目标导致性能下降;现有优化方法(如梯度微调、自反馈)存在计算成本高、依赖频繁API调用或仅适用于单轮任务的局限。核心方法:强化提示优化(RPO)框架结构:初始提示可由专家编写或LLM生成,通过“交互-反馈-重写”循环迭代优化。模型与环境(用户/模拟用户)交互生成轨迹,反馈器(人类/LLM)提供基于时序差分(TD)误差的回合级反馈,重写器(LLM)结合历史经验重写提示。反馈机制。原创 2025-11-13 09:30:00 · 134 阅读 · 0 评论 -
DACP: Domain-Adaptive Continual Pre-Training of Large Language Models for Phone Conversation
研究背景大型LLM在通用文本摘要任务中表现优异,但在与预训练数据分布不同的专业领域(如电话对话摘要)性能显著下降。小型LLM(参数小于10B)因推理成本低更适合工业部署,但领域适配需大量人工标注数据,存在成本高、隐私风险等问题。核心方法:DACP框架数据构成:包含两部分,一是25B tokens的高质量匿名业务对话数据(从50M条ASR生成 transcript中筛选,基于token类型熵选25M条),二是25B tokens的经验回放数据(来自FineWeb-Edu,缓解灾难性遗忘)。训练流程。原创 2025-11-13 08:30:00 · 127 阅读 · 0 评论 -
LATENTBREAK: JAILBREAKING LARGE LANGUAGE MODELS THROUGH LATENT SPACE FEEDBACK
越狱攻击是旨在绕过大型语言模型内置安全机制的对抗性攻击。自动越狱通常会优化对抗性后缀,或通过迫使模型生成受限或有害响应的初始部分来调整长提示模板。在本研究中,我们发现,现有利用此类机制解锁模型响应的越狱攻击,可通过对输入提示进行简单的基于困惑度的过滤来检测。为解决这一问题,我们提出了LatentBreak——一种白盒越狱攻击方法,该方法能生成低困惑度的自然对抗性提示,从而规避此类防御。原创 2025-11-12 09:30:00 · 167 阅读 · 0 评论 -
Uncovering Representation Bias for Investment Decisions in Open-Source Large Language Models
大语言模型(LLMs)在金融领域的应用日益广泛,被用于支持投资流程。然而,现有研究很少探讨这些模型如何体现与企业规模、行业或财务特征相关的偏差,而这类偏差可能对决策产生重大影响。本文通过聚焦开源Qwen模型的表征偏差,填补了这一研究空白。我们对约150家美国上市公司采用平衡轮询提示法,结合约束解码与令牌对数聚合,在不同金融场景下推导企业层面的置信度评分。通过统计检验与方差分析,我们发现:企业规模与估值会持续提高模型置信度,而风险因素则倾向于降低置信度;不同行业的置信度差异显著,其中科技行业的变异性最大。原创 2025-11-12 08:30:00 · 108 阅读 · 0 评论 -
Large Language Models Achieve Gold Medal Performance at the International Olympiad
研究背景:现有LLMs在天文学的应用多局限于特定任务(如引力波检测、星系观测解读),且评估基准仅测试基础知识,无法体现真实科研所需的复杂推理能力,亟需更全面的能力评估。研究方法:选取5个顶尖LLMs(GPT-5、Gemini 2.5 Pro等),用2022-2025年IOAA的理论题(49道)和数据分析题(8道)作为基准,由2位IOAA专家按官方评分标准独立打分,同时排除需物理仪器的观测题。核心结果理论考试。原创 2025-11-11 09:30:00 · 113 阅读 · 0 评论 -
The Geometry of Truth: Layer-wise Semantic Dynamics for Hallucination Detection
研究背景:大语言模型(LLMs)常生成流畅但事实错误的内容(幻觉),现有检测方法存在缺陷,如多轮采样效率低、依赖外部知识库、仅关注输出层忽略中间层信息。核心假设:事实性内容在Transformer层间的语义轨迹平滑收敛,与真实语义嵌入持续对齐;幻觉内容语义轨迹振荡发散,偏离真实语义。LSD框架流程提取模型各层隐藏状态;通过基于边际的对比学习,将隐藏状态与事实编码器生成的真实嵌入投影到统一语义空间;计算语义轨迹的对齐度、速度、加速度等几何指标;结合统计检验输出幻觉风险评分。实验结果。原创 2025-11-11 08:30:00 · 185 阅读 · 0 评论 -
REVEALING INTERCONNECTIONS BETWEEN DISEASES: FROM STATISTICAL METHODS TO LARGE LANGUAGE MODELS
通过人工分析大规模临床数据识别疾病关联,不仅耗时费力、主观性强,还容易出现专家意见分歧。尽管机器学习(ML)展现出一定潜力,但仍存在三大关键挑战:(1)需从庞大的机器学习方法体系中筛选最优方案;(2)确定真实世界临床数据(如电子健康记录EHRs)与结构化疾病描述哪类数据能提供更可靠的见解;(3)由于部分疾病关联在医学领域尚未被探索,缺乏相关“金标准”。大型语言模型(LLMs)应用广泛,但往往缺乏专业医学知识。原创 2025-11-10 09:30:00 · 157 阅读 · 0 评论 -
Reproducibility Study of “XRec: Large Language Models for Explainable Recommendation“
研究背景与目标背景:传统推荐系统多为“黑箱”,可解释性不足;原研究提出XRec框架,结合协同过滤(CF)与大语言模型(LLMs)生成个性化推荐解释。目标:用Llama 3替代原研究的GPT-3.5-turbo复现XRec结果,并通过修改MoE模块的输入/输出嵌入拓展研究,验证原框架4个核心主张。研究方法模型基础:XRec含三大组件——协同关系分词器(LightGCN提取用户-物品嵌入)、协同信息适配器(MoE模块转换嵌入以适配LLM)、CF与LLM融合模块(注入嵌入并生成解释)。实验设计。原创 2025-11-10 08:30:00 · 121 阅读 · 0 评论 -
ATOMWORLD: A BENCHMARK FOR EVALUATING SPATIAL REASONING IN LARGE LANGUAGE MODELS ON CRYSTALLINE MATE
研究背景现有LLMs虽在文本推理和基础晶体生成任务中表现出色,但缺乏标准化基准来系统评估其在复杂原子结构上的核心推理能力,尤其是基于晶体信息文件(CIF)的空间操作能力。材料科学领域中,3D原子结构的深度理解至关重要,而当前LLMs在结构修改、格式理解等任务中易出现累积错误,影响后续材料分析。核心方案:AtomWorld基准数据生成逻辑。原创 2025-11-09 08:30:00 · 155 阅读 · 0 评论 -
FocusMed: A Large Language Model-based Framework for Enhancing Medical Question Summarization
随着在线医疗平台的快速发展,消费者健康问题(CHQs)因包含冗余信息且频繁使用非专业术语,在诊断过程中效率较低。医疗问题摘要(MQS)任务旨在将CHQs转化为简洁的医生常用问题(FAQs),但现有方法仍面临问题焦点识别不佳、模型幻觉等挑战。本文探究了大型语言模型(LLMs)在MQS任务中的应用潜力,发现直接微调易产生焦点识别偏差并生成不忠实的内容。为此,本文提出一种基于核心焦点引导的优化框架。首先,设计提示模板驱动LLMs从CHQs中提取忠实于原文的核心焦点;原创 2025-11-09 09:30:00 · 119 阅读 · 0 评论 -
Exploring the Power of Diffusion Large Language Models for Software Engineering
研究背景:传统AR-LLMs在软件工程(SE)任务中存在局限,无法有效处理代码结构信息,且推理延迟高;而DLLMs具备全局双向编码和生成步骤解耦的特性,为SE任务提供新方向。研究范围:将DLLMs应用于软件工程全生命周期,涵盖代码生成、缺陷检测、程序修复、跨文件维护四大核心任务。实验设计。原创 2025-11-03 15:12:30 · 27 阅读 · 0 评论 -
FedSRD: Sparsify-Reconstruct-Decompose for Communication-Efficient Federated Large Language Models
当前,基于公开网络数据训练大型语言模型(LLMs)的模式正逐渐失去可持续性,专业领域的高质量数据源已濒临枯竭。联邦学习(FL)作为下一代去中心化Web人工智能的实用解决方案应运而生,它通过利用全球客户端分布的私有数据,实现了隐私保护型协同微调。低秩适应(LoRA)虽是高效微调的标准方法,但在联邦场景中的应用面临一个关键挑战:在Web异构网络环境下,通信开销仍是重大瓶颈。LoRA参数内部的结构冗余不仅带来沉重的通信负担,还会在客户端更新聚合时引发冲突。原创 2025-11-08 09:30:00 · 142 阅读 · 0 评论 -
SpikingMamba: Towards Energy-Efficient Large Language Models via Knowledge Distillation from Mamba
研究背景现有LLMs(包括Mamba)依赖密集矩阵运算,能耗高,难以部署在边缘设备;SNN虽通过稀疏脉冲降低能耗,但现有SNN-based LLMs存在“精度-能效”权衡,且全量预训练成本极高。对比量化与SNN两种能效优化方案:量化无法消除密集矩阵运算的固有成本,而SNN通过二进制脉冲的时间和通道稀疏性,能进一步缓解边缘设备的I/O瓶颈。核心方案:SpikingMamba模型基于预训练Mamba模型,通过单阶段知识蒸馏迁移能力,无需全量预训练;同时引入强化学习(DPO/KTO)进一步提升精度。原创 2025-11-08 08:30:00 · 164 阅读 · 0 评论
分享