UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LLM Weekly(2025.12.1-12.7)
原创 2025-12-10 15:10:43 · 617 阅读 · 0 评论 -
A Survey of Inductive Reasoning for Large Language Models
归纳推理定义:从特定观察中推导通用规则,具有“从特殊到一般”的思维过程和答案非唯一性,更贴合人类认知与知识泛化需求,区别于演绎推理(从一般到特殊,答案唯一)。应用场景:覆盖NLP下游任务(句法语义解析、信息抽取、对话系统等)与现实场景(金融预测、自动驾驶、医疗诊断对话)。推理是大型语言模型(LLMs)的一项重要任务。在所有推理范式中,归纳推理是基础类型之一,其特征为“从特殊到一般”的思维过程及答案的非唯一性。归纳模式对知识泛化至关重要,且更贴合人类认知,因此是一种基础性的学习模式,受到的关注日益增加。原创 2025-12-14 09:30:00 · 65 阅读 · 0 评论 -
LLMs are All You Need? Improving Fuzz Testing for MOJO with Large Language Models
研究背景MOJO作为融合Python易用性与C/C++效率的AI编程语言,虽能提升AI模型扩展性,但缺乏成熟测试框架和LLM训练语料。现有LLM模糊测试工具依赖大量领域数据,在MOJO这类新兴语言的零样本场景中,易生成语法正确但语义错误的代码,导致测试效果差。MOJOFuzzer框架设计初始化阶段:从MOJO官方GitHub和文档收集数据,清洗后得到约300个漏洞报告和1500个语法样本,用于构建提示库(Prompt Bank)和种子库(Seed Bank),并采用CoT和角色提示技术优化提示质量。原创 2025-12-13 08:30:00 · 154 阅读 · 0 评论 -
The Ethics Engine: A Modular Pipeline for Accessible Psychometric Assessment of Large Language Model
随着大型语言模型(LLMs)在人类沟通与决策中的中介作用日益增强,理解其价值观表达对于跨学科研究而言变得至关重要。为此,本文提出“伦理引擎(Ethics Engine)”——一款模块化Python流水线工具,它将LLMs的心理测量评估从技术复杂的任务转变为易用的研究工具。本文试图证明,精心设计的基础设施能扩大AI研究的参与者范围,让认知科学、政治心理学、教育学及其他领域的研究者都能探究语言模型的价值观表达。爱丁堡大学神经政治学实验室的研究者已采用该工具研究威权主义,这一应用验证了其研究价值。原创 2025-12-13 09:30:00 · 109 阅读 · 0 评论 -
Unilaw-R1: A Large Language Model for Legal Reasoning with Reinforcement Learning and Iterative
研究背景:通用推理大语言模型在法律领域应用受限,面临三大核心挑战——法律知识不足、推理逻辑不可靠、业务泛化能力弱,且法律推理需同时满足成文法外部有效性和程序内部一致性。核心解决方案:提出Unilaw-R1模型,以Qwen2.5-7B-Instruct为基础,通过“数据构建-模型训练-迭代推理”三步解决上述挑战。数据构建。原创 2025-12-14 08:30:00 · 140 阅读 · 0 评论 -
Task-Aware Resolution Optimization for Visual Large Language Models
研究背景与问题现有VLLM(如LLaVA)多采用固定输入分辨率,而实际任务对感知粒度需求不同(如自动驾驶需高分辨率、简单图像分类需低分辨率),导致性能不佳。直接通过“ exhaustive training ”(全量训练不同分辨率模型)适配任务,会产生极高训练成本,因此提出两个核心问题:如何无全量训练确定任务最优分辨率(RQ1)、如何高效适配该分辨率(RQ2)。核心方法任务最优分辨率选择:通过两个启发式指标构建经验公式。原创 2025-12-12 08:30:00 · 151 阅读 · 0 评论 -
Large Language Models for Imbalanced Classification: Diversity makes the difference
过采样是解决不平衡分类问题最广泛使用的方法之一。其核心思想是生成额外的少数类样本,以平衡数据集。大多数现有方法(如SMOTE)需要将分类变量转换为数值向量,这通常会导致信息丢失。近年来,基于大语言模型(LLM)的方法被提出以克服这一局限性。然而,当前基于LLM的方法生成的少数类样本多样性有限,降低了下游分类任务的鲁棒性和泛化性。为填补这一空白,我们提出了一种新的基于LLM的过采样方法,旨在提升样本多样性。首先,我们引入一种采样策略,使合成样本的生成同时以少数类标签和特征为条件。原创 2025-12-12 09:30:00 · 97 阅读 · 0 评论 -
VisPile: A Visual Analytics System for Analyzing Multiple Text Documents With Large Language Models
研究背景:情报分析师处理海量文本时,需平衡人工与自动化分析的矛盾;LLMs擅长文本总结、问答,KGs可验证事实并关联源文档,但二者在可视化文本分析工具中的有效整合尚不明晰。系统设计:VisPile以Pirolli和Card意义构建循环为理论基础,设定6大设计目标(如LLM支持开放式文档搜索、KG关联源文档等),采用Vue.js构建Web应用,输入文本语料后,先预处理文档元数据,再用BERTopic生成主题模型、按Pan等人方法构建KG(提取<实体,关系,实体>三元组并去重)。核心功能。原创 2025-12-11 09:30:00 · 111 阅读 · 0 评论 -
LIVEOIBENCH: CAN LARGE LANGUAGE MODELS OUTPERFORM HUMAN CONTESTANTS IN INFORMATICS OLYMPIADS?
竞争性编程题目因其复杂性和验证便捷性,已成为评估大型语言模型(LLM)编码能力的重要基准。然而,当前编码基准存在诸多局限,如缺乏极具挑战性的题目、测试用例覆盖不足、依赖在线平台API导致可访问性受限等。为解决这些问题,我们提出了LiveOIBench——一个包含403道专家筛选的奥林匹克级竞争性编程题目的综合基准,每道题平均配有60个专家设计的测试用例。这些题目均源自2023至2025年间不同地区举办的72场官方信息学奥林匹克赛事。原创 2025-12-11 08:30:00 · 108 阅读 · 0 评论 -
SIMBA UQ: Similarity-Based Aggregation for Uncertainty Quantification in Large Language Models
研究背景与目标不确定性量化(UQ)是可信AI系统的关键,用于评估LLM生成结果的置信度,但现有方法存在黑箱适配性差、过度自信等问题。核心目标:提出通用的黑箱友好型UQ框架,利用多代样本间的相似度评估置信度,适配问答(QA)、摘要生成、文本转SQL等复杂生成任务。核心框架:SIMBA UQ三阶段流程:首先通过多温度采样生成多个LLM输出样本;然后计算样本间的 pairwise 相似度(如Jaccard、ROUGE);最后通过相似度聚合得到每个样本的置信度。原创 2025-12-10 09:30:00 · 108 阅读 · 0 评论 -
Beyond Surface Reasoning: Unveiling the True Long Chain-of-Thought Capacity of Diffusion LLM
核心矛盾:并行-顺序矛盾(PSC)DLLMs依赖并行解码实现高吞吐量,但长链推理需有序的因果步骤,二者存在本质冲突,即PSC。简单任务中,DLLMs可直接生成结果,表现出表面并行性;复杂任务中,为规避PSC会回归类自回归行为,导致解码步骤翻倍、效率下降。DLLMs推理能力局限长链推理三大核心能力不足:自反思效果有限(仅表面优化,重复率高)、推理深度浅(错误多发生在2步内,可行推理边界窄)、探索广度受限(新推理路径占比仅约5%)。原创 2025-12-10 08:30:00 · 102 阅读 · 0 评论 -
Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors
大语言模型(LLMs)正越来越多地应用于多语言现实场景中,处理用户输入时难免会遇到拼写错误(typos)。然而,大多数基准测试均假设输入无错误,导致大语言模型在多语言拼写错误下的鲁棒性研究严重不足。为填补这一空白,我们提出多语言拼写错误生成算法MULTYPO,该算法基于语言专属键盘布局和输入习惯,模拟人类真实拼写错误。我们对3个模型家族的18个开源大语言模型进行评估,覆盖自然语言推理、多选题问答、数学推理、机器翻译等5类下游任务。原创 2025-12-08 10:28:24 · 83 阅读 · 0 评论 -
StatEval: A Comprehensive Benchmark for Large Language Models in Statistics
背景与问题大语言模型(LLMs)在数学和逻辑推理上进步显著,但统计学作为数据科学基础,在模型评估中却未被充分关注。现有基准中统计问题占比不足3%,且多为孤立概率题,缺乏对统计推断等核心能力的结构化评估,无法判断模型能否胜任统计相关工作。StatEval基准构建数据构成:包含两类数据集,一是13817道基础题,源自50余本教材与课程资料,覆盖本科到博士阶段;二是2374道研究级证明题,提取自18本顶级期刊2020-2025年论文。分类体系。原创 2025-12-08 10:26:56 · 108 阅读 · 0 评论 -
DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
大型语言模型在数学推理领域取得了显著进展——数学推理不仅是人工智能的重要测试基准,若进一步发展还可能影响科学研究。通过强化学习扩展推理能力(仅奖励正确的最终答案),LLMs在一年内已从表现不佳提升至在AIME、HMMT等量化推理竞赛中达到性能饱和。然而,这种方法存在根本性局限:追求更高的最终答案准确率无法解决一个关键问题——正确答案并不意味着推理过程正确。此外,许多数学任务(如定理证明)需要严谨的逐步推导,而非数值答案,这使得最终答案奖励机制完全不适用。原创 2025-12-07 11:00:00 · 156 阅读 · 0 评论 -
Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
当前高性能图像生成模型领域主要由专有系统主导(如Nano Banana Pro和Seedream 4.0)。主流开源替代方案(包括Qwen-Image、Hunyuan-Image-3.0和FLUX.2)则具有庞大的参数规模(200亿至800亿),导致其在消费级硬件上的推理和微调不切实际。为填补这一空白,我们提出Z-Image——一款高效的60亿参数生成式基础模型,基于可扩展单流扩散Transformer(S3-DiT)架构,挑战了“不惜一切代价追求规模”的范式。原创 2025-12-06 09:30:00 · 150 阅读 · 0 评论 -
LLM Weekly(2025.11.24-11.30)
FLUX.2 可生成和编辑最高 400 万像素图像,支持最多 10 张参考图,在照片级真实感、文本渲染和提示词遵循度方面均有提升,采用潜在流架构(latent flow architecture)并结合 Mistral-3 24B 模型。:深度求索(DeepSeek)发布开源权重模型 DeepSeekMath-V2,其性能比肩 OpenAI 和谷歌——不仅获得 2025 年国际数学奥林匹克(IMO)金牌,还在 2024 年普特南数学竞赛(Putnam)中取得 118/120 的高分,超越顶尖人类选手成绩。原创 2025-12-04 10:00:00 · 302 阅读 · 0 评论 -
Generative Exaggeration in LLM Social Agents: Consistency, Bias, and Toxicity
本文研究了大型语言模型(LLMs)在模拟社交媒体政治话语时的行为,重点分析了其在2024年美国大选期间X平台(原Twitter)政治互动中的表现。研究基于1186个真实用户构建了LLM代理,通过“零样本”(仅提供最小意识形态线索)和“少样本”(提供用户近期推文历史)两种初始化方式,让代理回复政治相关推文,并对比了Gemini、Mistral、DeepSeek三个模型家族在语言风格、意识形态一致性和毒性方面的输出。生成夸张(generative exaggeration)现象。原创 2025-12-09 09:30:00 · 114 阅读 · 0 评论 -
Toward Edge General Intelligence with Multiple-Large Language Model (Multi-LLM): Architecture, Trust
本文是一篇关于边缘计算中多大型语言模型(Multi-LLM)系统的综述,核心目标是探索如何通过多LLM协作实现边缘通用智能(Edge General Intelligence, EGI)。演进背景:回顾了边缘AI的发展历程,从传统专用窄模型、单LLM部署,到多LLM系统的必要性——单LLM存在泛化能力有限、易产生幻觉和偏见等问题,而多LLM通过协作可整合优势、弥补缺陷。核心架构与技术多LLM的协作模式(合作式、竞争式、集成式);原创 2025-12-09 08:30:00 · 147 阅读 · 0 评论 -
ShiZhi: A Chinese Lightweight Large Language Model for Court View Generation
研究背景与任务:刑事法庭意见生成(CVG)是法律AI的核心任务,需基于案件事实自动生成判决书中的“法庭意见”部分。该任务因案件事实复杂多样,直接生成难度较高,且此前缺乏专门针对该任务的大模型。核心工作数据集构建:创建中文法庭意见生成数据集CCVG,包含超11万条案件数据,每条数据均配对“案件事实”与“法庭意见”,并通过多步过滤(如基于关键词提取章节、罪名提取、长度筛选)保证数据质量。模型开发。原创 2025-12-07 08:30:00 · 19 阅读 · 0 评论 -
DETECTING DATA CONTAMINATION FROM REINFORCEMENT LEARNING POST-TRAINING FOR LARGE LANGUAGE MODELS
研究背景与问题数据污染会导致LLM性能评估失真,但现有检测方法仅覆盖预训练和监督微调(SFT)阶段,完全忽略了对LLM推理能力提升至关重要的RL后训练阶段。RL后训练以“奖励最大化”为目标,与预训练、SFT的“ likelihood最大化”不同,传统基于likelihood的检测信号(如低困惑度)失效,导致该阶段污染检测成为盲区。核心方法:Self-Critique核心原理:RL后训练会导致模型“策略坍缩”,即收敛到狭窄的推理路径,表现为输出熵分布稀疏。原创 2025-12-07 09:30:00 · 106 阅读 · 0 评论 -
Diagnosing Shoulder Disorders Using Multimodal Large Language Models and Consumer-Grade Cameras
肩部疾病(如冻结肩,又称粘连性关节囊炎)是影响全球人群健康的常见疾病,在老年人和从事重复性肩部作业的人群中发病率较高。在医疗资源匮乏的地区,实现疾病的早期准确诊断面临巨大挑战,因此亟需低成本、易推广的辅助诊断方案。本研究引入消费级设备拍摄的视频作为诊断依据,降低用户使用成本。我们聚焦多模态大语言模型(MLLMs)在肩部疾病初步诊断中的创新应用,提出混合运动视频诊断框架(HMVDx)。该框架将“动作理解”与“疾病诊断”两项任务拆分,分别由两个MLLMs完成。原创 2025-12-06 09:30:00 · 160 阅读 · 0 评论 -
Alif: Advancing Urdu Large Language Models via Multilingual Synthetic Data Distillation
研究背景:乌尔都语作为低资源语言,在大模型开发中面临高质量数据集稀缺、多语言一致性差、文化差异导致翻译质量低、训练成本高等问题,现有多语言模型难以满足其需求。核心解决方案:基于预训练模型Llama-3.1-8B,开发多语言(乌尔都语-英语)模型Alif-1.0-8B-Instruct,核心是通过改进的自指令技术构建高质量合成数据集Urdu-Instruct。数据集构建。原创 2025-12-06 08:30:00 · 16 阅读 · 0 评论 -
Large Language Models Do NOT Really Know What They Don’t Know
现有研究认为LLMs的内部状态(如隐藏层、注意力权重)可用于检测幻觉,暗示其“知道自己不知道什么”,但LLMs常依赖数据中的虚假关联产生事实错误,引发“内部计算能否可靠区分事实与幻觉”的疑问。关联幻觉(AH)(依赖主题知识但事实错误,如“奥巴马出生于芝加哥”)和非关联幻觉(UH)(与主题知识无关,如“奥巴马出生于东京”),核心探究两类幻觉在LLMs内部处理中的差异。原创 2025-12-05 09:30:00 · 146 阅读 · 0 评论 -
DECOUPLING SAFETY INTO ORTHOGONAL SUBSPACE: COST-EFFICIENT AND PERFORMANCE-PRESERVING ALIGNMENT
核心问题:现有大语言模型(LLMs)安全对齐方法(如SFT、RLHF、DPO)存在两大痛点——需耗费大量计算资源平衡安全数据与通用数据比例,且提升安全性时易导致模型通用能力(如知识问答、数学推理、代码生成)“灾难性遗忘”。解决方案:提出基于LoRA(低秩适应)的拒绝训练(Refusal-training),仅用安全数据训练即可实现安全对齐,无需混合通用数据。LoRA在此场景下具备三大优势:性能保留:大幅降低越狱攻击成功率(ASR),同时几乎不损失模型通用能力;成本高效。原创 2025-12-05 08:30:00 · 104 阅读 · 0 评论 -
Semantic-Condition Tuning: Fusing Graph Context with Large Language Models for Knowledge Graph
研究背景与问题知识图谱补全(KGC)旨在推断知识图谱中缺失的三元组(h, r, t),但现有方法存在不足:传统嵌入模型无法捕捉动态语境,基于LLM的方法多采用前缀调优,仅将知识嵌入与文本输入简单拼接,忽略了KG中的丰富关系语义,且给LLM带来沉重的隐式推理负担。核心需求:实现KG结构化知识与LLM参数化知识的深度、语义级融合,提升LLM在KGC任务中的推理准确性。SCT框架核心构成语义图模块(Semantic Graph Module)原创 2025-12-04 09:30:00 · 157 阅读 · 0 评论 -
The Idola Tribus of AI: Large Language Models tend to perceive order where none exists
研究背景:LLMs在复杂任务(如AI代理框架、检索增强生成)中依赖逻辑一致性,但存在幻觉、逻辑跳跃等问题,而现有评估多聚焦有固定答案的推理任务,缺乏对无固定答案场景中模型归纳能力的考察。实验设计构建8类共724个整数数列,涵盖算术、几何、带误差的准规律数列及完全随机数列。选取5个主流LLMs(含GPT-4.1、o3、Gemini 2.5等具备多步推理能力的模型),要求其解释数列规律,并用o3模型作为“评估者”判断结果有效性(分4类:符合预设规则、正确但不符预设、错误、判定为随机)。核心发现。原创 2025-12-04 08:30:00 · 96 阅读 · 0 评论 -
Evaluating LLMs and Prompting Strategies for Automated Hardware Diagnosis from Textual User-Reports
本文聚焦于利用大型语言模型(LLMs)从用户文本报告(如“我的屏幕在闪烁”)中自动诊断硬件故障组件的任务,通过评估不同模型和提示策略,为硬件制造商提供高效的AI驱动诊断方案。评估对象:27个开源LLM(参数规模1B–72B)和2个专有LLM(如GPT-4、Gemini)。提示策略:零样本(Zero-Shot)、少样本(Few-Shot)、思维链(CoT)、思维链+少样本(CoT+FS)四种。实验规模:共执行98,948次推理,处理5100多万输入tokens,生成1300多万输出tokens。原创 2025-12-03 09:30:00 · 122 阅读 · 0 评论 -
Exploring Cross-Client Memorization of Training Data in Large Language Models for Federated Learning
联邦学习(FL)能够在不共享原始数据的情况下实现协同训练,但仍存在训练数据被记忆的风险。现有FL记忆检测技术每次仅关注单个样本,低估了跨样本记忆这一更隐蔽的风险。相比之下,近年来集中式学习(CL)领域已提出细粒度方法,用于评估训练数据中所有样本的跨样本记忆,但这些方法假设数据可集中访问,无法直接应用于FL。为填补这一空白,我们提出一个框架:通过跨所有客户端的细粒度跨样本记忆度量,量化FL中的客户端内和客户端间记忆。基于该框架,我们开展两项研究:(1)测量客户端间的隐蔽记忆;原创 2025-12-02 09:30:00 · 161 阅读 · 0 评论 -
NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constrain
研究背景现有多模态大语言模型(MLLMs)多采用组合式训练范式,即分别预训练视觉编码器和语言模型(LLM),再通过多模态训练整合,存在多模态缩放特性不明确、视觉-语言对齐不足等问题。原生MLLMs虽以端到端方式联合优化视觉和语言空间,但此前研究多假设训练资源无限,未充分考虑数据有限和大规模训练的实际挑战。核心研究过程架构设计探索:研究原生MLLM关键组件选择,包括LLM初始化、混合专家(MoE)架构有效性、视觉编码器结构。原创 2025-12-02 08:30:00 · 129 阅读 · 0 评论 -
ENTROPY REGULARIZING ACTIVATION: BOOSTING CONTINUOUS CONTROL, LARGE LANGUAGE MODELS, AND IMAGE CLASS
核心问题与动机现有熵调控方法存在两大缺陷:一是在强化学习(如SAC)中直接在目标函数添加熵奖励,会扭曲主任务优化目标;二是在LLM对齐等领域采用启发式方法(如clip-higher),缺乏理论保证且仅适用于单一领域。因此需要一种通用、不干扰主目标、有理论支撑的熵约束范式。ERA范式设计核心思想:通过模型输出层的激活函数g(·)直接约束熵,而非修改损失函数。激活函数将模型原始输出参数z转换为z',确保最终策略的期望熵不低于目标阈值H₀,实现主任务优化与熵约束的完全解耦。多领域实例化。原创 2025-12-01 09:30:00 · 192 阅读 · 0 评论 -
In-Context Clustering with Large Language Models
零样本聚类能力:预训练LLM(如GPT-4o、Llama系列)在文本编码的数值数据上表现出优秀零样本聚类性能,尤其在非高斯(重尾分布)数据上,准确率显著超过k-means。注意力机制的聚类结构:LLM中间层的注意力矩阵会自然呈现聚类模式,基于这些矩阵的谱聚类能达到比直接生成标签更高的准确率(如Llama-3.1-8b-Instruct未微调时,谱聚类准确率85%,直接生成仅74%)。微调提升性能。原创 2025-12-01 08:30:00 · 329 阅读 · 0 评论 -
If Probable, Then Acceptable? Understanding Conditional Acceptability Judgments in Large Language
条件句可接受性指人们对条件句合理性的感知程度。它在沟通和推理中发挥重要作用,会影响人们对隐含意义的解读、对论证的评估以及基于假设场景的决策过程。当人类判断“如果A,那么B”这类条件句的可接受性时,其判断主要受两个因素影响:一是B基于A的条件概率,二是前件A相对于后件B的语义关联(即A是否对B有实质支持作用)。尽管已有研究探讨大型语言模型(LLMs)如何对条件句进行推理,但这些模型如何判断条件句可接受性仍不明确。原创 2025-12-03 08:30:00 · 88 阅读 · 0 评论 -
Mephisto: Self-Improving Large Language Model-Based Agents for Automated Interpretation
长期以来,天文学研究依赖人类专业知识解读复杂数据并提出科学假设。本研究提出Mephisto——一个由大型语言模型(LLMs)驱动的多智能体协作框架,可模拟类人推理过程,用于分析多波段星系观测数据。Mephisto对接CIGALE代码库(包含光谱能量分布(SED)模型的工具库),通过迭代优化物理模型以匹配观测数据。该框架借助树搜索实现审慎推理,通过自博弈积累知识,并动态更新知识库。原创 2025-11-28 09:30:00 · 129 阅读 · 0 评论 -
NEURON-LEVEL ANALYSIS OF CULTURAL UNDERSTANDING IN LARGE LANGUAGE MODELS
研究背景与问题背景:LLMs在全球广泛应用,但存在文化偏见,对少数族裔文化认知有限,且其文化理解机制尚未被充分探索。现有局限:此前研究多关注语言与文化的关联,依赖激活基方法,难以精准定位文化相关神经元,且缺乏多文化基准的综合评估。核心方法:CULNIG pipeline目的:精准识别支撑文化理解的“文化通用神经元”(跨文化通用)和“文化特定神经元”(对应单一文化)。关键步骤:采用基于梯度的归因分数(量化神经元对文化任务的重要性),结合控制数据集(BLEnD_ctrl)排除任务理解相关神经元。原创 2025-11-28 08:30:00 · 28 阅读 · 0 评论 -
LLM Weekly(2025.11.17-11.23)
原创 2025-11-25 11:04:07 · 621 阅读 · 0 评论 -
The Hidden Bias: A Study on Explicit and Implicit Political Stereotypes in Large Language Models
背景:LLMs日益融入信息传播与决策过程,其潜在政治偏见可能影响公众舆论与民主进程,但当前对LLM政治偏见的系统性研究仍有不足。目标:通过PCT评估8个主流LLMs的固有政治倾向,探索显式(角色提示)与隐式(多语言PCT)政治刻板印象,明确模型偏见特征与形成机制。大语言模型(LLMs)在信息传播与决策过程中的作用日益重要。鉴于其不断增强的社会影响力,理解其潜在偏见(尤其是政治领域的偏见)对于防止其对公众舆论和民主进程产生不当影响至关重要。原创 2025-11-27 10:45:00 · 137 阅读 · 0 评论 -
Memory Retrieval and Consolidation in Large Language Models through Function Tokens
LLMs虽能通过预训练巩固知识、推理时检索知识,但记忆检索与巩固的机制尚不明确。研究受语言学中“功能词”概念启发,将LLM的令牌分为函数令牌(高频,如标点、介词、冠词)和内容令牌(低频,如名词、动词),探究二者在记忆机制中的作用。大型语言模型(LLMs)的显著成功,源于其能在预训练阶段将海量知识巩固到记忆中,并在推理阶段从记忆中检索知识——这一能力使其具备知识记忆、指令遵循和推理等高级功能。然而,LLMs中记忆检索与巩固的机制仍未被充分理解。原创 2025-11-24 14:59:16 · 31 阅读 · 0 评论 -
Climate Knowledge in Large Language Models
研究核心问题探究LLMs在无外部检索(闭卷模式)下,能否准确召回特定地点的气候常态数据,以“1991-2020年7月2米处平均气温”为典型查询,对比ERA5再分析数据验证准确性。关键研究发现气候模式捕捉能力:LLMs能编码基础气候结构(如纬度、地形相关温度分布),全球均方根误差(RMSE)为3-6°C,偏差约±1°C,但高海拔(1500米以上)和高纬度地区误差显著,RMSE可达5-13°C。影响准确性的因素:添加地理语境(国家、城市等)可使误差平均降低27%;原创 2025-11-30 09:30:00 · 125 阅读 · 0 评论 -
AILoRA: Function-Aware Asymmetric Initialization for Low-Rank Adaptation of Large Language Models
参数高效微调(PEFT)旨在降低将大规模预训练模型适配到各类下游任务时产生的巨大计算和内存开销。在众多PEFT策略中,低秩适配(LoRA)因其出色的实证性能和较低的实现复杂度,已成为应用最广泛的方法之一。在实际部署中,LoRA通常应用于自注意力模块的WQW^QWQ(查询投影矩阵)和WVW^VWV(价值投影矩阵),从而在模型性能与参数效率之间实现高效平衡。尽管LoRA在实证方面取得了显著成功,但仍面临性能欠佳、收敛速度慢等挑战。原创 2025-11-30 08:30:00 · 149 阅读 · 0 评论 -
RECYCLING PRETRAINED CHECKPOINTS: ORTHOGONAL GROWTH OF MIXTURE-OF-EXPERTS FOR EFFICIENT LARGE LANGUA
预训练大型语言模型(LLM)的计算成本正快速增长,因此亟需更高效的训练方法。现有训练成熟的模型 checkpoint 已投入大量计算资源,但由于工程限制或模型容量不足,其中许多资源仍未被充分利用。为高效复用这些“沉没成本”,我们提出通过扩展模型参数数量并延续训练的方式,实现预训练 checkpoint 的“回收”。我们针对收敛后的混合专家(MoE)模型,设计了一种正交增长方法:用于深度扩展的插入式层复制,以及用于宽度扩展的带噪声注入专家复制。原创 2025-11-29 09:30:00 · 155 阅读 · 0 评论
分享