自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 【论文解读】vscode巨好用插件CodeGeeX的前世今生

多语言预训练与评测体系通过在 23 种编程语言上进行大规模预训练,并构建了 HumanEval-X 基准,论文填补了现有代码生成评测仅限于 Python 的空白,为多语言代码生成研究提供了标准平台。模型架构与训练策略采用 decoder-only 的 Transformer 架构以及计算高效的训练策略(利用 Ascend 910 和 Mindspore 进行大规模并行训练),同时通过量化和 FasterTransformer 加速推理,实现了高性能与高效推理。多任务预训练目标。

2025-03-12 22:57:01 807

原创 【论文解读】《CodeT5+: Open Code Large Language Models for Code Understanding and Generation》

本文提出了CodeT5+,一个高效、灵活的代码 LLM,能够同时处理代码理解和代码生成任务。通过引入多样化的预训练目标(如对比学习、文本-代码匹配),CodeT5+ 在20+ 代码任务上实现了SOTA性能。在HumanEval代码生成任务上,取得,超过所有开源代码 LLM。采用冻结 LLM进行计算高效训练,显著减少了训练成本。CodeT5+ 的成功表明,灵活的架构 + 多任务预训练 + 高效训练策略是构建强大代码 LLM 的关键方向。

2025-03-12 22:20:51 920

原创 【论文解读】单步奖励训练代码生成模型《Multi-Turn Code Generation Through Single-Step Rewards》

状态定义对于给定问题提示xxx,在多轮交互中,第tttstxy1o1y2o2yt−1ot−1st​xy1​o1​y2​o2​yt−1​ot−1​其中yiy_iyi​为第iii轮生成的代码,oio_ioi​为该代码在公共测试上的执行反馈。动作定义动作即为生成的代码片段atyta_t = y_tat​yt​。奖励函数定义oracle奖励RstatR。

2025-03-11 14:43:07 773

原创 【论文解读】《Cognitive Behaviors that Enable Self-Improving Reasoners》

验证(Verification)模型在输出中包含诸如“Let me check my answer …”的语句,用以核对中间结果是否正确。回溯(Backtracking)当发现当前推理路线不通时,模型会明确指出“this approach won’t work because …”,并尝试其他方案。子目标设定(Subgoal Setting)模型在推理过程中主动将复杂问题分解为多个子问题,如“Let’s try to get to a multiple of 10”等。

2025-03-11 13:48:28 1130

原创 【论文解读】《START: Self-taught Reasoner with Tools》

论文《START: Self-taught Reasoner with Tools》通过将外部工具(Python 解释器)与长链条思考相结合,成功地解决了传统大规模推理模型在复杂计算任务中出现的幻觉和错误问题。其核心技术——Hint-infer 和 Hint-RFT——使得模型能够在推理过程中自我生成、调用并验证代码,显著提升了数学、编程及科学问答等领域的表现。虽然仍存在工具种类、提示设计和数据泛化等方面的局限性,但这项工作为未来大语言模型在更高层次认知任务中的应用提供了新的思路和方向。

2025-03-10 23:11:09 1492

原创 【论文解读】《LIMO: Less is More for Reasoning》

复杂推理能力可通过极少量(817个)高质量示例激发,而非传统认为的需要海量数据(>100,000样本)。在AIME和MATH基准测试中,LIMO分别以57.1%和94.8%的准确率显著超越传统SFT模型,且仅需1%的训练数据。LIMO假设:预训练模型若已编码足够领域知识,仅需少量高质量认知模板即可激活复杂推理。跨领域泛化:在10个多样化基准测试中,LIMO比使用100倍数据训练的模型平均提升40.5%。开源工具:提供完整训练代码、评估流程和数据集。复杂推理能力f预训练知识完整性认知模板质量。

2025-03-09 23:08:17 958

原创 【论文解读】生成推理过程划重点《HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs》

大型语言模型在生成答案时容易“幻觉”,即输出中混杂非事实的内容,给用户验证答案正确性带来困难。现有方法多采用后置引用外部文献或文档,但无法直接将生成过程中的关键事实与输入对应起来。设计一种新的提示技术 —— HoT,使得模型在生成答案前首先对输入问题进行重格式化,通过 XML 标签将关键信息(例如数字、关键实体等)高亮。在生成回答时,模型会引用这些高亮标签,从而使答案中涉及的每个事实都能追溯到输入问题中的支持信息。提出了 HoT 提示结构,对传统的 CoT 方法进行增强。

2025-03-09 22:53:34 879

原创 【论文解读】微软《Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models》

该模型在语音问答(SQQA)和语音摘要任务上也展示出较强的能力,虽然在SQQA上与部分大型模型存在差距,但已明显优于开源的Qwen2-audio。

2025-03-08 22:59:57 864

原创 【论文解读】 MTSF跨模态对齐《TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting》

论文提出了一种创新性的框架,通过双模态编码、跨模态对齐和高效的预测策略,实现了从大量文本提示中提取高质量时间序列特征。该方法不仅有效提升了多变量时间序列预测的准确率(通过显著降低 MSE 和 MAE),还通过最后 token 存储策略大幅降低了计算成本与推理延迟。大量实验结果表明,TimeCMA 在多个数据集上均超越现有最先进方法,展示了 LLM 在时间序列领域的巨大潜力。

2025-03-08 22:33:14 923

原创 【论文解读】多模态检索《MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval》

论文通过提出一种基于开源图像语料与多模态模型联合构建大规模合成数据集的方法,解决了当前多模态检索任务中数据稀缺、质量不足和多样性有限的问题。实验表明,利用 MegaPairs 训练的 MMRet 模型在零样本和监督微调条件下均能实现最先进的检索性能,展示了数据合成方法在通用多模态检索中的巨大潜力。该工作为未来进一步发展更高效、低成本的多模态检索系统奠定了基础。

2025-03-07 22:16:26 931

原创 【论文解读】从思维碎片到高效结论《Chain of Draft: Thinking Faster by Writing Less》

论文提出了一种创新的提示策略 CoD,该方法借鉴人类在复杂问题求解时只记录关键信息的特点,显著减少了中间推理过程中的 token 数量,从而降低了延迟和计算成本。实验结果表明,尽管 CoD 生成的中间草稿极为简洁,但在多数任务上其准确率与传统 CoT 相当甚至略有超越,为大规模语言模型在实际应用中的高效推理提供了有力支持。

2025-03-07 13:46:31 976

原创 【论文解读】deepseek R1迁移到多模态《Visual-RFT: Visual Reinforcement Fine-Tuning》

论文提出了一种全新的视觉强化微调方法,通过利用 LVLM 生成包含推理过程的多组候选答案,再结合规则化的可验证奖励(例如 IoU 奖励和分类准确率奖励),并采用 GRPO 算法进行策略优化,有效提升了模型在少样本条件下的视觉感知与推理能力。实验结果表明,该方法在细粒度分类、少样本目标检测、推理接地及开放词汇目标检测任务上均超越传统的监督微调方法,展示了其在多模态任务上的广阔应用前景。

2025-03-06 15:54:27 996

原创 【手撕ROPE】极简方法实现旋转位置编码ROPE,面试遇到手撕ROPE再也不怕了!

ROPE极简实现,秒杀面试手撕

2025-03-06 15:14:15 1162 1

原创 【论文解读】中科院SolutionRAG《DeepSolution: Boosting Complex Engineering Solution Design》

论文提出了一种创新的方法解决复杂工程方案设计问题,重点在于利用树状探索与“二点评估”机制,逐步改进生成方案以满足多重现实约束。通过构建高质量的基准数据集和详细的消融实验,作者证明了该方法在工程实际场景中的应用潜力,为自动化工程设计提供了一条新的研究思路。

2025-03-05 16:22:29 1291

原创 【论文解读】以小博大《SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model》

创新点提出了基于数据中心化的多阶段训练方法,通过不断调整数据混合比例和引入高质量专用数据集(FineMath、Stack-Edu、SmolTalk)提升小模型性能。在预训练和后训练两个阶段均进行了详尽的消融实验,确保各项设计决策都有数据支持。技术细节学习率调度(例如 Warmup 和 线性衰减)以及数据比例的精细调整是论文的重要技术贡献。模型在训练时采用的优化参数和分词器设置均经过精心设计,确保在有限计算资源下充分发挥小模型的潜力。实验结果。

2025-03-05 15:34:14 921

原创 【论文解读】细粒度图像识别《Improving Fine-Grained Image Classification With Multimodal Information》

背景与动机类间差异小:不同类别之间的视觉特征非常相似;类内差异大:同一类别的图像在姿态、光照、背景等方面可能存在较大变化。传统方法大多只关注图像的视觉特征,而忽略了图像中通常伴随的其他信息,如拍摄位置(经纬度)和拍摄时间。这篇论文提出利用这些多模态时空信息,结合视觉特征,从而进一步提升细粒度图像分类的准确率。主要贡献多模态数据预处理多时序特征融合(包括早期和晚期融合)基于自注意力的MLP(SAMLP)模块用于多模态特征提取决策校正策略。

2025-03-04 22:28:29 723

原创 【论文解读】人大发表《Search-o1 — Agentic Search-Enhanced Large Reasoning Models》

近年来,大规模推理模型(Large Reasoning Models, LRMs)如 OpenAI-o1 展现出长链式思考(chain-of-thought)能力,能够通过分步推理解决复杂问题。然而,这些模型在长链推理过程中常常因知识不足而产生不确定性和错误,尤其是在遇到专业领域知识空缺时。这种设计旨在弥补模型内部知识的不足,保持推理链的连贯性,同时提高回答的准确性和可信度。

2025-03-03 15:29:28 1438

原创 【论文解读】《Seven Failure Points When Engineering a Retrieval Augmented Generation System》

面向科研文献分析的系统,帮助研究者对上传的相关论文进行排序和问答。AI Tutor教育领域的 RAG 系统,集成到学习管理系统中,支持学生对学习内容提问,并提供可追溯答案来源。使用 BioASQ 数据集构建的生物医学问答系统,针对领域特定的问题进行回答,考验系统在大规模文献中提取信息的能力。论文为软件工程师在构建 RAG 系统时提供了一个宝贵的经验总结,通过三个不同领域的案例研究,揭示了从文档分块、嵌入生成、检索、整合到回答生成过程中可能遇到的七大失败点。

2025-03-03 14:43:07 548

原创 【论文解读】CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning

假设在第lll层 Transformer 模块中,文本支路和时间支路分别输出的隐藏特征为FtextlF_{text}^lFtextl​和FtimelF_{time}^lFtimel​。通过两个可训练的投影层ϕtextl⋅ϕtextl​⋅和ϕtimel⋅ϕtimel​⋅Lfeature∑i1LγL−isimϕtextiFtextiϕ。

2025-03-02 16:54:46 701

原创 【论文解读】《Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context》

背景与动机近年来,多模态大模型(LMMs)正迅速发展,将大语言模型(LLMs)的能力扩展到视觉、视频及文本等多模态信息处理上。现有开源模型大多聚焦于静态图像和短视频,而专有模型(如 Gemini 1.5 pro)已实现长达1M1M1Mtokens 的处理能力,以及同时处理长视频(高达数千帧)的能力。因此,如何在开源领域实现长上下文(long-context)多模态理解成为亟待解决的问题,Long-VITA 正是在这一背景下提出的。论文目标。

2025-03-01 23:22:19 980

原创 【论文解读】《Reasoning on a Spectrum: Aligning LLMs to System 1 and System 2 Thinking》

利用一个包含2000个问题的双模态数据集,每个问题都配有两种答案——一种体现直觉、启发式的 System 1 答案,另一种体现逐步推理、逻辑严密的 System 2 答案。通过对齐训练,模型在算术和符号推理任务上,System 2 对齐的模型表现更佳;而在常识推理任务中,System 1 对齐的模型则优势明显。实验中还揭示了一个准确性与效率之间的权衡:System 2 模型虽然能提供更精确的多步推理,但生成的答案较长,计算开销更大;System 1 模型则生成更简洁、决断性更强的回答。

2025-03-01 22:32:51 1061

原创 【论文解读】谷歌的MTP方法《Better & Faster Large Language Models via Multi-token Prediction》

背景:传统大型语言模型(如 GPT、Llama)采用“下一个 token”预测作为无监督训练目标。问题:单 token 预测容易陷入局部模式,忽略长距离依赖,因此需要大量数据才能达到较高的流畅性。方法:在每个训练位置同时预测接下来的nnn个 token。模型采用一个共享的 Transformer 主干和nnn个独立输出头进行并行预测。实验结果在代码生成任务(如 HumanEval、MBPP)上显著提升,例如 13B 模型在 HumanEval 上解决问题数提升 12%(pass@1)。

2025-02-28 20:49:49 662

原创 【论文解读】《STGAFormer: Spatial-temporal Gated Attention Transformer based GNN for Traffic Flow》

多维输入嵌入:结合动态图和周期性特征,有效地融合空间-时间特征。距离空间自注意力:通过阈值分割空间节点,精确捕捉远近节点的空间依赖。门控时间自注意力:同时考虑局部和全局时间特征,尤其对于长时间预测和突发事件的适应性强。

2025-02-28 10:14:23 1095

原创 【论文解读】《C-Pack: Packed Resources For General Chinese Embeddings》

资源组成C-MTP:一个大规模的训练数据集,用于文本嵌入模型的学习,其中既包含从海量无标签语料中抽取的文本对,也整合了高质量标注数据;C-MTEB:一个专门为中文文本嵌入设计的评测基准,覆盖 6 种任务和 35 个数据集,能全面评估嵌入模型的各项能力;BGE:一系列预训练的中文嵌入模型,提供小型、基础和大型三个版本,用户可根据计算资源与任务需求进行选择。性能提升与扩展。

2025-02-26 23:12:35 625

原创 【论文解读】Kimi开源《Muon is Scalable for LLM Training》

背景与动机随着大语言模型(LLM)的迅速发展,训练这些模型所需的计算资源和时间呈现指数级增长。当前大多数训练任务使用 Adam/AdamW 优化器,但最近的研究(例如 K. Jordan et al. 2024)提出了基于矩阵正交化思想的 Muon 优化器,在小规模语言模型上展现出较好的效果。核心贡献加入权重衰减:解决在大规模训练中模型权重和输出均值过大、超出 bf16 表示范围的问题;调整每个参数的更新尺度:通过理论推导和实验验证,提出了基于矩阵尺寸(即max⁡ABmaxAB​。

2025-02-26 23:01:53 622

原创 【论文解读】deepseek系列:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1-Zero 是通过大规模强化学习训练的模型,不依赖于监督式微调(SFT)。它直接在基础模型上应用强化学习,展示了强大的推理行为。DeepSeek-R1 在 DeepSeek-R1-Zero 的基础上引入了冷启动数据和多阶段训练流程,进一步提升了模型性能,达到了与 OpenAI-o1-1217 相当的水平。使用 DeepSeek-R1 生成的 800k 样本对开源模型(如 Qwen 和 Llama)进行微调,结果表明这些蒸馏模型在多个基准测试中表现出色。

2025-02-25 10:07:25 1521

原创 【论文解读】deepseek系列:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》

随着大语言模型对长文本、复杂推理和多轮对话的需求增加,传统全注意力(Full Attention)机制面临计算量急剧增加的瓶颈。虽然稀疏注意力通过只计算关键的查询-键对来降低计算复杂度,但大多数现有方法仅适用于推理阶段,且难以在训练时实现端到端优化。提出方案:NSA通过平衡算术强度,并针对现代硬件(如Tensor Core)进行优化,从而实现高效推理。设计了适用于训练的可微分操作,使得整个稀疏注意力模块能够在预训练中直接优化,而无需后期剪枝或其他后处理。

2025-02-25 09:53:13 1267

原创 【论文解读】Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks

输入输出符号:用户查询文档集合(分为多个片段)针对查询 q 检索到的相关文档片段集合最终生成的答案三大核心步骤:将文档切分为若干片段,并使用嵌入模型转换成向量。基于查询 q,将其转换为向量并从向量数据库中选出与之最相似的文档片段。将原始查询和检索到的文档片段拼接后输入到 LLM,生成最终答案。模块化设计:表示系统的核心流程,每个模块负责一个关键任务。模块内部进一步拆分,形成更精细的功能单元。每个子模块内部的具体功能实现,例如查询扩展、重写、筛选等操作。

2025-02-24 10:23:55 955

原创 【论文解读】HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation

尽管当前使用向量数据库进行信息检索的检索增强生成(Retrieval-Augmented Generation,RAG)技术(称为 VectorRAG)已是最佳实践,但由于领域特定术语和复杂文档格式,这些方法仍然存在局限性。实验结果表明,在财报电话会议记录数据集上,HybridRAG 在检索和生成阶段均优于单独使用 VectorRAG 或 GraphRAG 的方法,能生成更准确和上下文相关的答案。金融分析师需要从非结构化数据(新闻、财报、市场报告等)中提取信息,以减少信息不对称,影响投资决策和市场预测。

2025-02-24 09:47:12 945

原创 【论文解读】《Training Large Language Models to Reason in a Continuous Latent Space》

这篇论文系统地阐述了一种新的大语言模型推理方法——Coconut,其核心在于让模型在一个连续的、无限制的隐空间中进行推理,通过多阶段训练逐步将传统语言推理替换为连续隐向量。实验结果和细致的分析表明,这种方法在逻辑、数学和规划密集型任务上均能展现出较传统方法更高的效率和准确率,同时为理解大模型内部推理机制提供了新的视角。

2025-02-23 22:20:40 1484

原创 【论文解读】TransMLA: Multi-Head Latent Attention Is All You Need

理论证明:展示了如何将 GQA 中的复制操作转化为低秩分解,并证明了在同等 KV 缓存开销下,MLA 的表达能力更强,尤其是在允许不同头之间产生更多差异性表示方面。实践方案(TransMLA):提出了一种后训练方法,将现有的 GQA 模型转换为 MLA 模型,只需极少的额外参数即可显著提升模型性能。实验验证:通过对 Qwen2.5 系列模型的微调实验,证明了 TransMLA 模型在数学、编程等任务上均优于原始 GQA 模型,验证了理论上的优势。

2025-02-23 22:16:13 981

原创 小U的文具匹配问题

该解法有效地利用了计数器和条件匹配的逻辑,实现了笔与本子之间的最大匹配数量。

2025-01-23 15:49:12 363

原创 langchain中的解析器

总结来说,LangChain解析器的主要作用是分析和理解输入数据的结构,无论是自然语言文本还是编程语言代码。它帮助我们提取有意义的信息,进行后续的处理和操作。

2025-01-23 15:47:48 1020

原创 浅谈云端编辑器,分析其亮点与不足

UI设计合理:整体界面布局清晰,功能区分明确。左侧的题目筛选栏、中间的代码编写区、右侧的AI辅助功能,使用户可以高效地进行题目选择、代码编写和问题求解。学习友好:界面设计上很适合新手和有经验的程序员。新手可通过提示功能得到帮助,有经验的用户则可高效地选择题目和调试代码。交互性强:AI辅助功能极大地增强了用户和编辑器的交互性,使得该平台不仅仅是一个代码编辑器,更像是一个实时的编程学习助手。

2025-01-21 20:26:22 313

原创 多模态对话系统意图识别方案总结

代码实现:https://github.com/klayc-gzl/incent_internvl_2.5_8b。

2025-01-21 20:20:09 1035 1

原创 部署MindSearch到 hugging face Spaces上

MindSearch 是一个开源的 AI 搜索引擎框架,具有与 Perplexity.ai Pro 相同的性能。我们可以轻松部署它来构建自己的专属搜索引擎,可以基于闭源的LLM(如GPT、Claude系列),也可以使用开源的LLM(如经过专门优化的InternLM2.5 系列模型,能够在MindSearch框架中提供卓越的性能)🤔 任何你想知道的问题:MindSearch 通过搜索解决你在生活中遇到的各种问题📚 深度知识探索:MindSearch 通过数百个网页的浏览,提供更广泛、深层次的答案。

2024-12-10 14:50:29 1301

原创 Datawhale AI 冬令营 讯飞星辰Maas平台体验

讯飞星辰Maas平台 是一个模型微调的零代码平台,旨在简化模型微调过程,无需一行代码即可定制大模型!讯飞星辰Maas平台 提供了直观的界面和高效的工具,支持快速训练和优化现有模型。

2024-12-09 19:42:34 697

原创 书生大模型实战营第四期 L2G4000 InternVL 部署微调实践闯关任务

理解多模态大模型的常见设计模式,可以大概讲出多模态大模型的工作原理。了解InternVL2的设计模式,可以大概描述InternVL2的模型架构和训练流程。了解LMDeploy部署多模态大模型的核心代码,并运行提供的gradio代码,在UI界面体验与InternVL2的对话。了解XTuner,并利用给定数据集微调InternVL2-2B后,再次启动UI界面,体验模型美食鉴赏能力的变化。

2024-12-07 00:26:17 1321 1

原创 书生浦语大模型实战训练营L2G3000 LMDeploy 量化部署实践闯关任务

使用结合W4A16量化与kv cache量化的internlm2_5-1_8b-chat模型封装本地API并与大模型进行一次对话。使用Function call功能让大模型完成一次简单的"加"与"乘"函数调用。

2024-12-01 16:57:31 974

原创 书生浦语大模型实战训练营L2G2000 Lagent 自定义你的 Agent 智能体

Agent是一种能够自主感知环境并根据感知结果采取行动的实体,以感知序列为输入,以动作作为输出的函数。它可以以软件形式(如聊天机器人、推荐系统)存在,也可以是物理形态的机器(如自动驾驶汽车、机器人)。自主性:能够在没有外部干预的情况下做出决策。交互性:能够与环境交换信息。适应性:根据环境变化调整自身行为。目的性:所有行为都以实现特定目标为导向。**

2024-11-23 19:41:13 750

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除