- 博客(180)
- 资源 (2)
- 收藏
- 关注
原创 有深度!Transformer | 万字长文:详细了解前馈神经网络(FFN),内含对大模型的理解
FFN(Feed-Forward Network)扮演着至关重要的角色。本文将深入介绍FFN层的结构、数学原理、源码理解、在大模型中的应用等内容,旨在揭示其如何通过升维和降维操作增强模型的表达能力,以及其在Transformer中的独特作用。
2025-04-03 11:13:26
174
原创 Transformer | 一文了解:缩放、批量、多头、掩码、交叉注意力机制(Attention)
这篇文章填补了之前对Attention综述介绍,本文更加细节,利用纯Python和Numpy实现注意力模块,并解释了整个过程中的所有向量维度的变化,对刚入门的新手非常友好。
2025-03-27 22:21:53
610
原创 大模型Agent的 “USB”接口!| 一文详细了解MCP(模型上下文协议)
之前的时候,让大模型做外部工具调用基本上都是通过Function Calling的方式,最近随着大模型Agent工作流的兴起,有一个新的概念:MCP逐渐进入大家的视野,基于MCP,它可以让非开发人员在不需要编辑Agent逻辑的情况下,为代理添加工具。
2025-03-25 22:45:12
1046
原创 DeepSeek | DeepSeek-V3新版本模型:DeepSeek-V3-0324,数学推理显著提升
DeepSeek-V3模型升级:DeepSeek-V3-0324,数学推理显著提升
2025-03-25 13:47:54
643
原创 万字长文!从AI Agent到Agent工作流,一文详细了解代理工作流(Agentic Workflows)
万字长文!从AI Agent到Agent工作流,一文详细了解代理工作流(Agentic Workflows)
2025-03-24 22:49:35
834
原创 LLM每周速递!学术最前沿:Agent应用、强化学习、RAG、复杂推理、多模态等
紧跟技术发展趋势,快速了解大模型最新动态。今天继续总结最近一周的研究动态,本片文章共计梳理了10篇有关大模型(LLMs)的最新研究进展,其中主要包括:多尺度注意力(Attention)、强化学习算DAPO算法、大模型多Agent系统、人形机器人、调研报告生成、多模型推理模型、长CoT推理模型、RAG系统能力提升应等热门研究。
2025-03-23 22:21:56
890
原创 盘点一下!大模型Agent的花式玩法,涉及娱乐、金融、新闻、软件等各个行业
大模型Agent在各个领域的“花式玩法”,涉及电影、博客、医疗、金融分析、软件、数据可视化、新闻审查、具身AI、web导航等,并且基本上都有源码的。
2025-03-19 23:47:17
908
原创 一文带你详细了解:大模型MoE架构(含DeepSeek MoE详解)
本文作者将带你了解 MoEs的发展史、核心组件、训练方法,推理中各因素考量和DeepSeek MoE详解。相关思维导图如下所示:
2025-03-18 23:10:36
586
原创 Emory & UTA | 提出Spatial-RAG——开启空间智能问答的新时代
本文作者推出了革命性的框架:Spatial-RAG,该框架通过结合空间数据库和LLM的语义理解能力,显著提升了空间推理任务的性能。
2025-03-18 10:56:23
265
原创 颠覆大模型归一化!Meta | 提出动态Tanh:DyT,无归一化的 Transformer 性能更强
今天Meta的这篇文章突破归一化层不可或缺传统观点,具体来说:提出了一种名为动态Tanh(DyT)的简单技术,用于替代Transformer中的归一化层,实验表明,使用DyT的无归一化Transformer在多种任务和领域中均能达到或超过传统归一化模型的性能,且大多无需超参数调整。
2025-03-16 17:10:13
874
原创 Attention又升级!Moonshot | 提出MoE注意力架构:MoBA,提升LLM长文本推理效率
本文作者将MoE的思想应用到了Attention机制上,提出了MoBA方法,该方法能够无缝切换全注意力和稀疏注意力,不仅提升了LLM推理效率,且保证了模型性能。
2025-03-13 23:07:15
958
原创 2025年的风口!| 万字长文让你了解大模型Agent
2025年的风口!| 万字长文,带你纵观大模型Agent,涉及研究痛点、应用场景、发展方向
2025-03-13 10:18:14
996
原创 AAAI2025 | 论文接受列表,含全部论文下载(持续更新......)
AAAI主办的“AAAI人工智能会议”,被认为是人工智能领域的顶级会议之一,该会议每年举办一次,「会议等级A类」。
2025-03-06 23:48:33
2468
原创 一文了解AAAI国际会议(更新至AAAI2025)–附: 各年论文连接
AAAI主办的“AAAI人工智能会议”,被认为是人工智能领域的顶级会议之一,该会议每年举办一次,「会议等级A类」。
2025-03-06 22:55:12
1232
原创 这几天!DeepSeek开源周 | 发布5个重要代码库,涉及AI基础设施建设的关键节点
这几天!DeepSeek开源周 | 发布5个重要代码库,涉及AI基础设施建设的关键节点
2025-03-03 15:46:49
462
原创 万字长文!最全面的大模型Attention介绍,含DeepSeek MLA,含大量图示!
非常详细!万字长文带你了解Attention,从MHA到DeepSeek MLA,含大量图解!
2025-02-27 23:13:11
1040
原创 LLM每周速递!大模型最前沿:复杂推理大模型、多模态、大模型Agent、长文本推理提升等
LLM每周速递!大模型最前沿:复杂推理大模型、多模态、大模型Agent、长文本推理提升等热门研究方向
2024-11-26 10:01:32
1267
原创 UIUC | 提出“提取-精炼-检索-读取”框架:ERRR,提升RAG系统性能
本文提出了“提取-精炼-检索-读取”框架:ERRR,旨在缩小LLM的预检索信息差距,通过query优化更好地满足模型的知识需求,进而生成准确的回答。
2024-11-14 09:28:17
819
原创 NeurIPS2024接收论文列表!一文了解NeurIPS国际顶会【含历年NeurIPS论文下载】
自然语言处理NeurIPS国际顶会介绍,历年NeurIPS论文下载,NeurIPS2024下载,NeurIPS2023下载,NeurIPS2022下载,NeurIPS2021下载,NeurIPS2020下载,NeurIPS2019下载,NeurIPS2018下载,NeurIPS2017下载,NeurIPS2016下载.
2024-11-11 15:16:48
4925
原创 LLM每周速递!大模型最前沿:推理加速、模型微调/对齐、开源LLM、大模型Agent、多模态
LLM每周速递!大模型最前沿:推理加速、模型微调/对齐、开源LLM、大模型Agent、多模态
2024-11-10 22:31:57
925
原创 硬刚 LoRA!北航&微软 | 提出高秩适应LLMs微调法:MoRA,填补LoRA低秩缺陷!
北航&微软 | 提出高秩适应LLMs微调法:MoRA,填补LoRA低秩缺陷!
2024-05-22 16:11:08
1414
原创 碾压LoRA!Meta & CMU | 提出高效大模型微调方法:GaLore,内存可减少63.3%
碾压LoRA!Meta & CMU | 提出高效大模型微调方法:GaLore,内存可减少63.3%
2024-03-17 15:14:47
1945
AAAI论文下载(从2017起至今)
2024-02-28
ICLR论文下载(从2017起至今)
2024-02-26
ICML论文下载(从2017起至今)
2024-02-26
IJCAI论文下载(从2016起至今)
2024-02-26
NuerIPS论文下载(从2016起至今)
2024-02-26
EMNLP论文下载(从2016起至今)
2024-02-26
concrt140d,ucrtbased,msvp140d,vcruntime140d
2018-10-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人