- 博客(710)
- 收藏
- 关注
原创 2025最新超全总结!大模型算法面试指南(含答案)_大模型面试_大模型 面试
本文梳理了大模型(LLMs)面试常考知识点,涵盖基础概念、进阶问题、微调技巧及LangChain应用四大部分。基础面包括主流开源模型体系、架构原理及涌现能力;进阶面探讨复读机问题、长文本处理及领域模型选型;微调面讲解显存需求、数据构建及缓解遗忘的方法;LangChain面解析文档对话技术、痛点优化及核心组件。全文旨在帮助开发者快速掌握大模型核心知识体系,提供从理论到实践的完整学习路径。(149字)
2025-06-13 18:16:42
580
原创 【大模型微调】一文掌握7种大模型微调的方法
大模型微调技术综述 文章系统介绍了大模型微调的核心理论与主流技术。微调分为预训练(掌握语言基础)和任务适配两阶段,旨在增强模型在特定领域的表现。主流技术包括: LoRA:通过低秩矩阵调整关键权重,实现高效参数更新 QLoRA:结合4位量化技术,显著降低显存需求 适配器调整:插入可训练小型网络模块,保持主参数不变 前缀调整:优化输入前缀表征 提示调整:通过学习软提示适配任务 文章详细解析了各类方法的原理、优势及适用场景,并对比了它们在Transformer架构中的具体应用位置,为研究者根据计算资源和任务需求选
2025-06-12 22:53:23
743
原创 2025大模型新书抢读 | Hands-On Large Language Models,程序员必备!_hands-on large language models 中文版
《Hands-On Large Language Models》中文版即将上市,这是一本由Jay Alammar和Maarten Grootendorst编写的大语言模型(LLM)技术指南。本书通过丰富的图示和实践案例,深入浅出地解析了LLM核心技术,包括Transformer架构、提示工程、检索增强生成(RAG)等主流应用。无论您是开发者还是AI爱好者,都能从本书获得从理论到实践的完整知识体系,掌握构建LLM应用的关键技能。书中特别讲解了多模态模型、LangChain框架等前沿技术,并附赠完整学习资料。该
2025-06-12 22:51:45
643
原创 深入体验 A2A SDK:一步步教你构建“服务化”的 Agent 系统
Google A2A协议提出了一种应用与Agent之间、或异构的Agent之间实现标准化协作、而无需关注对方内部实现的方法。相对MCP Server中更“轻”的Tool服务,A2A旨在将更“重”的Agent进行“服务化”,以方便发现与调用。
2025-06-10 13:50:22
709
原创 知乎热帖:我没有大模型经验,可以给个机会
大模型领域求职更看重潜力而非经验,关键在于基础知识和好奇心。头部公司核心经验才有价值,普通从业者应着重展示对大模型原理的理解和自主学习能力。文中提供了一份AI大模型面试题合集,涵盖基础知识和进阶内容,帮助求职者系统准备,包括模型架构、训练方法等核心考点,并附有完整版学习资料免费领取方式。该合集可作为大模型领域求职者的学习指南和面试准备材料。
2025-06-10 13:46:44
245
原创 Agent > GPT5?吴恩达最新演讲:四种 Agent 设计范式(通俗易懂版)
吴恩达教授最近在红杉 AI 峰会上讲述了他对 Agent 的一些看法,尽管一些媒体已经进行了相关报道,但为了分发的及时性,而采用了机翻的方式,牺牲了表述的准确性,增加了不必要的阅读门槛。特工宇宙于是重新整理翻译了一版,既保留了吴恩达教授的原意,又加之了部分个人理解。期望即使是外行,也能无障碍阅读。不过本少女能力有限,如若有任何疑问或建议,欢迎来我们 Agent 爱好者社区交流。以下是大佬发言👇
2025-05-29 22:16:58
643
原创 大模型书籍分享(附PDF)大模型时代:ChatGPT开启通用人工智能浪潮_大模型时代 pdf
近期工作中有一些涉及到大模型等的应用,刚好在微信读书上看到了这本 《大模型时代:ChatGPT开启通用人工智能浪潮》, 本月看完了这本书与大家分享下。ChatGPT火爆全球,但大语言模型(Large Language Model)才是幕后真正的智能“大脑”!生成式大模型正在开创新的时代,基于生成式预训练大模型的技术突破,也在带来面向个人、深入行业的多重应用。这势必引发新一轮的智力革命和产业重构,但在同时与机会如影随形的泡沫也会随之涌现。
2025-05-29 22:14:35
1210
原创 Agent 框架热潮褪去,大模型开发已经进入“生死局”?
AI 技术迭代速度之快,让从业者既兴奋又焦虑。一方面,大模型能力正不断进化,疯狂刷新人们的认知边界。从最初的文本生成到多模态交互,从对话式 AI 到具身智能,无一不令人兴奋。另一方面,回看这些年涌现的 AI 项目,一个个迅速地崛起、消亡,其中甚至不乏 AI 独角兽项目跌落神坛,真正能够屹立在山巅的佼佼者寥寥无几。
2025-05-28 23:09:52
958
原创 其实大佬已经告诉普通人要怎么进入AI行业了
《How to build a Career in AI》这本小册子,是吴恩达写的。经优秀前辈建议,结合自己学习和工作经历,进行了中文精译。这本小册子是吴恩达写给想要从事AI行业或者刚入门不久的新人。精译严格遵循原文,包括目录结构、图片和超链,全部内容放在个人github上。
2025-05-28 23:06:42
1124
原创 Qwen3 小结和思考
Qwen3 相较于之前的系列,一大亮点是支持了回答模式的切换:同一个模型,能够在每一步交互时选择是否进行深度思考。理想状态下,对于复杂的问题深度思考(e.g.,DeepSeek-R1,QwQ),对于简单问题直接回答(e.g., DeepSeek-V3,Qwen2.5)。这样的能力在工程实践方面无疑是巨大的提升,允许单一模型处理更为全面的任务,不至于陷入思考两分钟来回答“你好”的窘境。那么 Qwen3 在切换回答模式上做到了什么样的程度呢?如果说依赖于切换模型来切换回答模式是 0 分,单一模型完全自主切换回答
2025-05-27 09:30:29
751
原创 2025最新大模型学习路线教程,全面解析大模型学习路线及成长路径指南
一、大模型技术爆发,学习路线规划成关键2023年之后,人工智能技术进入了“大模型时代”。从OpenAI的GPT系列,到国内的文心一言、通义千问、GLM,再到领域专属的医疗模型、金融模型、政务模型,AI技术正在以惊人的速度重塑我们的生活与工作方式。这一浪潮下,不少人开始思考:我还能不能赶上AI的快车?我该怎么学习大模型?有没有一条清晰的学习路线?对于有志于进入这一领域的学习者,无论是零基础小白,还是希望转型的技术工程师,一份系统、明确、循序渐进的大模型学习路线图,都是你迈出第一步的关键。
2025-05-27 09:25:45
855
原创 RAG技术演化总结!从传统RAG到GraphRAG,再到Agent检索
检索增强生成(RAG)可以让基础大模型从其知识截止日期之后的外部信息源中获取知识,减少模型幻觉,并在回答时引用特定的信息来源。但RAG并非一个单一的技术。它是一系列持续发展的创新,每一项都在解决信息获取、思考行动和信息综合生成等方面的不同挑战。「本文将为大家介绍RAG技术的演变,从最早的查询转换,到图结构知识检索,再到Agent检索」;所有这些都是为了应对更难的信息查找和推理任务。文章结构安排如下:
2025-05-23 14:53:53
1046
原创 人工智能时代,程序员如何保持核心竞争力?
在当今人工智能(AI)迅猛发展的时代,技术的进步正在以惊人的速度改变着各个行业,许多传统的编程任务和职业角色正面临重塑。这让程序员群体开始思考:当AI逐渐能够自动化许多曾由人类执行的任务时,程序员如何才能保持核心竞争力?如何在这个新时代中继续发光发热?本文将探讨在AI时代,程序员如何通过技能提升、创新思维和跨学科融合来确保自己的职业生涯持续发展。
2025-05-23 14:50:42
781
原创 2025最新大模型经典面试题,(非常详细)收藏这一篇就够了!大模型面试题+答案!
在大模型技术迅速发展的背景下,相关岗位和面试竞争日益激烈。本文汇总了大模型算法岗常见的面试题及其答案,涵盖基础和进阶两个部分。基础篇包括主流开源模型体系、prefix LM与causal LM的区别、涌现能力的原因、大模型LLM的架构、Tokenizer的实现方法等内容。进阶篇则涉及LLMs复读机问题、多模态大模型、处理长文本的方法等。这些面试题和答案为求职者提供了宝贵的参考,帮助他们在激烈的竞争中脱颖而出。
2025-05-23 13:47:35
1103
原创 漫画:“向量数据库 + RAG”到底是什么?看完秒懂!
本文通过轻松幽默的漫画形式,解释了“向量数据库”和“RAG”这对黄金组合如何为大模型(LLM)提供支持。向量数据库就像一个智能图书馆,能够快速找到语义相关的知识文档;而RAG则像一位机智的助教,在模型回答问题前迅速提供相关参考内容。文章还介绍了如何系统学习AI大模型,包括学习路线和资源分享,帮助读者掌握大模型应用开发技能,提升职场竞争力。最后,提供了丰富的学习资源获取方式,鼓励读者积极学习和分享。
2025-05-23 13:35:27
900
原创 领域驱动的 RAG:基于分布式所有权构建精准的企业知识系统
RAG(检索增强生成)技术结合了检索和生成模型,旨在提升信息检索的准确性和效率。尽管基于大语言模型(LLM)的 RAG 系统在处理复杂查询、多语言支持和实时更新方面表现出色,但仍面临准确度低和“幻觉”问题(生成错误信息)。为应对这些挑战,企业将 RAG 系统的所有权分配给领域专家,确保系统能够满足特定领域的需求,并通过元数据和系统提示词优化检索结果。此外,RAG 系统的伸缩性问题通过自动分类、手动选择和全面搜索三种方法得到解决。尽管市场对自主智能体充满热情,但 AI 技术尚未成熟到可以完全依赖的程度,因此
2025-05-23 13:33:47
792
原创 程序员转行ai是否可行?
程序员转行AI是完全可行的。实际上,程序员具备了许多与AI相关的技能和知识,这为他们转行到AI领域打下了坚实的基础。首先,程序员已经具备了计算机科学和编程的知识。他们熟悉不同的编程语言和算法,这些对于理解和实现AI算法非常重要。此外,他们在处理数据和解决技术问题方面也具有一定的经验,这是AI开发过程中不可或缺的技能。
2025-05-16 13:20:33
569
原创 科普大模型入门指南:定义、应用与训练方法
在当今人工智能的浪潮中,大语言模型(Large Language Models, LLMs)正在改变我们与技术互动的方式。这些复杂的模型不仅具备理解和生成自然语言的能力,还在医疗、金融、教育等众多领域展现出强大的应用潜力。然而,尽管它们在推动技术前沿方面发挥着重要作用,关于大模型的本质、训练机制和控制策略仍然存在许多未知。
2025-05-14 17:19:47
861
原创 火爆全网!《LLM书》.PDF
本书是一本实用的生成式人工智能指南,重点介绍转换器和扩散模型。它涵盖了生成式人工智能项目的生命周期,包括用例定义、模型选择、微调和部署。
2025-05-14 17:12:20
437
原创 Qwen3技术报告英中对照版.pdf
Qwen3 是 Qwen 模型家族的最新版本,它在性能、效率和多语言能力方面都取得了显著进步。该模型系列包含从 0.6B 到 235B 参数规模不等的多种模型,包括密集型和专家混合型(MoE)架构,旨在满足不同下游应用的需求。
2025-05-14 16:49:51
919
原创 【2025最新】大模型学习路线:这会是你见过最全最新的大模型学习路线_大语言模型 强化学习 技术路线
大模型学习路线建议先从主流的Llama开始,然后选用中文的Qwen/Baichuan/ChatGLM,先快速上手体验prompt工程,然后再学习其架构,跑微调脚本
2025-05-13 17:57:37
946
原创 2025最新大模型技术学习过程梳理
学习大模型技术也有几个月的时间了,之前的学习一直是东一榔头,西一棒槌,这学一点那学一点,虽然弄的乱七八糟,但对大模型技术也算有了一个初步的认识。因此,今天就来整体梳理一下大模型技术的框架,争取从大模型所涉及的理论,技术,应用等多个方面对大模型进行梳理。
2025-05-13 16:12:44
618
原创 一个非常适合初学者来理解的大模型项目—《从零实现LLama3模型》
还不知道学大模型的有救了!发现一个非常适合初学者来理解大模型的项目,叫做从头开始实现LLama3。
2025-05-09 14:22:28
271
原创 哈工深发布多模态Reasoning大模型综述:感知、推理、思考和规划
如今的模型早已超越“看图说话”,论文开篇指出:真正的智能需要融合视觉、语言、听觉等多维度信息。就像人类遇到问题时会结合所见所闻,模型也需要跨模态推理能力,比如看到“乌云密布”联想到“带伞”,听到“玻璃碎裂”判断可能发生意外。 论文提出,多模态推理模型(LMRMs)是通向通用人工智能(AGI)的核心路径,但现有技术仍面临三大瓶颈:
2025-05-09 14:21:10
838
原创 零基础人员如何入门AI?这是一份给你的学习路径指南(非常详细)零基础入门到精通,收藏这一篇就够了_零基础如何快速了解ai
AI已成趋势,这点自不必多言。如今网络上的AI课程可谓五花八门形形色色,让人眼花缭乱难辨真假。其实细究下来,不少都是通过贩卖焦虑吸引对AI一知半解的普通人报课。有感于此,我想给零基础的你,介绍一下入门AI路径指南。在介绍关于AI,零基础的你,可能还有以下这些常见的误解:(误)使用AI需要懂代码懂技术,是只有程序员才能使用的高科技。——(正)当前许多AI应用和服务使用门槛很低,无需编程知识即可使用,用户只需按照提示操作即可。
2025-05-07 21:57:23
1112
原创 【万字详解】手把手带你一步步搭建RAGFlow(超干货)_ragflow安装教程
本篇给大家介绍一下RAGFlow的本地搭建,以下过程基于Ubuntu24,其它Linux系统的搭建方法也基本相同。先来温补一下,RAGFlow是一个基于对文档深入理解的开源 RAG(检索增强生成)引擎。它的作用是可以让用户创建自有知识库,根据设定的参数对知识库中的文件进行切块处理,用户向大模型提问时,RAGFlow先查找自有知识库中的切块内容,接着把查找到的知识库数据输入到对话大模型中再生成答案输出。它能凭借引用知识库中各种复杂格式的数据为后盾,为用户提供真实可信,少幻觉的答案。
2025-05-07 21:55:23
889
原创 聊一聊国内大模型公司,面试心得和感受
这段时间面试了很多家,也学到了超级多东西。楼主这边背景是做基座预训练算法端为主的,对框架端和RL的内容有一定了解(面试能凑合),对于后端的知识比如ML compiler,kernel,cuda相关的了解就比较浅了(问到觉大概率挂)。硬件几乎不太懂。大模型这方向真的卷,面试时好多新模型,新paper疯狂出,东西出的比我读的快。Research岗位对工程也有要求,工程端也需要了解模型。感觉比较硬核的岗位,尤其初创公司都是对好几个点都有要求的(应用,模型,框架,底层后端,硬件)。
2025-04-23 22:54:40
1039
原创 RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow等
MaxKB = Max Knowledge Base,是一款基于 LLM 大语言模型的开源知识库问答系统,旨在成为企业的最强大脑。它能够帮助企业高效地管理知识,并提供智能问答功能。想象一下,你有一个虚拟助手,可以回答各种关于公司内部知识的问题,无论是政策、流程,还是技术文档,MaxKB 都能快速准确地给出答案:比如公司内网如何访问、如何提交视觉设计需求等等
2025-04-23 22:43:10
1111
原创 学LLM建议:大家有空可以去小破站学大模型❗
无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2025-04-16 23:03:11
671
原创 关于2025年人工智能agent的5个预测_ai agent 预测
2024年是人工智能agent走向主流的一年。从年初黑客们那些笨拙、昂贵且充满激情的项目开始,agent现在已经得到了科技巨头、SaaS公司、学术研究人员等更多人的接纳。与此同时,他们的形式也在不断增多,从文本扩展到多种模式,并在现实世界中执行行动的能力也变得更强大。在这里,我预测2025年agent领域的轨迹,因为它开始在人工智能社区之外产生影响力。1. 对agent的兴趣持续激增今年,对人工智能agent的兴趣爆发式增长,谷歌搜索量增加了十倍。
2025-04-16 22:58:03
901
原创 年薪五十万起,大模型公司偏爱哪种毕业生,企业对人才的需求自然已经水涨船高
自从OpenAI打开了生成式AI的潘多拉魔盒,大模型依然是2024年最炙手可热的风口,硅谷作为技术发源地,人才蜂拥。任何优秀的组织,一定都是找到了一种方法和对应的工具,去最大程度地激发每一个个体的创造力。但更重要的,是抓住那些稍纵即逝的天才灵感。《AI光年》通过走访一些AI公司员工,记录当下中外大模型公司的变化:掌握未来的人才在哪里?是为第一篇。1998年出生的林菲,成了AI风口下第一批就业的年轻人。林菲是今年毕业的计算机专业硕士。
2025-04-11 22:43:14
726
原创 传统预训练正走向终结,推理优化与后训练提升有限,大模型今后如何突破发展瓶颈?
主动构建多任务样本,实现数据生成与学习闭环。无需大规模人工标注,即可高效扩展预训练数据,根本性缓解当前高质量多模态数据稀缺的问题。
2025-04-11 22:32:43
1042
原创 我真的花了很久,才理清大模型到底该怎么学!
说句实在的,很多人以为学大模型就是搞点提示词、调个 API,就能搞定一切。但真想“弄懂它”,甚至“做出点东西”来,不啃几本靠谱的书,真的不行。我一开始也是刷了一堆教程,收藏了几十个 AI 工具帖,但一到自己动手就抓瞎。直到我静下心认真啃完这些书,才发现——原来很多问题,书里早就帮你解答了。
2025-04-08 18:25:47
625
原创 知识图谱+知识库RAG项目Yuxi-Know及大模型推理内部可视化工具OpenMAV实现拆解
之前有比如Bertvis项目,对每一层的推理进行可视化,所以类似的工具轮子也越来越多,如最近又多了个可视化大模型内部运作的开源工具OpenMAV(),基于Python的工具,旨在在文本生成过程中实时可视化大语言模型(LLM)的内部工作原理。该工具通过交互式的基于终端的界面,为用户提供对模型内部结构的洞察。通过交互式终端界面,可实时可视化LLM在生成文本时的内部状态,包括注意力分布、MLP激活值和Token预测概率等,可通过插件轻松扩展可视化功能,并支持多种模型,如 GPT-2、Llama等。
2025-04-08 18:21:37
754
原创 世界级AI大佬吴恩达著作:LLM CookBook 汉化版 本教程
🚀本教程面向入门 LLM 的开发者,深入浅出地介绍了对于开发者,如何构造Prompt 并基于 OpenAI 提供的 API 实现包括总结、推断、转换等多种常用功能,是入门 LLM 开发的经典教程;
2025-04-01 23:23:33
749
原创 图解大模型训练之:数据并行(DP、DDP、ZeRO、零冗余优化)
1、在DP中,每个GPU上都拷贝一份完整的模型,每个GPU上处理batch的一部分数据,所有GPU算出来的梯度进行累加后,再传回各GPU用于更新参数2、DP多采用参数服务器这一编程框架,一般由若个计算Worker和1个梯度聚合Server组成。Server与每个Worker通讯,Worker间并不通讯。因此Server承担了系统所有的通讯压力。基于此DP常用于单机多卡场景。3、异步梯度更新是提升计算通讯比的一种方法,延迟更新的步数大小决定了模型的收敛速度。
2025-04-01 23:19:24
806
原创 程序员末日?AI大模型已替代45%岗位!2025年自救指南速看
无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2025-04-01 23:16:34
1348
原创 做完RAG图片搜索后,才明白过去对RAG的理解完全不够
简单来说,图片RAG是一种将图像检索与生成模型结合的技术。它的核心思想是:先从海量数据中检索出与用户输入最相关的图像或信息,再将这些检索结果作为上下文,输入到生成模型中,输出高质量的响应。
2025-03-27 23:14:27
1003
原创 【2024医疗人工智能报告】|《2024年医疗人工智能研究报告-生成式AI爆发,医疗人工智能走到新的十字路口》||(附下PDF)_2024医疗健康ai大模型行业研究报告
导读《2024年医疗人工智能研究报告》由蛋壳研究院发布,深入探讨了医疗人工智能在2024年的发展现状与未来趋势。报告指出,随着大语言模型和生成式AI技术的快速发展,医疗领域的多个场景如互联网医疗、医学影像、新药研发等正经历重塑,释放出前所未有的价值。然而,同时强调,在融资形势严峻的背景下,医疗AI企业必须全面考量场景、技术、风控、商业化等多方面因素,以实现决策的精准性。研究核心聚焦于“场景”与“产品”,通过分析医院、药企、械企的供需逻辑和实战案例,为AI企业在布局、选品、研发、商业化方面提供参考建议。
2025-03-27 23:06:35
525
原创 厦大团队:DeepSeek大模型及其企业应用实践(150页PPT,企业人员的大模型宝典)
12025年春节期间,DeepSeek的发布震撼全球,标志着人工智能大模型进入“普惠”时代,大模型开始深刻影响我们工作和生活的方方面面。每个人都有必要学习、了解和使用大模型。你是否渴望揭开大模型的神秘面纱?厦大团队带着满满诚意,重磅推出 4 个大模型科普报告!面向社会大众,我们用 140 页 PPT 深入浅出地讲解大模型概念、技术与应用实践,让每个人都能轻松读懂大模型。对高校而言,120页PPT深度剖析 DeepSeek 大模型如何赋能教学与科研,为学术创新注入新动力。
2025-03-25 22:12:42
394
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人