自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(670)
  • 收藏
  • 关注

原创 大模型微调知识与实践分享

同时课程详细介绍了。

2025-11-22 22:19:18 1020

原创 【必学】从零开始学LoRA:大模型微调成本暴降99%的原理

想象你要搬家,有一堆大箱子要搬运。传统微调就像把每个箱子里的东西全倒出来重新整理,费时费力。而LoRA的做法更聪明:它发现大部分箱子其实不需要动,只需要在上面贴几张标签就够了。

2025-11-22 22:18:17 836

原创 程序员转行为什么这么难,2025年强烈建议程序员转行大模型试试_程序员转行机会成本太高_程序员转行为什么这么难,2025 年强烈建议程序员转行大模型试试

同时课程详细介绍了。

2025-11-21 18:41:25 1593

原创 2025年最新!后端程序员转行AI大模型学习路线,大模型入门到精通,超详细!_后端转ai agent

1.1 工程能力的降维打击后端程序员固有的系统架构设计、高并发处理及运维部署经验可直接迁移至AI应用开发:大模型服务的API化本质与微服务架构高度契合(如模型推理的异步队列设计)分布式系统经验可直接应用于模型训练集群管理(GPU资源调度、故障转移)容器化技术栈(Docker/K8s)无缝衔接大模型部署场景1.2 工具链的快速适配后端开发者的技术栈与大模型开发工具链存在天然交集:Python生态主导地位:FastAPI构建模型服务接口 vs Flask/Django后端开发经验数据库技能迁移:关系型数据

2025-11-21 18:40:21 1038

原创 程序员转行AI 应用赛道太香了!!(附攻略+资源)

除了 AI 入门课程,我还给大家准备了非常全面的**「AI 大模型面试题」,**包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等,帮你在面试大模型工作中更快一步。教程从当下的市场现状和趋势出发,分析各个岗位人才需求,带你充分了解自身情况,get 到适合自己的 AI 大模型入门学习路线。,规划属于你自己的大模型学习路线,并且专门提前收集了大家对大模型常见的疑问,集中解答所有疑惑。行业迭代快,从事多年传统项目开发,想凭着技术赚钱,没想到,!

2025-11-18 18:46:59 696

原创 2026大模型的发展趋势是什么?

5.更细粒度的token分析,的地得aanthe,标点符号,更多pattern挖掘,新时代挖煤,异构数据分布情况下荒漠化植树,不影响原参数情况下midtrain,改变地形地貌的大规模rl。从原理出发真正入局大模型。更大rollout,256的大小对于百亿级空间完全是大海里舀了一瓢水,1w的rollout,10w的rollout效果会大幅提升,硬件是最大制约。模型的发展,一直都是信号挖掘和硬件的暴力史,短期的tricks各种估计远不如信号挖掘精确,经典rl一直没变,变的只是更细信号挖掘和更大的硬件,

2025-11-18 18:38:50 555

原创 硕士校招生进入大模型领域工作,选预训练还是SFT?

同时课程详细介绍了。

2025-11-18 18:37:41 595

原创 2026年,中美大模型的差距会变大还是变小?

除了 AI 入门课程,我还给大家准备了非常全面的**「AI 大模型面试题」,**包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等,帮你在面试大模型工作中更快一步。这个叫KOSMOS的AI Scientist可以用12小时完成人类科学家6个月的工作量,读1500篇论文,写42000行分析代码,提出几个正在被实验室验证的新发现。从原理出发真正入局大模型。两个代理通过世界模型交换信息,前者发现的线索会引导后者的分析方向,后者的发现又会触发新一轮的文献深挖。

2025-11-18 18:36:23 436

原创 美国ai大模型方向的公司 远程兼职?

10月14日调整,因为招聘投入和收益不成比例,所以想做的最好自己把terminal bench了解清楚,我本身自己的事情一大堆都忙不过来了,根本没太多精力投入到这事情上面,这个事情文档很多,又都是英文,要求很多,其实对第一次搞的人难度挺大的,没钱拿花那么多时间做个测试说不过去我也能理解,所以基本只能找那种一眼就能看明白要做什么的,效率很高的可以完成任务的。从原理出发真正入局大模型。教程从当下的市场现状和趋势出发,分析各个岗位人才需求,带你充分了解自身情况,get 到适合自己的 AI 大模型入门学习路线。

2025-11-18 18:35:29 273

原创 大模型 Agent 是不是就是各种 Prompt 的堆叠?

同时课程详细介绍了。

2025-11-18 18:34:44 311

原创 一篇最新自演化AI Agents全新范式系统性综述

同时课程详细介绍了。

2025-11-12 19:24:26 651

原创 面试官问:你们的RAG系统是怎么评估的?

同时课程详细介绍了。

2025-11-12 19:11:25 706

原创 前端 AI 自动化测试:brower-use 调研

Browser-Use 是一个开源的 Python 库,旨在让 AI 能够自主地与网页进行交互。该项目允许用户通过自然语言描述任务,AI 通过 Chrome DevTools Protocol(CDP 协议) 执行 Chrome/Chromium 浏览器复杂的网页操作,如网页导航、表单填写、数据提取、在线购物等。

2025-11-12 19:03:12 781

原创 AI Coding 长文分享:如何真正把工具用起来,从原理到实践的深度指南

我们知道,大模型的本质工作是读取token然后吐出token,并没有长出手来修改代码,也并不知道我们的私人仓库里有什么(因为不在它的训练集中),这些问题都需要“工具调用”能力来解决,也就是常说的Function Call。跟项目绑定的Rule,它的本质是在.git的同级目录下维护一个.cursor的目录,在这里面存放自定义的规则文本,然后在每次会话时根据你的设置,决定要不要把这些内容贴到上下文中。需要注意的是,这个规则的更新不是实时生效的,可能要等10分钟左右,推测这里也用到了RAG,离线进行索引构建。

2025-11-12 19:01:06 773

原创 让Agent系统更聪明之前,先让它能被信任

可能大家都想学习AI大模型技术,也_

2025-11-11 19:13:43 764

原创 评估工程正成为下一轮Agent演进的重点

这种方式最大的优势在于能把模型/Agent 的自动化评估纳入了传统数据处理流水线,使得评估与数据分析、A/B 测试、观测天然融合,形成数据采集->自动化评估(包括数据预处理、评估和数据后处理)->构建新的数据集->后训练的数据飞轮。随着大模型迈过拐点,评估方法进入第三阶段,LLM-as-a-Judge,其核心思想是让模型学习人类的主观偏好,即利用一个功能强大的大型语言模型(通常是前沿模型)来扮演裁判的角色,对另一个 AI 模型(或应用)的输出进行评分、排序或选择,即用魔法打败魔法。

2025-11-11 19:13:02 971

原创 AI Agent的未来之争:任务规划,该由人主导还是AI自主

我们收集整理了RDS过去10多年运维形成的各类场景SOP,总结分析了过去一年的几千工单并形成案例库,构造50多种异常场景,对比自主规划和人类规划两种agent的准确率,在多轮测试中,人工规划的agent能够在多种场景中精确分析到具体根因,而自主规划的agent对于相同表象,不同根因的异常场景,反而无法做到精确划分根因,经常将“果”做“因”,得出笼统结论。同时,企业部署AI Agent时往往是带着明确的场景,有对应的企业知识库、SOP等语料,有确定性的流程,这些特性也决定了人工规划的可行性。

2025-11-11 19:12:11 560

原创 【AI+医疗】知识图谱与大语言模型融合:破解生物医学AI的黑盒难题!

本文探讨了大语言模型在生物医学研究中的局限性,提出了通过知识图谱增强LLM可解释性的解决方案,并详细介绍了统一KG-LLM框架在生物自然语言处理中的应用前景和实践价值。

2025-11-08 22:50:42 1019

原创 大模型面试必考点:PPO/DPO/GRPO/DAPO算法演进全解析!

最近看大模型方向的秋招面经,发现一个很有意思的现象:面试官们对 PPO、DPO、GRPO、DAPO 简直是“爱不释手”,几乎成了大模型岗的必考题。我去知乎或者翻博客想搞懂这几个“O”的演进关系时,往往一头扎进复杂的数学公式里,看得头皮发麻。为什么我们先有了 PPO,又去卷 DPO,现在怎么又冒出来个 GRPO 和 DAPO?它们到底在解决什么问题?今天我们就来扒一扒大模型偏好对齐(Alignment)算法的演进内幕。不讲复杂的公式推导,我们只聊核心逻辑:它们到底在解决什么痛点,又引入了什么新坑?提到 RLH

2025-11-08 22:39:51 768

原创 大模型 Transformer推理结构简析(Decoder + MHA)_transformer推理过程

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习_,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了帮助大家打破壁垒,快速了解大模型核心技术原理,学习相关大模型技术。从原理出发真正入局大模型。在这里我和MoPaaS魔泊云联合梳理打造了系统大模型学习脉络,这份LLM大模型资料。

2025-11-06 14:57:03 1038

原创 程序员转行都去干嘛了?程序员转行新趋势:不仅是产品经理,还有数据分析师、AI大模型工程师和云计算工程师

除了 AI 入门课程,我还给大家准备了非常全面的**「AI 大模型面试题」,**包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等,帮你在面试大模型工作中更快一步。例如,腾讯、阿里巴巴、字节跳动和美团等大厂在2024年的春季招聘中释放了大量的实习和全职岗位,特别是在AI和科技研发领域。从原理出发真正入局大模型。综合考虑当前的热门就业方向、行业发展前景和前沿科技的应用,AI大模型工程师由于其前沿科技属性和巨大的市场需求,成为一个值得特别推荐的转行方向。

2025-11-06 14:56:08 1219

原创 【干货收藏】AI智能体(Agent)开发全景指南:8大核心技术

AI智能体的自主能力,源于一套严谨的核心工作流。Prompt指令层:作为Agent的“任务导航图”,不仅包含用户的核心需求,还需明确Agent的角色定位(如“专业财务分析师”)、行为边界(如“禁止生成不实数据”)、可调用工具列表(如“Excel数据处理工具”)。一份精准的Prompt能大幅降低Agent的决策偏差,例如为“市场调研Agent”设计Prompt时,需明确调研范围(“2024年中国新能源汽车市场”)、数据维度(“销量、用户画像、政策影响”),才能引导其生成符合预期的输出。Switch逻辑路由。

2025-11-04 15:38:42 429

原创 多模态RAG怎么做?读懂多模态RAG看这一篇就够了!

实验显示,使用 OmniSearch 自身作为子问题求解器不仅没有降低性能,反而提高了其问题解决能力,表明检索路径规划学习增强了模型的知识推理能力,带来了跨任务的收益。当使用 GPT-4V 作为 Qwen-VL-Chat 的子问题求解器时,OmniSearch 的性能显著提升,证明0了更强大的子问题求解器对模型整体性能的正面影响。验证对当前子问题的回答;为此,本文将探索如何将多模态模型集成至RAG 系统中,即看一看结合图像和文本是否可以提高 RAG 的性能,并找出了这种系统的最佳配置。

2025-11-04 15:36:08 1145

原创 【大模型学习路线】2025最新大模型技术学习路线:从入门到精通,看这一篇就够了

理论其实就是一套描述和解决问题的方法论,只不过不同的技术有不同的方法,也就是理论。‍‍‍‍‍‍‍‍‍‍理论的发展有两种方式,一种是基于实践检验结果总结出来的经验;二种是以严谨的科学理论推导出逻辑自洽的解决某个问题的方法。‍‍‍‍‍‍‍比如说,火是人类生存和进化的重要条件之一,而在远古时期人类对于火的认知还比较浅显,因此那时关于火的理论也比较基础,比如它可以取暖,可以烤熟食物等;这就是基于经验的理论基础。‍‍‍‍。

2025-11-04 15:34:36 1105

原创 深入解析AI MCP 协议:助你从零基础到精通,掌握 AI通信着键!

MCP(Model Context Protocol)是一种为 AI 代理设计的通信协议,旨在标准化 AI 模型(尤其是 LLM)与外部工具、API 或数据源的交互方式。它通过定义统一的工具调用接口,确保 AI 代理能够以结构化、可预测的方式访问外部资源,解决不同模型或供应商之间的兼容性问题。核心目标提供统一的工具调用接口,降低集成复杂性。确保通信的安全性、可靠性和可扩展性。支持跨平台、跨模型的工具复用。工作原理。

2025-10-31 14:02:55 645

原创 大家都在用Agent做什么?7种Agent框架对比!国内一站

能耗与成本监控RAG:解决语义孤立问题评测:agent评测、workflow评测、AgentBench训练语料:数据标记、数据回流业务选择:Copilot 还是 Agent?Single Agent 还是Multi-Agent?可能大家都想学习AI大模型技术,也_

2025-10-31 14:01:38 965

原创 关于什么是Agent、如何构建Agent?最近最值得读的文章

这种工作流非常适合那些你无法预测所需子任务的复杂任务(例如,在编码中,需要更改的文件数量以及每个文件中的更改性质可能取决于具体的任务)。虽然它在结构上与并行化相似,但关键的区别在于它的灵活性——子任务不是预先定义的,而是由协调器根据特定的输入来确定的。这些构建块并不是规定性的。从简单的提示开始,通过全面的评估对其进行优化,并且只有在更简单的解决方案不够用时才添加多步骤的 Agentic 系统。说来也有意思,那些最成功的项目,靠的都不是什么复杂的框架,或者特别的什么库,而是一些很简单的、可以灵活组合的模式。

2025-10-31 14:00:46 360

原创 告别微调!斯坦福提出Agentic上下文工程

ACE的核心哲学是,上下文不应是简洁的摘要,而应是一本全面、演进中的战术手册。这本手册详细记录了成功的策略、常见的错误、领域特定的概念和可重用的代码片段。与人类喜欢概括不同,LLM在处理长而详细的上下文方面表现出色,并能自主筛选出相关信息。因此,ACE选择相信模型的判断力,为它提供丰富的“弹药”,而非有限的“口粮”。

2025-10-29 17:11:37 968

原创 AI Agent,让企业从自动化走向自进化

要理解AI Agent的价值,先得弄清楚它到底是什么。AI Agent(人工智能体)是指一种能感知环境、自主规划行动并执行任务以达成特定目标的软件实体。换句话说,它既有“大脑”,也有“手脚”;既能思考问题,也能执行任务。2025年,将被写入AI产业史的关键节点。AI不再停留在实验室或PPT上,而是真正走进企业,成为推动组织进化的新引擎。未来的竞争,不是算法之争,也不是算力之争,而是Agent生态的竞争。谁能让AI真正参与业务、融入决策、释放执行力,谁就能在新一轮智能化浪潮中掌握主动权。

2025-10-29 17:08:29 1186

原创 初学者怎么入门大语言模型(LLM)?

同时课程详细介绍了。

2025-10-25 20:49:47 1062

原创 为什么这波 AI 浪潮没有带来大量的就业岗位

好的SaaS能把数据端的活儿做到80-90分。AI服务的价值在哪儿?在很多企业眼里就是最后的10-20分。如果你对接完企业数据到不了95-100分的表现,那企业不但没付费意愿还嫌浪费时间。可是大模型不是一个标准化的组件,实际上你会发现同一个厂商同一系列下不同大模型返回的结果是没法做到完全一致的,小到输出文本的格式,大到生成结果的风格……就算你self-host了哪家的开源模型来试图维持一个稳定质量的大模型接口,不出两年这个大模型必被淘汰。不信你看看两年前多少人用Mistral和Llama,现在呢?

2025-10-25 20:47:39 1136

原创 现在互联网公司的大模型岗位,或者算法工程师岗位,一般的工作内容是什么?

他们的日常工作就是我们传统认知里的“炼丹”,研究新的模型架构、新的算法(比如MoE)、搞多模态、解决对齐问题、优化训练效率,目标是做出下一个版本的GPT-5。你需要懂很多模型原理,会调参,会做特征工程,能把一堆原始数据,通过复杂的工序,炼成一个能用的“丹”,也就是模型。那时候,模型是“稀缺资源”。除了 AI 入门课程,我还给大家准备了非常全面的**「AI 大模型面试题」,**包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等,帮你在面试大模型工作中更快一步。

2025-10-23 19:25:12 1042

原创 双非二本科生搞大模型应用开发(rag,agent)能找到工作吗,有钱途吗?

RAG为什么不好?不要搞RAG,要搞就搞Agentic RAG核心思路(其实很朴素)注意力机制的"隐形嵌入"照着写代码第一版:能跑就行第二版:分层导航(开始认真了)路由代理:最精髓的部分合理中的意外:坑1:上下文爆炸坑2:成本失控坑3:答案幻觉性能对比生产环境的优化混合架构(最实用)智能缓存策略真实案例:法律文档分析系统一些思考写在最后做向量的RAG肯定找不到工作,不为什么,就是过时了,Agent?那是人工智能编程的事。不是套模板……如果你能把RAG+Agent结合,那肯定能找到工作!如何不用向量数据库也能

2025-10-23 19:20:19 1237

原创 聊天 Chat复现之前代码

"""该函数用于加载 PDF 文件,切分文档,生成文档的嵌入向量,创建向量数据库,定义检索器,并创建聊天机器人实例。参数:file (str): 要加载的 PDF 文件路径。chain_type (str): 链类型,用于指定聊天机器人的类型。k (int): 在检索过程中,返回最相似的 k 个结果。返回:qa (ConversationalRetrievalChain): 创建的聊天机器人实例。"""# 载入文档# 切分文档# 定义 Embeddings# 根据数据创建向量数据库。

2025-10-22 16:20:18 856

原创 从零搭建企业级RAG知识库问答系统_从零开始构建企业级rag系统

等任务。

2025-10-21 19:15:41 1201

原创 从 0 到 1 掌握 LangChain Agents:自定义工具 + LLM 打造智能工作流!

在近年来,LangChain作为一款强大的开源框架,逐渐成为构建基于大型语言模型(LLM)应用的首选工具。它不仅提供了简洁且灵活的API来进行模型的交互,还包括了众多功能模块,支持高效构建多种应用,如智能问答系统、自动化工作流等。LangChain的模块化设计使得开发者能够根据自己的需求灵活组合不同的功能,从而快速实现复杂的业务场景。LangChain 的核心模块Model(模型)提供与大语言模型交互的接口,例如 OpenAI、阿里云等的 LLM。开发者可以轻松配置 API 调用和模型参数。

2025-10-21 19:14:42 1285

原创 Transformer 模型详解

解码器栈的输出是一个 float 向量。我们怎么把这个向量转换为一个词呢?通过一个线性层再加上一个 Softmax 层实现。线性层是一个简单的全连接神经网络,其将解码器栈的输出向量映射到一个更长的向量,这个向量被称为 logits 向量。现在假设我们的模型有 10000 个英文单词(模型的输出词汇表)。因此 logits 向量有 10000 个数字,每个数表示一个单词的分数。然后,Softmax 层会把这些分数转换为概率(把所有的分数转换为正数,并且加起来等于 1)。

2025-10-21 19:13:36 784

原创 Prompt技术详解:从基础原理到高级应用

Prompt(提示词)是人类与大语言模型沟通的"遥控器按钮",这个特殊的指令能唤醒AI预先学习的能力,像钥匙解锁保险箱一样,让模型精准调用文本理解、逻辑推理等技能解决实际问题。与简单提问不同,Prompt更像是操作手册,明确指导模型如何完成任务,而非仅仅查询知识库。不是简单提问:不是让AI当知识库查资料(如直接问"北京人口多少")而是操作手册:像教新人做事般明确指令(如"用小学生能听懂的话,把量子力学解释成3个生活例子")核心作用。

2025-10-17 22:48:20 981

原创 LangChain 基础系列之 Prompt 工程详解:从设计原理到实战模板_langchain prompt

通过精心设计的 Prompt,我们可以将抽象的业务需求转化为模型可执行的具体指令。"根据以下用户问题和背景文档,生成简洁明了的答案:\n用户问题:{question}\n背景文档:{context}"这种结构化表达让模型明确 “需要做什么”,避免陷入语义模糊的困境。Prompt 工程不仅是技术实践,更是人机协作的艺术。从简单的指令生成到复杂的流程编排,每一个精心设计的 Prompt 都是连接人类意图与机器智能的桥梁。

2025-10-17 22:47:49 1207

原创 Transformer 模型详解

解码器栈的输出是一个 float 向量。我们怎么把这个向量转换为一个词呢?通过一个线性层再加上一个 Softmax 层实现。线性层是一个简单的全连接神经网络,其将解码器栈的输出向量映射到一个更长的向量,这个向量被称为 logits 向量。现在假设我们的模型有 10000 个英文单词(模型的输出词汇表)。因此 logits 向量有 10000 个数字,每个数表示一个单词的分数。然后,Softmax 层会把这些分数转换为概率(把所有的分数转换为正数,并且加起来等于 1)。

2025-10-17 22:47:14 1110

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除