自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(913)
  • 收藏
  • 关注

原创 一文搞懂通义千问(Qwen)相关的核心概念

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

2024-11-06 10:28:24 8953

原创 大模型常用评测基准汇总(通用评测基准、具体评测基准),看这一篇就够了!

在评测集维度,OpenAI和Google会直接使用Chatbot Arena的结果,在对大模型进行评估时,较为简单、高效、易操作的方式是关注Chatbot Arena的leaderboard。目前所有大模型综合排行榜目前中文大模型排行榜SuperCLUE琅琊版6月排名在评估中文大模型的能力时SuperCLUE会作为重要指标,从榜单上可以看出中文大模型的效果还是差于国外大模型,这种落后不能单一归结为某一个原因,我们需要认识到在算力、算法、数据中的各种不足。征途漫漫,惟有奋斗。

2024-09-26 07:30:00 7372

原创 大模型超详细盘点!常用的大模型及其优缺点、有潜力的大模型、国内大模型行业落地的现况、国内大模型优势、挑战与前景

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

2024-09-21 09:55:42 8043

原创 大模型面试题解析:PPO算法中的actor和critic学习率为啥不一样?

在研究RLHF(Reinforcement Learning from Human Feedback)源码时,我注意到一个设置,起初一直不太明白其原因。经过查阅资料和整理,现总结如下:在强化学习领域,尤其是采用Actor-Critic算法时,通常会将Actor(策略网络)和Critic(价值网络)的学习率设置为不同的数值,这种差异是由它们在算法中所承担的不同角色以及训练过程中的动态特性所决定的。以下是具体分析:Actor(策略网络)其主要职责是直接输出动作(或动作的概率分布),从而直接决定智能体的行为表现

2025-03-31 22:31:04 566

原创 2025年最新AI大模型学习路线(非常详细)大模型学习路线从入门到精通,收藏这一篇就够了!

Deepseek全球爆火让AI技术又一次进入了快速发展期!百度、字节、腾讯等等巨头互联网公司,纷纷接入DeepSeek,加速落地AI应用!这让「大模型应用开发工程师」一跃成为炙手可热的岗位!DeepSeeK甚至还开出154W的高薪,挖掘会大模型技术、懂落地的AI人才!作为技术人,如何不被时代抛弃,享受AI技术带来的就业红利?!

2025-03-18 14:22:53 925

原创 大模型 | 三大智能体平台Dify、Coze、FastGPT对比分析

AI智能体技术发展太快,各种搭建和使用智能体的平台也是层出不穷。有很多平台都配备了一大堆实用的工具和框架,让每个人都可以轻轻松松地打造出厉害的智能体。

2025-03-15 09:45:00 1270

原创 大模型Agent发展的五重境界、Agent四要素

工具型agent框架是在ChatGPT横空出世后同时期出现的,当时LLM刚刚展现出强大的文本生成能力,但其应用仍局限于纯文本环境,prompt engineering初步发展。为了实现语言模型与外部工具的基础连接机制,开发者们采用了预定义工具集、简单决策树、基本记忆管理实现了有限的自主性,代表性工作有LangChain、BabyAGI、AutoGPT早期版本等。局限:LLM被限制在“笼子”里,严重依赖人工定义的工具和流程,灵活性低。

2025-03-14 10:32:57 740

原创 成功率97.8%!中科院PPTAgent模拟人类制作流程,高质量PPT轻松搞定

制作高质量的PPT是很多小伙伴的烦恼,现有的自动化PPT生成方法大多只关注的生成,忽略了和,导致生成的PPT在实际应用中效果不佳。中科院提出并,一种基于编辑的,灵感来源于人类制作PPT的工作流程。:将参考PPT中的幻灯片按照功能(如开场、过渡、内容展示等)和视觉特征进行分类。:分析每个幻灯片的内容结构,提取出关键元素及其布局模式,为后续生成提供模板。根据输入文档和参考PPT的分析结果,生成详细的PPT大纲,明确每页幻灯片的内容和布局。

2025-03-12 18:21:09 894

原创 大模型常用名词:模型架构与基础概念、训练方法与技术、模型优化与压缩.....

本文总结了大模型领域常用的近100个名词解释,并按照的分类进行了整理。

2025-03-12 15:45:35 520

原创 大模型时代 | 通俗易懂!一文搞明白智能体(Agent)、AIGC、AGI

最近,AI领域火出了圈,各种专业词汇也频繁冒出来,比如AGI、AIGC和智能体(Agent)。这些词听起来高大上,但它们到底是什么意思呢?今天,咱们就来唠唠这几个概念,顺便举几个例子,让大家更好理解~

2025-03-09 08:45:00 639

原创 大模型论文 | GraphAgent:支持十万级节点图谱生成,性能提升 90.4%

发布时间:2024 年 10 月 13 日图生成在多个领域中备受关注,但传统方法在动态图演化中表现不佳。我们推出了 GraphAgent-Generator(GAG),一个无需 LLM 训练的模拟框架,能有效捕捉图的宏观结构,并在图扩展任务中超越现有方法 11%。GAG 还能生成包含近 10 万节点和千万条边的复杂图,加速比高达 90.4%。源代码已公开:https://github.com/Ji-Cather/GraphAgent。

2025-03-08 13:47:40 593

原创 AI Agent | 一文搞懂智能体工作流(Agentic Workflow)

智能体(Agent)是基于大型语言模型(LLM)的执行单元,通过规划、记忆、工具与行动协同工作。智能体工作流(Agentic Workflow)则是利用多个这样的智能体协作,以自动化和优化业务流程,将复杂任务分解为可管理的子任务,并通过迭代达成目标。电影《钢铁侠》中的智能助手J.A.R.V.I.S.(Just A Rather Very Intelligent System,即“只是一个相当聪明的系统”)为我们描绘了** **一个未来AI Agent的雏形。

2025-03-08 11:42:42 1310

原创 AI智能体开发框架 | 如何开发一个AI智能体(AI Agent)

1、AI智能体作为当前最优AI应用模式已然成为必会的开发能力。2、AI智能体开发框架已然成为程序员必须掌握的新开发环境,类似visual studio这样的开发工具。3、AI Agent 让 “人机协同” 成为新常态,个人与企业步入 AI 助理时代。AI Agent 能够帮助未来企业构建以 “人机协同” 为核心的智能化运营新常态。4、AI Agent 变革未来生产力的组织形式,对抗组织熵增。

2025-03-06 19:13:53 1321

原创 大模型 | 谷歌最新PlanGEN框架,开发自适应Multi-Agent

算法选择的重要性不同类型的查询适合不同的算法动态选择显著提升整体性能UCB策略确保稳定性能约束驱动的优势明确的约束指导更精准的方案生成验证机制确保方案质量持续优化提升系统性能实践建议根据实际需求选择合适的算法实现注重约束分析的完整性重视验证反馈的作用保持算法选择的灵活性这个案例充分展示了PlanGEN框架在实际项目中的应用价值。通过多智能体协作和智能算法选择,不仅显著提升了系统性能,还优化了资源利用,为类似项目的开发提供了可借鉴的范例。

2025-03-06 18:12:54 929

原创 大模型微调 | 微调的主要方法,微调的关键步骤,微调实战(使用peft进行Fine Tuning)

大模型(Large Language Models, LLMs)通常是指模型参数量极大的深度学习模型,能够理解和生成人类语言,在大量的文本数据上进行训练,可以执行广泛的任务。我们首先会想为什么要进行大模型微调,这是因为大模型的训练成本极其高昂,同时大模型的知识库有其滞后性,以及希望在特定任务上的能力能够得到提升。为此,成为了一种重要手段,其借鉴于计算机视觉模型的迁移学习,这是一个非常伟大的想法。

2025-03-05 15:13:42 1086

原创 一文看懂Agentic AI、AI Agents和Agents,以及三者的区别!

Agent作为一个热门概念,已经被过度使用和炒作,一些成熟产品选择回归本质,强调其实际价值而非概念标签。而且相比于需要学习如何与Agent互动,用户更愿意使用看起来像传统工具但具备AI能力的产品。

2025-03-05 11:36:57 845

原创 大模型入门到就业 | 2025年大模型的就业方向,如何系统学习掌握AI大模型?

就业方向方面,需要分技术和应用两个层面。技术方向可能包括算法研发、模型优化、数据工程等;应用方向可能有产品经理、行业解决方案、教育等。

2025-03-04 17:49:55 824

原创 一文搞懂!什么是RAG?大模型和RAG有什么关系?

RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合信息检索与文本生成的技术,旨在提升大语言模型在回答专业问题时的准确性和可靠性。‌核心原理‌‌为 检索+ 生成两阶段流程 :‌检索阶段‌:将用户的问题转化为向量,从外部知识库或私有文档中(向量数据库)快速检索相关片段。‌生成阶段‌:将检索到的信息输入大模型,生成结合上下文的具体回答‌。

2025-03-04 15:35:57 757

原创 一篇搞懂AI产品经理的不同薪资待遇!

结语:当AI开始重构产品经理的能力坐标系,真正的机会属于那些能用技术语言编写商业剧本的跨界者。年薪53万不是终点,而是AI时代产品人的新起点。这条路线不是一成不变的,每个人可以根据自己的实际情况和兴趣进行调整。重要的是保持学习的热情,不断提升自己的能力和价值。在大模型时代,AI技术正以前所未有的速度发展,为成为AI产品经理提供了很好的机遇。(基于719个岗位标签的聚类分析)

2025-03-04 14:34:12 614

原创 2025年 | AI时代的产品经理需要具备哪些能力?

当下,要是问产品经理想往哪个方向发展,90%都会说想转AI产品经理。但是AI产品经理和传统产品经理有什么异同?新时代,对于产品经理的要求又有哪些变化呢?

2025-03-03 14:33:28 751

原创 一文带你彻底搞懂!Transformer三大核心点:自注意力机制、位置编码、并行化序列建模

这三大核心创新彻底改变了深度学习的范式,推动了大规模语言模型(如 GPT、BERT)的发展。

2025-03-03 11:57:00 1178

原创 一文搞懂DeepSeek - Ollama本地部署DeepSeek-R1

本地化部署DeepSeek-R1能保障数据在本地安全处理,防止敏感信息泄露至云端。企业可根据业务需求灵活调整硬件配置与模型参数,实现高效的可扩展性。同时,DeepSeek-R1配备了用户友好的界面及命令行工具,有效降低了使用难度,显著提升了用户体验。与传统的云端AI服务不同,Ollama允许用户在自己的机器上部署和管理这些模型,它为用户提供了在本地环境中运行大型语言模型的能力。Ollama是什么?Ollama是一个开源的人工智能平台,它专注于在本地环境中高效运行大型语言模型(LLMs)。

2025-03-02 09:00:00 935

原创 一文搞懂大语言模型的训练和推理

模型训练(Training)和推理(Inference)是深度学习中的两个核心过程。 训练过程通过调整模型参数来优化模型性能,而推理过程则利用训练好的模型进行预测。训练和推理在目标、过程、计算资源等方面存在差异。训练过程注重模型的参数调整和优化,需要大量的标注数据和计算资源;而推理过程则注重模型的预测能力,需要快速且准确地生成预测结果。什么是模型训练(Training)?模型训练是指利用一组已知的数据(通常称为训练数据)来教导或学习一个模型的过程。在这个过程中,模型会尝试捕捉数据的内在规律和特征。一旦模型经

2025-03-01 07:15:00 1527

原创 微软PIKE-RAG全面解析:解锁工业级应用领域知识理解与推理

PIKE-RAG框架及其分阶段开发策略显著增强了RAG系统的能力与适用性,为工业场景中的复杂任务提供了高效解决方案。3.1 侧重事实信息检索能力的系统流程任务示例:“查询某位病人在某日的就诊记录”在此流程中需要重点关注的挑战是:知识的理解和提取常因不恰当的知识分块而受阻,导致语义连贯性被破坏,检索过程复杂且低效;常用的基于嵌入模型的知识检索会受到嵌入模型在对齐专业术语和别名方面的局限性影响,使得系统精准度降低。

2025-02-28 14:45:23 1120 1

原创 SGLang 推理引擎:LLM部署的加速利器,对话与生成新高度!

企业在部署大型语言模型(LLM)时面临着重大挑战。主要问题包括管理处理大量数据所需的巨大计算需求、实现低延迟,以及确保CPU密集型任务(如调度和内存分配)与GPU密集型计算之间的最佳平衡。反复处理类似输入进一步加剧了许多系统中的低效率,导致冗余计算,从而降低整体性能。此外,实时生成结构化输出(如JSON或XML)也引入了额外的延迟,使得应用程序难以在规模上提供快速、可靠、成本效益高的性能。SGLang是由 SGLang 团队设计的一款开源推理引擎,旨在解决这些挑战。

2025-02-28 11:57:38 687

原创 大模型 | 多个动画视觉效果解释 Transformer 和 MoE 的差别

专家混合(MoE)是一种流行的架构,比如最近火爆天的 DeepSeek V3 和 R1 就是这类模型。它利用不同的“专家”来改进 Transformer 模型。下面的示意图展示了它们与 Transformer 的不同之处。在推理过程中,将选择专家的子集。这使得 MoE 中的推理速度更快。但是,模型如何决定哪些专家是理想的呢?这由路由器(Router)来完成。接下来我们来讨论它。路由器就像一个多分类分类器,它对专家生成 softmax 分数。根据这些分数,我们选择前 K 个专家。

2025-02-28 10:40:46 1095

原创 知识蒸馏:由诺奖得主Hinton提出,9年后被DeepSeek带火,究竟是什么?

知识蒸馏最早在2015年被诺贝尔物理学奖得主Geoffrey Hinton提出,在2025又被DeepSeek带火看了许多介绍蒸馏技术的文章,我们希望把知识蒸馏这项技术的前世今生介绍给大家。

2025-02-26 11:54:46 1077

原创 大模型 | KnowNET:通过知识图谱集成大模型引导健康信息抽取

随着对大型语言模型(LLMs)在健康信息搜索中依赖性的增加,由于潜在的错误信息和这些主题的复杂性,可能会带来严重风险。本文介绍了KNOwNET这一可视化系统,它将LLMs与知识图谱(KG)相结合,以提供更高的准确性和结构化探索。具体来说,为了提高准确性,KNOwNET从LLM输出中提取三元组(例如,实体及其关系),并将它们映射到外部KGs中的已验证信息和支持证据。为了结构化探索,KNOwNET根据当前在KGs中探索的实体的邻域提供后续步骤建议,旨在引导全面理解,不遗漏关键方面。

2025-02-26 11:25:24 957

原创 别搞Graph RAG了,拥抱新一代RAG范式DeepSearcher

DeepSearcher 的先进性在于它突破了传统检索和生成的分步模式,深度整合深度学习,优化整个搜索过程。

2025-02-26 10:34:26 1169

原创 DeepSeek+Dify打造数据库查询专家

因为标注是对已经处理过的满意内容才进行的,有助于快速得到准确和满意的回复。

2025-02-25 19:52:51 1497

原创 大模型 | 高级检索增强生成(RAG)技术:图解综述

本文对高级检索增强生成技术及算法进行了全面研究,梳理了各类方法、实现案例及研究内容。由于本文旨在对现有的RAG算法和技术进行综述及阐释,所以不会深入探讨代码实现细节,只是提及相关内容,并将具体的代码实现留给大量已有的文档和教程来讲解。如果你熟悉RAG概念,请直接跳到“高级RAG”部分。

2025-02-25 19:25:38 936

原创 英伟达亲自下场优化DeepSeek-R1:速度增加25倍,成本降低20倍

DeepSeek-R1 为。

2025-02-25 19:00:47 949

原创 高阶RAG技巧(四)后检索优化:重新排序、上下文后处理、提示工程、LLM 微调

RAG 通过使生成模型能够引用外部数据来增强生成模型,从而提高响应准确性和相关性,同时减轻幻觉和信息差距。简单的 RAG 根据查询相似性检索文档,并直接将它们输入生成模型以生成响应。但是,更先进的技术(如本指南中详细介绍的技术)可以通过增强检索信息的相关性和准确性来显著提高 RAG 流水线的质量。本文回顾了可应用于 RAG 流水线各个阶段的高级 RAG 技术,以提高检索质量和生成响应的准确性。索引优化技术(如数据预处理和分块)专注于格式化外部数据以提高其效率和可搜索性。

2025-02-24 16:32:56 847

原创 高阶RAG技巧(三)检索优化:元数据过滤、排除向量搜索异常值、混合搜索、嵌入模型微调

虽然很容易实现,但这可能会包括较差的匹配,因为它们被截断了。具有专业词汇的数据集(如医学或法律数据集)是嵌入模型微调的理想选择,这有助于扩展领域外的词汇,并提高 RAG 流水线中信息检索和生成的准确性和相关性。行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

2025-02-24 16:30:31 720

原创 高阶RAG技巧(二)预检索优化:查询转换、查询分解、查询路由

检索后,系统会汇总和综合所有子查询的结果,以生成对原始复杂查询的全面答案。然后,这些扩展的查询将用于检索过程,从而增加检索到的文档的数量和相关性。行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。查询分解是一种将复杂查询分解为更简单的子查询的技术。

2025-02-24 16:28:39 777

原创 高阶RAG技巧(一)索引优化:数据预处理、分块技巧

RAG 为 LLM 提供来自外部知识源的信息,以帮助减少幻觉并提高生成响应的事实准确性。一个简单的 RAG 流水线由四个组件组成:嵌入模型、向量数据库、提示模板和 LLM。在推理时,它会嵌入用户查询以从向量数据库中检索相关文档信息块,并将其填充到 LLM 的提示中以生成答案。虽然这种简单的方法很简单,但它有很多局限性,而且往往会导致低质量的响应。本文讨论了我们可以应用的各种高级技术来提高 RAG 系统的性能。

2025-02-24 16:25:47 783

原创 关于Grok3和DeepSeek背后苦涩教训引发的思考

Grok3 和 DeepSeek-R1 的故事,是 2025 年 AI 领域的一面镜子。Grok3 用规模证明了计算能力的无可替代,而 DeepSeek-R1 用创新展示了效率的潜力。

2025-02-24 15:28:33 692

原创 斯坦福最新KGGEN,用LLM从纯文本中提取知识图,采用DSPy超出GraphRAG精度18.27%

KGGen的出现标志着知识图谱生成技术的一个重要里程碑。通过创新的多阶段处理流程和高效的聚类算法,它成功解决了传统方法面临的主要挑战。实验结果表明,KGGen在各项关键指标上都取得了显著提升,特别是在准确性效率和可扩展性方面的进步尤为突出。

2025-02-23 08:15:00 1055

原创 一文搞懂DeepSeek - 基础模型(V3)和深度思考(R1)

DeepSeek提供了提供了基础模型(V3)和深度思考(R1)两种不同模式,以满足用户在不同场景下的需求。基础模型(V3)是通用模型,适用于绝大多数“规范性”任务,如用于快速获取百科信息;而深度思考(R1)是推理模型,擅长解决复杂推理和深度分析等“开放性”任务,如数理逻辑推理和辅助编程。V3还是R1?过程驱动(规范约束)还是结果驱动(模糊目标)。

2025-02-22 16:24:49 1212

原创 如何在IDE里使用DeepSeek-V3 和 DeepSeek-R1 满血版模型

近期,阿里云百炼平台重磅推出 DeepSeek-V3、DeepSeek-R1、DeepSeek-R1-Distill-Qwen-32B 等 6 款模型,为用户提供了新的选择。与此同时,通义灵码也紧跟步伐,全新上线模型选择功能,支持基于百炼的 DeepSeek-V3 和 DeepSeek-R1 满血版671B模型,为 AI 编程领域注入新活力。今年1月,通义灵码 AI 程序员全面上线,同时支持 VS Code、JetBrains IDEs,是国内首个真正落地的 AI 程序员。

2025-02-22 15:57:33 895

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除