自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(951)
  • 收藏
  • 关注

原创 全新发布!大模型LLM学习路线图:全面掌握学习路径,非常详细收藏我这一篇就够了

ChatGPT的出现在全球掀起了AI大模型的浪潮,2023年可以被称为AI元年,AI大模型以一种野蛮的方式,闯入你我的生活之中。从问答对话到辅助编程,从图画解析到自主创作,AI所展现出来的能力,超出了多数人的预料,让不少人惊呼:“未来是属于AI的”。AI大模型——成为互联网从业者必备技能。

2024-08-11 19:00:00 2650

原创 大模型引领机器学习未来:探索趋势与多元化应用

在过去的几年里,机器学习大模型(Large Models)成为了人工智能领域最热门的话题之一。这些大模型通过大规模数据训练,展现出前所未有的能力,推动了自然语言处理、计算机视觉等领域的飞速发展。本文将详细探讨机器学习大模型的基本概念、技术实现、应用场景以及未来的发展趋势。机器学习大模型,通常指的是包含数十亿甚至上千亿参数的深度学习模型。与传统的小规模模型相比,大模型通过大规模数据和计算资源进行训练,能够更好地捕捉复杂的数据模式和特征。

2024-07-13 10:28:53 1461

原创 LLM系列:KVCache及优化方法

KV cache的峰值显存占用大小: b(s+n)∗h∗l∗2∗2=4blh(s+n)b(s+n)∗h∗l∗2∗2=4blh(s+n)b(s+n)∗h∗l∗2∗2=4blh(s+n),输入序列长度s,输出序列长度n,第一个2表示k/v cache,第二个2表示fp16占用2个字节,transformer模型的层数为l,隐藏层维度为h。按查询头Q分组,每个组共享一个K和V。如下以GPT2结构第i层推理过程为例,分析KV Cahche计算过程,其中WQi,WKi,WVi,WOi,Wupi,WdowniW_Q。

2024-07-01 12:00:00 2743

原创 吴恩达AI系列:教你如何用Langchain封装一本书

​编辑吴恩达(英语:Andrew Ng,1976年4月18日—)是斯坦福大学计算机科学系和电气工程系的客座教授,曾任斯坦福人工智能实验室主任。2011年,吴恩达在谷歌创建了谷歌大脑项目2014年5月16日,吴恩达加入百度,负责“百度大脑2017年12月,吴恩达宣布成立人工智能公司Landing.ai,担任公司的首席执行官。

2024-06-27 10:17:28 2672

原创 2025年AI产品经理转行全攻略:职业前景、技能要求、求职技巧,一篇文章搞定全部!_转行AI产品经理

这两年AI突然“火起来” 了 ,算是出现了一个“大转折”。因为就在这2年里,全球所有“大厂”几乎同一时间挤破头在跟进AI技术,从ChatGPT发布,到谷歌、Facebook、亚马逊等都紧跟其后,再到国内百度、腾讯、阿里、字节等也随之在冲在后面。对市场趋势敏感的产品经理们,想必也感受到了这个变化。也许你们也曾经想过要不要转行AI产品经理或者入行AI领域?那AI相关的行业究竟值不值得做?如果想转行AI产品经理,现在是不是好时机?要是决定转行,得做好什么准备?今天就来和你聊聊关于AI产品经理的那些事儿~

2025-04-02 13:19:02 1065

原创 大模型面试新体验:4家大厂offer,最新面经+真实感受分享!

硕士阶段的方向是强化学习,毕业后加入大厂做强化学习在游戏中的应用,已经有两年多了。这两年赶上了大厂很不好的光景,晋升被卡,涨薪变慢,真的是一言难尽。也算是openAI给饭吃,最近大火的大模型里用到了强化学习。因此想要尝试跳槽,换一份大模型方向的工作,做RLHF或者LLM-agents。在boss上挂完简历,发现来聊的hr或者猎头倒是不少,可能是因为学历还有大厂光环暂时还有点作用。可是实际聊下来一圈以后,发现很多LLM岗位还是需要过往有NLP的经验,这个倒也是符合预期。

2025-04-02 13:16:34 728

原创 智能体式自动化(Agentic Automation)深度解析:从入门到精通的万字长文!

自动化与 AI 是当今备受瞩目的两大技术前沿领域,其发展得益于机器学习、自然语言处理(NLP)以及系统集成能力的快速进步。这些创新成果极大地拓展了自动化和 AI 的应用边界,使其能够实现更智能、更具适应性的解决方案。AI 和自动化领域的最新突破,为智能体式自动化的诞生铺平了道路。智能体式自动化(Agentic Automation)是一种具有变革性的全新方法,它突破了传统基于规则、以流程为中心的技术(比如RPA,Robotic Process Automation,机器人流程自动化)的局限。

2025-04-02 13:13:48 828

原创 DIY ClickHouse MCP:自己动手实现高性能数据引擎!

最近看到一个greptimedb的mcp文章,效果也是挺酷的。这里也试着一个clickhouse的实现,大概花了几个小时,这里也开源在https://github.com/dubin555/clickhouse_mcp_server ,github上也有2 3个实现,我写的大概是代码和注释最全的实现。

2025-04-02 13:11:24 811

原创 人工智能应用就是大模型能力+场景,基于大模型构建应用,首先要了解大模型的能力圈

大模型的应用是玩出来的而不是看出来的,多体验和尝试不同的模型之间的功能和区别才能让你真正了解大模型的能力。在关于大模型应用方面,虽然也了解和应用过其中的一些技术;但经过这段时间的实践和思考发现,对大模型应用的认识还很浅显,因此在此记录一下自己的思考。大模型应用的思考大模型作为人工智能应用的底座技术,所有应用场景和技术都是构建在大模型之上;但很多时候我们都搞错了一件事,那就是我们没有搞清楚大模型能力和其它技术的关联和区别。因此,在这里我们要搞清楚一个概念,那就是大模型能力;

2025-04-02 13:08:49 389

原创 大模型学习路线(2025最新)年薪800K程序员分享给你,存一下吧很难找全的!

大模型学习路线图第一阶段:基础知识准备在这个阶段,您需要打下坚实的数学基础和编程基础,这是学习任何机器学习和深度学习技术所必需的。1. 数学基础学习资料2. 编程基础学习资料第二阶段:机器学习基础这一阶段主要涉及经典机器学习算法的学习,以及如何使用它们解决实际问题。1. 机器学习理论学习资料第三阶段:深度学习入门在这个阶段,您将学习深度学习的基本概念和框架。1. 深度学习基础学习资料2. 深度学习框架学习资料第四阶段:自然语言处理基础本阶段将介绍自然语言处理的基本概念和技术。

2025-04-01 17:01:27 1322

原创 大模型本地部署全攻略:Ollama 部署与实战,一篇就够!

有小伙伴问,如果我想在本地搞个大模型玩玩,有什么解决方案?Ollama,它来了,专为在本地机器便捷部署和运行大模型而设计。也许是目前最便捷的大模型部署和运行工具,配合Open WebUI,人人都可以拥有大模型自由。今天,就带着大家实操一番,从 0 到 1 玩转 Ollama。如果要使用的模型不在 Ollama 模型库怎么办?至此,我们一起走完了 Ollama 的部署和实战流程。在我看来,Ollama 也许是目前最便捷的大模型部署和使用工具,对小白非常友好。

2025-04-01 16:53:22 819

原创 RAG开发四大痛点及解决方案:轻松攻克技术难关!

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费。

2025-04-01 16:50:47 523

原创 Dify、Coze、AWS AI Agent三大智能体平台对比:哪款最适合你?

三款工具各有侧重。Dify强在开发灵活性与生态整合,适合技术团队快速迭代;Coze则是终端用户和对话体验需求高的应用场景首选,面向普通消费者的一款应用;则适用于需要快速构建和部署企业级AI应用。如果你是企业级用户,需要快速落地业务场景应用,且需要强大的安全、合规和可扩展性,那么将是一个不错的选择。

2025-04-01 16:41:46 1019

原创 大模型强化学习框架verl深度解析:从零开始,逐步掌握!

之前在职的时候给一些算法的同学讲解过verl的框架设计、实现细节以及超参配置,写这篇文章姑且作为离职修养这段时期的复健。本文中提到的做法和思路可能随着时间推移有变化,或者是思想迪化,仅代表个人理解。如果有错漏的地方还请指出。现在知乎上已有若干verl的使用相关文章了,覆盖了整体架构和快速的使用方法。本文将尝试从整体设计思路出发,致力于帮助不熟悉infra相关知识的算法同学快速理解整体框架,能自己上手魔改,并且知道各个超参的原理。

2025-04-01 16:37:02 845

原创 2025程序员转行AI大模型全攻略!从入门到精通,一篇教程搞定一切!

在人工智能(AI)迅速发展的背景下,从传统的编程领域如Java程序员转向大模型开发是一个既充满挑战也充满机遇的过程。对于 Java 程序员来说,这也是一个实现职业转型、提升薪资待遇的绝佳机遇。一、明确大模型概念简单来说,大模型就是具有大量参数和强大计算能力的人工智能模型,可以处理各种复杂的任务,如自然语言处理、图像识别等。想象一下,大模型就像是一个超级聪明的大脑,能够理解和处理各种信息。二、转行步骤第一步:学习基础知识。了解机器学习、深度学习的基本概念和原理,掌握常见的算法和模型架构。

2025-03-31 20:34:45 963

原创 2025年大模型学习必读:AGI大模型学习指南!零基础到精通,一篇就够!

AGI大模型的重要性不仅体现在其技术本身,更体现在其对我们生活的深远影响。它将改变我们的工作方式,提升我们的生活质量,推动社会的发展。因此,学习AGI大模型,了解其背后的原理和应用,对于我们来说至关重要。在2024年,AGI大模型将成为科技发展的关键力量。它将引领我们进入一个全新的智能时代,为我们带来前所未有的便利和机遇。因此,让我们抓住这个机遇,学习AGI大模型,掌握未来的科技力量,为自己的生活增添更多的可能性。

2025-03-31 20:19:52 512

原创 哈工大|出手即王炸!82页《人工智能:从图灵测试到DeepSeek》,重磅解析人工智能史诗级进化!

人工智能:从图灵测试到DeepSeek》是由哈尔滨工业大学计算学部人工智能学院张伟男教授团队撰写的公开课文档,系统梳理了人工智能的发展脉络、核心技术及行业应用,并展望了其未来趋势。该文档结合理论与实践,既涵盖学科基础知识,又深入探讨了前沿技术突破,体现了中国在人工智能领域的科研实力与教育成果。各章节内容主要如下:一. 人工智能的概念本章从“智能”的定义出发,引用尼尔逊和爱因斯坦的观点,解析智能的核心要素(推理、学习、创造等)。

2025-03-31 20:15:12 459

原创 AI Agent爆发前的黎明:Manus不够好,但天快亮了

我们自己定义的agent,它应该在某种意义上像人一样,可以使用各种网页工具,也同时还可以学习怎么使用不同的东西,但这点对Agent来说是非常难的挑战。我们来看看过去几年,AI生态圈是怎么发展推理(Reasoning)、记忆(Memory)和工具(Tools)这三种主要能力的。

2025-03-31 20:13:13 863

原创 LLaMA Factory大模型微调、导出、量化全攻略!简单几步,轻松掌握!

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调,框架特性包括:模型种类:LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Yi、Gemma、Baichuan、ChatGLM、Phi 等等。

2025-03-31 20:07:26 678 1

原创 成为LLM大师只需读完这八本书籍,详细收藏,一篇就够!大模型书籍看完这些你就是大模型大师

如果你想深入了解大模型领域,无论是为了学术研究还是实际应用,选择合适的书籍是非常重要的。以下是精选的八本大模型相关书籍,涵盖了从基础理论到高级实践的内容,可以帮助你构建全面的知识体系。《大模型应用开发极简入门》作者:未知简介:这本书适合初学者快速入门大模型应用开发。书中提供了大量的实例和练习,帮助读者理解和掌握大模型的基本概念和技术要点。特色:语言通俗易懂,注重实践操作。《大模型时代:ChatGPT开启通用人工智能浪潮》作者:未知。

2025-03-30 19:53:24 576

原创 ChatGPT如何高效综述大量文献?全流程演示与指令大揭秘!

文献综述指令(划线处可根据自己要求修改)

2025-03-30 19:48:18 611

原创 DeepSeek洞察与大模型应用-人工智能技术发展与应用实践|附37页文件下载

本文提供完整版报告下载,请查看文后提示。......文│中国联通。

2025-03-30 19:45:46 325

原创 大模型训练全解析:预训练、微调、强化学习,一步到位!

2025年初,随着DeepSeek的迅速走红,公众对LLM(大语言模型)的兴趣急剧上升。许多人被LLM展现出的近乎魔法的能力所吸引。然而,这些看似神奇的模型背后究竟隐藏着什么秘密?接下来,我们将深入探讨LLM的构建、训练和微调过程,揭示它们如何从基础模型演变为我们今天所使用的强大AI系统。这篇文章是我一直想写的,如果你有时间,它绝对值得一读。:我们将介绍LLM的基础知识,涵盖从预训练到后训练的整个过程,探讨神经网络的工作原理、幻觉现象(Hallucinations)以及模型的推理机制。

2025-03-30 19:44:18 498

原创 硬核解析:AI Agents全栈技术框架综述与未来展望

—罗素和诺维格,《人工智能:一种现代方法》(2016 年)Agents与环境互动,通常包括几个重要组件:•。

2025-03-30 19:40:59 893

原创 2025年大模型学习路线图:零基础到精通,最佳理论与实践结合路径!非常详细收藏我这一篇就够了!

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2025-03-29 19:38:22 559

原创 私有化大模型ollama部署指南:打造你的私人小秘书!

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2025-03-29 19:35:37 842

原创 清华大学:迈向未来的AI教学实验|附395页文件下载

报告围绕 “迈向未来的AI教学实验” 主题,展示了清华大学新媒沈阳团队在人工智能与教育融合领域的创新探索,涵盖科学、理论、艺术、知识和数据五个维度的教学实验成果。......文│清华大学。

2025-03-29 19:23:38 479

原创 18种RAG技术大比拼:谁才是检索增强生成的最佳选择?

在当今信息爆炸的时代,如何从海量数据中快速准确地获取所需信息,是人工智能领域的一大挑战。Retrieval-Augmented Generation(RAG,检索增强生成)技术应运而生,它结合了检索和生成的优势,通过从大量文档中检索相关信息,再利用这些信息生成高质量的回答。然而,RAG 的实现方式多种多样,不同的技术路径有着不同的优势和局限。今天,我们就来深入探讨一下这些 RAG 技术,看看谁才是真正的“最佳选手”。

2025-03-29 19:04:08 828

原创 Graph+LLM:从节点嵌入到认知跃迁

图表示学习目的是将高维稀疏的图结构转化为低维稠密的向量化表示,同时保留节点间的拓扑关系、语义信息和属性特征,有效的应用在节点分类、链接预测和图分类等下游任务中。图表征学习方法大致分为四类:基于距离翻译、基于语义匹配、基于随机游走、基于图传播的方法。图表示学习是图谱推理模型的基石,传统图推理算法(如路径排序算法、关联规则挖掘)依赖人工设计的特征工程,而在图表示学习的方法出现后,图推理模型可直接利用图表征进行概率预测或逻辑推断。

2025-03-29 18:58:43 1012

原创 2025年AI产品经理技能清单与入行指南!AI产品经理学习路线,非常详细收藏我这一篇就够了

1.AI产品经理是什么回答这个问题前我们首先得理清楚什么是AI产品经理,它和传统的互联网产品经理有什么区别。1.1 AI产品经理职责主要职责一方面是规划如何将成熟的AI技术应用在各个领域不同场景中,提升原有场景的效率或效果等;另一方面是基于业务方的需求如何用现有的AI技术或者AI技术组合予以实现,甚至有可能联合技术团队孵化新的AI软件解决方案或者AI硬件产品。1.2 AI产品经理与传统互联网产品经理的区别AI产品经理本身也只是产品经理的一种,并没有什么特殊性。

2025-03-28 17:21:44 981

原创 大模型微调七大秘诀:零基础入门指南,一篇文章掌握所有技巧!

本篇文章深入分析了大型模型微调的基本理念和多样化技术,细致介绍了LoRA、适配器调整(Adapter Tuning)、前缀调整(Prefix Tuning)等多个微调方法。详细讨论了每一种策略的基本原则、主要优点以及适宜应用场景,使得读者可以依据特定的应用要求和计算资源限制,挑选最适合的微调方案。

2025-03-28 17:18:31 880

原创 AI Agents新手指南:从零开始,打造属于自己的AI Agent!

Agents 代表着生成式AI模型的进阶形态,它们拥有自主行动能力,能够利用工具与外界交互,并根据目标进行决策,具有更广泛的应用范围和更强大的能力。随着技术的不断发展,Agents 将会改变我们的生活和工作方式,并推动人工智能进入新的发展阶段。未来,Agent 将成为人工智能发展的重要方向,为我们带来更智能、更便捷的未来。

2025-03-28 17:08:57 916

原创 阿里开源Qwen2.5-Omni-7B:首个端到端全模态大模型、看听说写打通

通义千问今天发布并开源了旗下的首个端到端的全模态大模型 Qwen2.5-Omni-7B。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。主要特点全能创新架构:提出了一种全新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。

2025-03-28 17:03:26 1075

原创 人人都能看懂的MCP科普,AI大模型的「万能拓展坞」来了!

一切的起源是 anthropic 官网的这篇文章:https://www.anthropic.com/news/model-context-protocol里面是这么描述的:它为连接 AI 系统和数据源提供了一个通用开放标准,用单一协议取代了分散集成。结果是 AI 系统可以更简单、更可靠地访问其所需数据。再有就是网站:https://modelcontextprotocol.io/introduction 中,如此描述:MCP 是一种开放协议,它标准化了应用向 AI 应用提供上下文的方式。

2025-03-28 17:00:45 814

原创 买完DeepSeek一体机,有人气懵了,有人赢麻了!

最近,很多用户都在私有化部署“DeepSeek大模型一体机”,并且已经上线跑起来了,大家都知道,插满GPU的DeepSeek大模型一体机不便宜,少则十几万,满血版的都是百万起、甚至大几百万。值不值,不能光靠感觉需要从多个维度进行评估!为啥有人气懵了,有人赢麻了?今天我们就来说道说道↓就像我们看一辆车好不好,先看它跑得快不快。比如,有的一体机极限吞吐量是8000Token/s,有的则是3000Token/s,说明性能差距翻了两三倍。这有硬件的原因,也有软件优化的原因。

2025-03-28 16:58:37 672

原创 【大模型基础教程】非常详细的大模型入门学习教程:存下吧很难找全的!

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。评估大型语言模型(LLM)是管道中一个被低估的部分,这一过程既耗时又具有一定的可靠性。• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

2025-03-27 16:37:53 930

原创 RAGFlow完全指南:从0到1搭建RAG知识库,一篇文章全面掌握!非常详细收藏这一篇就够了!

最近随着Deepseek的火爆,如何高效地整合海量数据与生成式模型成为了技术领域内的一大热点。传统的生成模型在回答复杂问题时常常依赖于预训练数据的广度与深度,而检索增强生成(Retrieval-Augmented Generation,简称RAG)则有效结合了检索与生成的优势,为各类应用场景提供了更为灵活、高效的解决方案。

2025-03-27 16:35:55 1687

原创 如何在不微调的情况下提高 RAG 的准确性?

如图所示,进行两步搜索,首先通过摘要筛选出相关的满足要求的文档,然后再在这些文档中继续检索。

2025-03-27 16:33:41 696

原创 Agent开发攻略篇:智能体技术的突破与实践之路

开篇:从技术浪潮到行业变革在人工智能发展的历史长河中,我们正经历着一场前所未有的技术革命。随着大语言模型(LLM)技术的飞速发展。AI Agent(智能体)作为一种能够自主感知、决策和行动的智能系统,正从概念走向实践,重塑着各行各业的工作方式和商业模式。当你打开手机,询问虚拟助手帮你预订机票、整理日程或撰写邮件时,你已经在与这场革命的先行者互动。然而,这仅仅是开始。

2025-03-27 16:30:50 573

原创 Manus爆火后的思考:是否可以通过RL微调LLM来获得决策大模型

那回到主题上来,如果让我设计决策式的AI Agent,我可能会设计一些基础的决策任务,类似爬虫,写代码等等,每个子任务由一个垂类决策大模型控制。每个子任务都由LLM模型通过强化学习对其进行微调得到,奖励信号来自于是否完成了任务,而非人类给的监督信号。当然这仅仅只是我的一个构想,我也会在未来尝试一下,看这个思路是否可行。

2025-03-27 16:27:01 962

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除