
AI大模型开发笔记
文章平均质量分 90
踏入AI大模型开发的广阔领域,您将踏上一场既充满挑战又极具前瞻性的知识之旅。本专栏不仅深度剖析了AI大模型的核心理论与技术架构,更通过实践案例,让您亲身体验从数据预处理、模型训练到优化部署的全过程。无论您是AI领域的专业人士,还是对智能科技充满好奇的学习者,这里都有您不容错过的精彩内容。让我们携手,
_Richard_
985计算机科班,高级系统架构师,某股份制银行大模型解决方案架构师,擅长Java、Python开发
展开
-
《AI Agent项目实战》从 0 到 1 开发一个 AI Agent
本文把理论概念具体化,实际构建一个类似于旅游规划的自主AI智能体。在这个过程中,我们将针对提到的三个构建AI Agent智能体关键概念一一进行模型、工具、框架的选型及说明。具体安排如下:选择目前综合性能最强的OpenAI GPT系列模型作为AI Agent的基座模型,介绍如何在Python代码环境下调用其API进行交互。选择最主流、热门的应用开发框架LangChain,介绍其整体架构,并实际操作如何使用LangChain集成OpenAI的GPT模型,同时配置所需的工具库。选择新兴的AI Agent。原创 2025-06-02 00:14:01 · 34 阅读 · 0 评论 -
通俗易懂解释知识图谱(Knowledge Graph)
知识图谱( Knowledge Graph)的概念由谷歌2012年正式提出,旨在实现更智能的搜索引擎,并且于2013年以后开始在学术界和业界普及。目前,随着智能信息服务应用的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐、情报分析、反欺诈等领域。另外,通过知识图谱能够将Web上的信息、数据以及链接关系聚集为知识,使信息资源更易于计算、理解以及评价,并且形成一套Web语义知识库。知识图谱以其强大的语义处理能力与开放互联能力,可为万维网上的知识互联奠定扎实的基础,使Web 3.0提出的“知识之网原创 2022-06-18 12:17:11 · 14815 阅读 · 2 评论 -
《AI大模型开发笔记》RAG技术详解
RAG解决的是什么问题?“幻觉”问题,理解不足,文本超长等问题?对于LLM有过丰富的训练、微调经历的,LLM能力在业务场景(特别是高P)显得很无力,生成结果不可控、格式不可控、难以进行二次矫正。所以,RAG的目的是通过检索+精筛的逻辑,将复杂问题简单化、长文本精简化、噪声剔除,让LLM更容易去理解去生成。但请注意,当前阶段来看,RAG也不能解决,仅仅知识缓解,但长远来看,硬件能力提升、高质量数据统一、算法的完备,会促使LLM取代RAG。RAG更像一个权衡当前LLM技术之后,在应用中产生的中间产物!!原创 2025-03-09 22:19:52 · 1120 阅读 · 0 评论 -
《AI大模型开发笔记》MCP快速入门实战(二)
在实际开发MCP服务器的过程中, Anthropic提供了一个非常便捷的debug工具: Inspector。借助Inspector,我们能够非常快捷的调用各类server,并测试其功能。Inspector具体功能实现流程如下。安装nodejsnpx -v运行Inspector然后即可在本地浏览器查看当前工具运行情况: http://127.0.0.1:5173/#resources注,若是使用AutoDL进行本地映射,则需要将5173和3000两个端口映射到本地。原创 2025-04-05 21:18:50 · 822 阅读 · 0 评论 -
《大模型落地应用案例集》——可控可信的私域知识问答系统
私域的知识问答系统具有强大的知识管理能力,允许用户创建、编辑和组织知识文档、常见问题解答(FAQ)、操作手册和培训材料等;原创 2025-01-19 10:15:24 · 1173 阅读 · 0 评论 -
《大模型落地应用案例集》——基于人工智能大模型技术的开放平台
本项目通过搭建高性能GPU计算集群、训练通用大语言模型、训练垂类大语言模型、搭建大语言模型微调平台、搭建大语言模型应用开放平台等核心模块,旨在打造大语言模型服务和应用平台,为大语言模型技术的研究和应用提供一个开放、可扩展、可协作的环境。这个平台除了通用大语言模型外,还提供大量共享的数据集、算法库、模型微调工具等资源供开发者使用,同时大语言模型应用开放平台提供一整套完整的大语言模型生态应用工具链,从而加速大语言模型的训练以及大语言模型生态应用的开发和使用过程。原创 2025-01-19 10:02:11 · 574 阅读 · 0 评论 -
《AI大模型开发笔记》DeepSeek从入门到精通
• ❌错误⽰例:「帮我写点东西」• ✅正确姿势:「我需要⼀封求职邮件,应聘新媒体运营岗位,强调3年公众号运营经验」• ❌错误⽰例:「分析这个数据」• ✅正确姿势:「这是⼀家奶茶店过去三个⽉的销售数据,请分析周末和⼯作⽇的销量差异(附CSV数据)」• ❌错误⽰例:「给⼏个营销⽅案」• ✅正确姿势:「请⽤表格形式列出三种情⼈节咖啡店促销⽅案,包含成本预估和预期效果」• ❌错误⽰例:「详细说明」• ✅正确姿势:「请⽤200字以内解释区块链技术,让完全不懂技术的⽼⼈能听懂」原创 2025-02-23 23:26:00 · 1018 阅读 · 0 评论 -
《AI大模型开发笔记》MCP快速入门实战(一)
MCP,全称是Model Context Protocol,模型上下文协议,由Claude母公司Anthropic于去年11月正式提出。MCP刚发布的时候不温不火,直到今年Agent大爆发才被广泛关注。而在今年2月, Cursor正式宣布加入MCP功能支持,一举将MCP推到了全体开发人员面前。从本质上来说, MCP是一种技术协议,一种智能体Agent开发过程中共同约定的一种规范。这就好比秦始皇的“书同文、车同轨”,在统一的规范下,大家的协作效率就能大幅提高,最终提升智能体Agent的开发效率。原创 2025-04-04 22:29:55 · 425 阅读 · 0 评论 -
《AI大模型开发笔记》企业RAG技术实战(一)
Retrieval-Augmented Generation for Large Language Models: A Survey: https://arxiv.org/abs/2312.10997github项目: https://github.com/Tongji-KGLLM/RAG-Survey ragflow项目地址: https://github.com/infiniflow/ragflow 安装 WSL文档: https://learn.microsoft.com/zh-cn/windo原创 2025-03-19 22:22:06 · 848 阅读 · 0 评论 -
《AI大模型开发笔记》Open-R1:对 DeepSeek-R1 的完全开源再现(翻译)
如果你曾经为一道艰难的数学题苦思冥想,那么你就知道花更多时间、仔细推理是多么有用。OpenAI 的 o1 模型展示了这样一个事实:当大语言模型在推理时使用更多的计算资源,花更多时间思考,它们在数学、编程和逻辑等推理任务上的表现会显著提升。然而,OpenAI 推理模型背后的秘诀一直是个不为人知的秘密。直到上周,DeepSeek 发布了他们的 DeepSeek-R1 模型,并迅速引爆了互联网(甚至连股市也受到了冲击!原创 2025-02-15 23:17:13 · 516 阅读 · 0 评论 -
《AI大模型开发笔记》MoE模型技术对比(Mixtral,Qwen2-MoE,DeepSeek-v3)
根据Qwen2.5的技术报告,阿里云Qwen2.5系列模型中,其中dense模型属于开源模型,但是MoE模型,也就是 Qwen2.5-Turbo 和 Qwen2.5-Plus 属于在阿里云云端托管的模型,这两个模型的表现是可以比肩 gpt-4o-mini 和 gpt-4o 的。这个方法参考自DeepSeekMoE模型,其目的是保持参数量,计算量不变的同时,提高MoE模型的表达能力,从而实现更准确和有针对性的知识获取的潜力。在路由专家之外增加一个或者多个共享专家,用于共同知识或信息的处理。原创 2025-02-15 23:26:50 · 858 阅读 · 0 评论 -
《AI大模型开发笔记》deepseek提示词技巧
请参考以下的文案调性(附带实例),为全新推出的防晒服饰撰写 5 条适合抖。: “扮演一个【经验丰富的 XX 专家】,以【XX 风格】为【XX 目标。写论文时头脑一片混沌?“现在,你要扮演一个【挑剔的市场评论家】,用最直接的言辞评价这份市场计。:把 AI 当成你的助手,明确任务、受众和呈现方式,它就能精准回应!AI 迅速捕捉到你的“网红风格”需求,再也不怕写出自说自话的文。“解读这张用户行为热图,点出三个用户流失的关键点,并用箭头标。揭秘:不是 AI 不够聪明,而是你的指令太“高冷”!原创 2025-02-16 00:07:24 · 399 阅读 · 0 评论 -
《AI大模型开发笔记》DeepSeek技术创新点
DeepSeek V3 以!,开启高效 AI 新纪元!最新开源的 DeepSeek V3模型不仅以顶尖基准测试成绩比肩业界 SOTA 模型,更以惊人的训练效率引发行业震动——仅耗费 280万H800 GPU 小时(对应 4e24 FLOP@40% MFU)即达成巅峰性能。对比同级别 Llama3-405B 模型,训练计算量实现10倍级压缩,创下大模型训练效率新标杆!。,DeepSeek V3如何实现效率的指数级跃迁?背后的技术奥秘究竟何在?原创 2025-02-01 23:25:43 · 1767 阅读 · 0 评论 -
《AI大模型开发笔记》——Prompt提示词最佳实践
通过上面ChatGPT的说明,我们可以看到,prompt工程化就是如何写prompt提示词的一些技巧。那么,为什么需要进行提示词优化呢?原创 2024-11-23 19:45:19 · 1331 阅读 · 0 评论 -
《AI大模型开发笔记》——推理所需显存与速度
通过此文你可以了解以下几个方面的内容:要运行一个LLM需要多少显存? (我的GPU可以运行多大LLM?)不同LLM推理速度如何?量化对显存,推理速度,性能的影响?vLLM,DeepSeed等工具加速效果如何?上下文,batch-size对显存和推理的影响?原创 2024-11-23 19:36:55 · 2161 阅读 · 0 评论 -
《AI大模型开发笔记》Faster-Whisper 免费开源的高性能语音识别模型
Whisper模型根据参数量来区分,有多个不同的版本,分别是tiny,base,small medium,large, large-v2, large-v3。为了提高推理的速度,faster-whisper通过使用 CTranslate2 工具进行优化,大幅度改善了推理的速度。从下图可以看出,faster-whisper 推理时间只有原模型的1/5, GPU显存的使用也不到原来的二分之一。目前性能最好的是2023年11月7日发布的参数量为1550M的large-v3。下面是,我在代码执行过程中碰到的问题。原创 2024-11-23 19:42:19 · 2813 阅读 · 0 评论 -
《AI大模型开发笔记》——ollama应用全面解析
在创建自定义模型时,需要一个配置文件来指定模型推理相关的设置。这个文件仅在创建自定义模型过程中是必需的。若需修改模型推理的参数,必须重新创建模型,可以通过在modelfile中调整参数来实现。原创 2024-11-24 12:59:58 · 874 阅读 · 0 评论 -
《AI大模型开发笔记》——LangChain快速入门
整理LangChain快速入门学习笔记。方便您快速执行验证其中的代码。原创 2024-11-24 12:48:45 · 172 阅读 · 0 评论 -
《AI大模型开发笔记》——ChatGPT 全面解析
虽然非常不可思议,但事实就是这样,现阶段所有的NLP任务,都不意味着机器真正理解这个世界,他只是在玩文字游戏,进行一次又一次的概率解谜,本质上和我们玩报纸上的填字游戏是一个逻辑。例如,我收集一大堆标注数据,A-是黄色,B-没有搞黄色,然后喂给模型进行训练,调整他的参数。这也是当前时代的一个缩影,不管外行人如何看待你从事的行业,不管媒体是如何一次次人云亦云地说警惕AI取代人类,你一直都知道,你在做的只是训练出一个术业有专攻的机器人而已,离真正的人工智能十万八千里。一周内,ChatGPT的用户已突破100万。原创 2023-04-11 16:04:50 · 16754 阅读 · 0 评论 -
《AI大模型开发笔记》——提示词工程
1.什么是提示工程提示工程(Prompt Engineering),也被称为上下文学习,是指通过精 心设计的提示技术来引导LLM行为,而无需更改模型权重。其目标是使 模型输出与给定任务的人类意图一致。提示工程帮助用户控制语言模型输出,生成适合的特定需求。提示调整提供了对模型行为的直观控制,但对提示的确切措辞和设计敏感,因此需要精心制定的准则以实现期望的结果。2.提示工程的原则2.1.给模型清晰指令:Prompt 需要清晰明确地表达需 求,提供充足上下文,使语言 模型准确理解我们的意图。原创 2024-09-12 00:00:17 · 1435 阅读 · 0 评论 -
《AI大模型开发笔记》——大型语言模型与知识图谱融合方法概述
对于该路线图中的每种整合模式,文中都提供了详细的分类和全新的分类法。对于每种类别,文中都从不同整合策略和任务角度总结评估了相关研究工作,从而能为每种框架提供更多见解。原创 2023-11-15 20:40:27 · 1526 阅读 · 0 评论 -
《AI大模型开发笔记》NLP基础——3、RNN模型
了解什么是RNN模型.了解RNN模型的作用.了解RNN模型的分类.原创 2022-10-05 15:15:04 · 10222 阅读 · 1 评论 -
《AI大模型开发笔记》NLP基础——2、分词工具词性对照表
【代码】自然语言处理(NLP)学习笔记——分词工具词性对照表。原创 2022-10-04 20:05:59 · 1668 阅读 · 0 评论 -
《AI大模型开发笔记》NLP基础——1、文本预处理
文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求, 如: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标.原创 2022-10-04 18:20:28 · 1831 阅读 · 1 评论 -
《AI大模型开发笔记》NLP基础——4、HMM与CRF模型
序列数据中每个单元包含得隐性信息,这些隐性信息之间也存在一定关联。原创 2022-10-05 14:32:22 · 894 阅读 · 0 评论 -
《AI大模型开发笔记》——Transformer架构解析
了解Transformer模型的作用.了解Transformer总体架构图中各个组成部分的名称.原创 2022-10-09 19:29:06 · 7764 阅读 · 1 评论 -
《AI大模型开发笔记》——基于深度学习的自然语言处理
Bi-LSTM即双向LSTM, 它没有改变LSTM本身任何的内部结构, 只是将LSTM应用两次且方向不同, 再将两次得到的LSTM结果进行拼接作为最终输出.原创 2023-01-08 23:49:13 · 3927 阅读 · 0 评论 -
《AI大模型开发笔记》——数据挖掘领域十大经典算法
数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。< span=“”>原创 2023-01-25 11:14:55 · 8865 阅读 · 0 评论 -
《AI大模型开发笔记》——Python数据挖掘基础
画二维图表的python库,实现数据可视化 , 帮助理解数据,方便选择更合适的分析方法。1.5多个坐标系显示-plt.subplots(面向对象的画图方法)2.1、ndarray与Python原生list运算效率对比。Numpy是一个高效的运算工具,核心就是ndarray运算。案例:随机生成8只股票2周的交易日涨幅数据。1.3 完善原始折线图1(辅助显示层)合并、分割、IO操作、数据处理。完善原始折线图2(图像层)3.4、股票涨跌幅统计运算。3.6、数组与数组的运算。对比每部电影的票房收入。原创 2023-02-19 20:38:27 · 626 阅读 · 0 评论 -
《AI大模型开发笔记》——CodeGeeX2: 更强大的多语言代码生成模型
CodeGeeX2 是多语言代码生成模型) 的第二代模型。不同于一代 CodeGeeX(完全在国产华为昇腾芯片平台训练) ,CodeGeeX2 是基于架构加入代码预训练实现,得益于 ChatGLM2 的更优性能,CodeGeeX2 在多项指标上取得性能提升(+107% > CodeGeeX;原创 2023-08-17 22:15:32 · 1171 阅读 · 0 评论 -
《AI大模型开发笔记》——多模态大语言模型综述
去年以来,我们见证了以 GPT-4V 为代表的多模态大语言模型(Multimodal Large Language Model,MLLM)的飞速发展。为此我们对综述进行了重大升级,帮助大家全面了解该领域的发展现状以及潜在的发展方向。MLLM 发展脉络图MLLM 脱胎于近年来广受关注的大语言模型(Large Language Model , LLM),在其原有的强大泛化和推理能力基础上,进一步引入了多模态信息处理能力。原创 2024-04-26 17:39:52 · 819 阅读 · 0 评论 -
《AI大模型开发笔记》——机器学习18个核心算法模型
KNN 的核心思想是根据输入样本的特征,在训练集中找到与之最接近的 个样本,然后根据这 个样本的标签来预测输入样本的标签。具体公式比较复杂,无法简单表示。AdaBoost 的核心在于样本权重的更新规则和基分类器的组合方式,具体公式涉及到样本权重的调整和分类器权重的更新。核方法的核心在于核函数的选择和应用,常见的核函数包括线性核、多项式核和高斯核等,其具体形式取决于核函数的选择。核方法的核心在于核函数的选择和应用,常见的核函数包括线性核、多项式核和高斯核等,其具体形式取决于核函数的选择。原创 2024-06-05 16:02:52 · 1612 阅读 · 0 评论 -
《AI大模型开发笔记》——大模型Agent智能体实战
尽管大型语言模型(LLM)展现了令人惊人的语言理解和生成能力,但它在本质上仍然只是一个文本生成器。与之不同的是,AI Agents则是新一代综合智能体,具备自主感知、思考和行动的能力,被认为是实现人工通用智能(AGI)的关键突破口。AI Agents具备感知环境的能力,借助各种传感器,能够对复杂环境进行实时感知和监测,而不仅仅局限于被动接收静态文本输入。这种环境感知能力使得AI Agents能够持续从客观世界中获取信息,而不仅仅局限于被动地运行在一个封闭的”黑箱”中。原创 2024-06-23 18:51:09 · 244 阅读 · 0 评论