- 博客(362)
- 收藏
- 关注
原创 一文读懂CNN卷积神经网络从基本概念、模型定义、训练、验证全流程指南
卷积神经网络(CNN)受到人类视觉皮层的启发,在从结构化网格数据(如图像)中提取特征的空间层次结构方面特别有效。图像自然地被表示为多维阵列-通常是具有对应于高度、宽度和颜色通道的维度的3D张量(例如,红色、绿色和蓝色)。这种结构化表示使图像成为CNN的理想候选者,CNN利用卷积运算来有效地处理输入数据的局部区域。img尺寸为4x 4x 3的红绿蓝(RGB)图像的3D张量。与将输入数据视为平面向量的传统神经网络不同,CNN通过应用在图像上滑动的过滤器(或内核)来保留数据中的空间关系。
2025-04-01 11:54:32
890
原创 LangChain框架快速入门
本文将会介绍LangChain框架,并以python代码示例来解释该框架的作用,使用到了OpenAI的API,并附上代码和结果,感兴趣的读者可以跟着跑代码。LangChain 是一个用于构建和部署基于语言模型(如大型语言模型,LLM)的应用程序的框架。想象一下,LangChain 就像是一个工具箱,里面装满了各种工具和指导手册,帮助你更容易地创建和优化与语言相关的软件项目。LangChain 框架的关键模块如下:Models (模型)Prompts (提示词)
2025-04-01 11:53:30
468
原创 利用Langchain实现表格与文本的检索增强生成(RAG)教程与实战案例!
通过本文的介绍,您应该对如何使用Langchain进行表格和文本的检索增强生成有了更深入的了解。无论是通过直接的函数调用,还是利用Langchain的Agent和Chain,您都可以灵活地处理各种数据源,提升信息检索的效率。
2025-04-01 11:50:11
826
原创 使用 LangChain 表达式语言构建第一个简单的 LLM 应用
在本教程中,我将向你展示如何使用 LangChain 构建一个简单的 LLM 应用程序。此应用程序会将文本从英语翻译成另一种语言。这是一个相对简单的 LLM 应用程序:它只是一个 LLM 调用加上一些提示。不过,这仍然是开始使用 LangChain 的好方法:只需一些提示和一个 LLM 调用就可以构建许多功能!LangChain 本身支持很多种 LLM,我将使用阿里的 Qwen2.5 系列的 LLM,因为可以和 OpenAI 兼容使用,具体怎么兼容,请看下面的介绍。
2025-04-01 11:49:22
478
原创 接入大模型框架 LangChain4j 详细教程
什么是 LangChain4j?LangChain4j 是一款专为 Java 开发者设计的框架,帮助开发者轻松接入各类大模型并进行自然语言处理。它封装了大模型的调用接口,能够与不同的语言模型进行集成。通过使用 LangChain4j,开发者可以快速构建复杂的自然语言应用,减少了很多底层集成的复杂性。环境准备在开始集成之前,确保已经具备以下开发环境:JDK 1.8+Maven 或 Gradle 项目管理工具。
2025-04-01 11:48:25
424
原创 学大模型一定要知道的实战项目!!三天练完,没有大模型难的住你
去年侧重大模型和GPT的原理,了。找到的练习项目不仅是对原理和概念的加深理解,更是对如何结合业务,业务逻辑的深度理解。要落到实际的应用场景,肯定需要对应用场景本身有足够的了解。而要理解场景,需要对大模型有足够的知识积累和实战经验。这就是为什么多练大模型项目如此重要。练习项目不仅能帮你更好地掌握理论知识,还能让你更清楚地了解如何把这些知识用到实际工作中。而要做到这一点,你需要对所使用的大模型有足够的了解和项目实践经验。这就是为什么很多大厂在面试中都会问到:你有什么大模型项目经验。
2025-03-19 15:35:56
975
原创 大模型微调教程:0 基础也能用云算力微调一个Ai甄嬛
微调相当于是可以使用自己的私有数据,私人定制一个专属大模型,比如法律领域、医疗领域、政务场景等。可以自定义模型回复的语气,个性和风格,你把大模型想象成一个小孩子,你想让他成为什么样,你就教他什么(训练语料数据集)。官话:微调LLM可定制其行为,增强领域知识,并针对特定任务优化性能。通过在特定数据集上微调预训练模型,旨在更有效地执行特定任务。实操部分。
2025-03-19 15:24:50
1058
原创 大模型微调(Fine-tuning)全解,需要了解的都在这里
所谓大模型微调,指的在已有的大规模预训练模型基础上,通过对标注数据进行训练,进一步优化 模型的表现,以适应特定任务或场景的需求。不同于RAG或者Agent技术,通过搭建工作流来优化模型表现,微调是通过修改模型参数来优化模型能力,是一种能够让模型“永久”掌握某种能力的方法。
2025-03-19 15:22:13
909
原创 必知!大模型时代超常用的训练、微调、推理、部署框架
NVIDIA Triton Inference Server 是一个功能强大且灵活的推理服务器,适用于云、数据中心和边缘计算场景。它支持多框架、多硬件部署,并提供了动态批处理、并发模型执行等高级功能,能够满足高吞吐量、低延迟的推理需求。尽管 Triton 的配置和管理相对复杂,但其强大的功能和与 NVIDIA 生态的深度集成使其成为生产环境中推理服务的理想选择。对于需要高性能推理服务的团队,Triton 提供了全面的解决方案。
2025-03-19 15:20:29
969
原创 保姆级教程~本地微调DeepSeek-R1-8b模型
利用特定领域的数据集对已预训练的大模型进行进一步训练的过程。它旨在优化模型在特定任务上的性能,使模型能够更好地适应和完成特定领域的任务。其中最重要的是超参数(如学习率、批次大小和训练轮次)调整优化。转成大白话就是调整大模型中一些参数的值,使其在特定数据集上表现更优秀。
2025-03-19 15:14:19
1127
原创 0-1实战 本地大模型微调实战
原创 新的一天要加油呀 [湖北第一](javascript:void(0)😉2024年08月14日 19:26上海上一期写了部署本地模型,光本地部署确实没啥用,那为什么要本地部署?**那!当!然!是!为!了!微!调!啊!**话不多说,开整。****关于本地如何部署大模型请点击下方链接查看上一章内容~开始实践前,请先本地部署chatglm2-6b,看了上一节的应该会发现模型变了,因为内存不足,死机好几次之后我决定从南墙回头了。这是我成功运行下来的个人配置情况,仅供参考。
2025-03-18 14:05:03
588
原创 一文掌握大模型数据准备、模型微调、部署使用全流程
如果想自定义整个webui的名字、登录进来的用户角色等等,则需要对docker的镜像进行一定的修改。
2025-03-18 13:59:12
903
原创 推理大模型的后训练增强技术-指令微调篇,如何用指令微调提升推理能力?
指令微调是一种在带有指令提示和相应输出的标记数据集上微调大模型的技术,通过提供一组概述所需操作的指南或指令,使预训练模型适应执行特定任务。
2025-03-18 13:58:20
746
原创 一学就会!DeepSeek R1本地部署+知识库搭建全攻略
在之前的文章里,我们说了R1本地部署,有同学还给我留言问本地部署有什么意义,这篇文章就可以告诉大家,本地部署大模型不仅仅可以生成一个专属于自己的小助理,还能保护隐私。难道你不需要一个观影小助手吗?哈哈,说远了。前面文章我们以及通过ollama安装好了大模型,打开ollama,访问:http://127.0.0.1:11434/说明大模型服务正常。
2025-03-18 13:57:46
1129
原创 超详细!本地化部署DeepSeek R1+AnythingLLM搭建私有知识库
DeepSeek R1的核心作用在于,其通过强化学习技术实现数学、编程等复杂任务的自主推理,可以赋能很多真实场景,比如编程、数学、数据分析、办公提效等。:若通过云端传输敏感数据,可能被截获或滥用;:攻击者可诱导模型绕过安全机制输出有害内容(成功率74%);:14.3%的幻觉率可能导致事实性错误。(也就是有时候会胡说八道)将DeepSeek进行本地化部署,可以避免上述的问题。本地部署私有化知识库的优势在于:整合分散的技术文档、会议记录等,支持权限分级;:如军工、金融等领域保护核心数据;
2025-03-18 13:57:04
754
原创 本地部署Deepseek R1大模型:从零开始的完整指南
参数规模(B = Billion/十亿)代表模型的复杂度和学习能力,参数越多,通常理解和生成能力越强。(按模型参数规模排序)70B以下模型:支持8-bit量化(显存需求降低40%)千亿级模型:需结合模型并行+显存卸载技术推荐使用DeepSeek官方优化的推理框架(显存占用减少20%)预留2倍模型体积空间(缓存/日志文件)推荐NVMe SSD(加载速度提升3-5倍)**1、下载 Ollama,官网:**下载之后, Windows 版直接点击安装即可。
2025-03-18 13:56:10
784
原创 什么是RAG?大模型和RAG有什么关系?从零基础到精通,理论与实践结合的最佳路径!
RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合信息检索与文本生成的技术,旨在提升大语言模型在回答专业问题时的准确性和可靠性。核心原理为 检索+ 生成两阶段流程 :检索阶段:将用户的问题转化为向量,从外部知识库或私有文档中(向量数据库)快速检索相关片段。生成阶段:将检索到的信息输入大模型,生成结合上下文的具体回答。
2025-03-12 14:36:06
630
原创 必知!大模型时代超常用的训练、微调、推理、部署框架,从零基础到精通,理论与实践结合的最佳路径!
动态图优先的深度学习框架,以灵活性和研究友好性著称。动态计算图(即时执行)。张量计算、自动求导、分布式训练。与Python深度集成,调试便捷。支持GPU加速和混合精度训练。生产部署需依赖TorchScript/ONNX。训练速度较静态图框架(如TensorFlow)略慢。:⭐️⭐️⭐️⭐️⭐️(适合快速原型开发)。:学术研究、模型实验、小规模训练。。:与Hugging Face、ONNX、TensorBoard集成,社区庞大。:高性能AI推理服务器,支持多框架、多硬件部署。动态批处理、并发模型执行。
2025-03-12 14:34:26
581
原创 一篇文章讲清楚,到底如何训练自己的专属大模型,从零基础到精通,理论与实践结合的最佳路径!
从“对话调教”入门,体验即时反馈的乐趣。需要专业能力时,优先尝试RAG外挂知识库。有明确垂直需求(如生成品牌视觉素材),再挑战模型微调。大模型不再是“黑科技”,只要掌握方法,普通人也能打造专属AI助手!如果你对具体操作有疑问,欢迎留言讨论!
2025-03-12 14:33:37
972
原创 LLM微调方法(Efficient-Tuning)六大主流方法:思路讲解&优缺点对比[P-tuning、Lora、等]
由于LLM参数量都是在亿级以上,少则数十亿,多则数千亿。当我们想在用特定领域的数据微调模型时,如果想要full-tuning所有模型参数,看着是不太实际,一来需要相当多的硬件设备(GPU),二来需要相当长的训练时间。因此,我们可以选择一条捷径,不需要微调LLM的全量参数,而只需要新增少量的参数,通过固定原始模型参数,而只需要微调新增的少量参数,从而达到接近使用全参数full-tuning的效果。本章主要讲述在LLM时代,当下主流的微调方法。
2025-03-12 14:32:45
1020
原创 2025千万别再自学AI大模型了(当心学废了)从零基础到精通,理论与实践结合的最佳路径!
在当今科技飞速发展的时代,AI(人工智能)已经成为不可忽视的力量。2025年被许多人视为AI应用的爆发年,AI将如同电力一般融入我们生活的方方面面——从智能助手到各种跨平台应用。它们能够根据我们的语音指令完成点外卖、订机票甚至购买礼物等任务。AI不仅会改变我们与技术互动的方式,还将深刻影响个人之间的效率差距。那些率先拥抱AI工具的人将获得显著的优势,而忽视这一趋势的人可能会逐渐落后。尽管AI的重要性日益凸显,但选择自学AI大模型却并非最佳路径。
2025-03-08 13:17:03
1075
原创 求教0基础入门大模型的学习路线?java出身,数学良好,希望入局大模型算法,有无必要从cnn学起?
本人本科学历java开发出身,数学基础良好,希望入局大模型算法,有无必要从cnn学起?transformer、bert是否必须要学?希望能在最短的时间掌握相关知识…近年来,随着大模型的火爆,他的领域几乎涉及到了生活中的方方面面:那么如何快速从0到1入门大模型呢?往下看;——关注不迷路,学技术来大模型工坊——基础入门大模型,transformer、bert这些是要学的,但是。
2025-03-08 13:16:02
1091
原创 从0到Hero!2025最新AI学习路线,30天让你掌握人工智能核心技能!
近短时间,人工智能(AI)的发展势头有目共睹,各大科技公司纷纷在AI领域投入重金,新技术层出不穷。像Deepseek这样的AI模型,以其强大的功能和广泛的应用,正在改变我们的生活和工作方式。我常常被问到:如何从零开始学习人工智能?今天,我将为大家分享一份详细的AI学习路线,帮助你从零到Hero,抓住这一波AI浪潮。
2025-03-08 13:14:59
819
原创 零基础入门AI大模型应用开发,你需要一个系统的学习路径!从零基础到精通,理论与实践结合的最佳路径!
我的专栏:•系统全面:从基础到高级,为你提供了一条清晰的学习路径。•实战导向:不仅仅是理论学习,更注重实战应用,让你能够将所学知识立即应用于实际项目中。•持续更新:AI领域日新月异,专栏将不断更新,确保你始终站在技术前沿。•深度解析:深入源代码,让你不仅知其然,更知其所以然。
2025-03-08 13:13:41
875
原创 终于!有人总结了大模型学习资料!从零基础到精通,理论与实践结合的最佳路径!
大家好,花哥我发现了一个大模型学习的神库,包含大量LLM教材和资料,并绘制了学习路线图。可以帮助快速掌握大模型的应用和开发技巧。
2025-03-08 13:12:13
974
原创 LeetCode 刷多少题能进大厂面试,零基础入门到精通,看这篇就够了!赶紧收藏!
先说结论,单独从算法面试角度来说,200 道热门题基本上就可以,如果数量达到 400 题就非常稳。那问题来了,需要刷哪些热门题?怎么刷?如何最快速度的刷?关于有哪些热门题,大家可以借助 CodeTop 这个网站进行参考,网站通过人工手动处理的方式,整理了近期会考察的热门题。再来聊聊如何刷题。目前市面上有不少 LeetCode 的题解,并且 LeetCode 官方也提供了不少优秀的文章。如果你自学能力强,有耐心慢慢的看别人的文章,同时有大量时间可以投入到刷题上,那么完完全全是可以自学的。
2025-03-07 19:05:45
1560
原创 大模型的五个环节和十大难题
作者 | 山竹出品 | 锌产业在生成式AI进入全球视野的第四年,大模型竞赛在2025年正式进入下半场,下半场考验的能力从模型训练转向工程能力。或者说,工程实践能力推动的大模型应用落地,在这时成了继模型训练后的第二战场。在这一新战场,模型推理的重要性开始凸显,“模型算子化”、“模型即服务”逐渐成为常态,大模型正在由此规模化迈入企业AI,并藉由此改变着社会运转的底层逻辑。这时,没有人再怀疑大模型的重要性,就像没有人会怀疑互联网改变了人类生活方式一样。
2025-03-07 19:04:42
898
原创 大模型为什么不是AGI?零基础入门到精通,看这篇就够了!赶紧收藏!
图源:pixabay今年年初,国产大模型DeepSeek凭借低成本和优秀的推理能力震动了业界,但对普通人来说,恐怕给人更深刻的是它犀利的语言风格。看惯了GPT-4百科式精准而波澜不惊的语言风格,DeepSeek的嬉笑怒骂让人亲切得多,甚至有时会让人觉得恍惚。AI似乎早已跃出了我们对工具的固有认知,我们对话的,是不是已经是一个具有智能的硅基生命?
2025-03-07 19:04:07
686
原创 大语言模型(LLM)技术深度洞察:进展、问题、趋势,零基础入门到精通,看这篇就够了!赶紧收藏!
大型语言模型是一种旨在通过分析大量数据生成和理解类似人类文本的人工智能模型。这些基础模型基于深度学习技术,通常涉及许多层和大量参数的神经网络,使它们能够捕捉到它们训练的数据中的复杂模式。大型语言模型的主要目标是理解自然语言的结构、语法、语义和上下文,以便它能够生成连贯且上下文适当的响应或用相关信息完成给定的文本输入。这些模型在包括书籍、文章、网站和其他文本内容在内的多样化文本数据源上进行训练,这使它们能够对广泛的主题生成响应。
2025-03-07 19:03:34
1092
原创 人工智能智能体(AI Agent)发展趋势2024年总结与2025年展望
人工智能(AI)的快速发展引发了各行业的变革性转变。在 AI 的众多进步中,智能体作为创新的基石脱颖而出,重塑了行业格局,提升了用户体验,并将自动化推向了新的高度。这些自主运行的虚拟机已经在客户服务、医疗保健、金融甚至娱乐等领域占据了一席之地。那么,人工智能智能体的未来会是怎样的呢?在本文中,我们将探讨 2025 年及未来几年人工智能智能体的趋势和预测。什么是人工智能智能体?2024 年人工智能智能体趋势2025 年人工智能智能体趋势:展望未来人工智能智能体采用率的增长主动式人工智能智能体。
2025-03-07 19:03:04
922
原创 微调碾压RAG?大模型意图识别工程化实践,零基础入门到精通,看这篇就够了!赶紧收藏!
检索增强生成(Retrieval-Augmented Generation,RAG)指的是在LLM回答问题之前从外部知识库中检索相关信息,RAG有效地将LLM的参数化知识与非参数化的外部知识库结合起来,使其成为实现大型语言模型的最重要方法之一早期的神经网络模型,在处理需要依赖外部知识或特定信息的任务时遇到了瓶颈。LLM的问题:幻觉、依赖信息过时、缺乏专业领域知识。RAG的提出,是为了解决如何将广泛的、分布式的外部信息库与生成模型相结合,从而提高模型在问答、摘要等任务中的性能和准确度。
2025-02-28 15:05:36
687
原创 用Llama3零成本构建私有AI知识库,零基础入门到精通,看这篇就够了!赶紧收藏!
今天的分享是关于如何零成本搭建一个私有的AI知识库,这个方案特别适用于那些面临大量产品知识需要记忆的销售人员。我的一个朋友,一位中年转行到医疗器械公司的销售员,最近就和我聊到了这样的问题:产品种类繁多,技术参数复杂,要为客户推荐合适的产品,就需要有深厚的产品知识储备。这对于他来说是个挑战,因为除了要学习产品知识,还要面对领导的压力和业绩的挑战,这使得他的工作倍感压力。于是我给他提出了一个建议:将产品说明和技术资料提供给AI,让AI来学习。
2025-02-28 15:04:27
549
原创 0成本5分钟!利用开源大模型搭建本地专属AI知识库
你一定经历过各种通用大模型一本正经胡说八道的时候吧,AI一通丝滑输出让人真假难辨,防不胜防。这种情况被称为。大模型产生幻觉不幸“翻车”的原因很大程度上是**“先天不足”**,例如训练时来自特定领域的训练数据就比较缺失或存在偏差等。对于企业,AI的幻觉已经成为阻碍其落地应用的严重缺陷。我们自然想让一些企业内部私有数据也进入到大模型推理分析的过程,让其更好服务于日常业务,但出于信息安全等考量,私有数据显然不可随意上传到第三方平台。针对这种情况,将企业内部知识库和大模型连接起来构建一个。
2025-02-28 15:02:04
1067
原创 大模型微调(Fine-tuning)全解,需要了解的都在这里
所谓大模型微调,指的在已有的大规模预训练模型基础上,通过对标注数据进行训练,进一步优化 模型的表现,以适应特定任务或场景的需求。不同于RAG或者Agent技术,通过搭建工作流来优化模型表现,微调是通过修改模型参数来优化模型能力,是一种能够让模型“永久”掌握某种能力的方法。
2025-02-28 15:01:11
1052
原创 面试题:大模型中不使用Dropout的原因?
后台回复"资料",即可获取整理好的算法面试题(大模型、深度学习、机器学习)大模型中不用dropout的主要原因有以下几点:使用dropout操作固然可以增加模型的泛化性,但其引入噪声会导致模型训练的不稳定性。考虑到现在的大模型都是深层结构,以及在训练过程中会使用损失低精度量化计算,加入dropout无疑会加重整体训练的不稳定性。这里提一嘴,貌似增加模型泛化性的操作好像都会影响到训练的不稳定性,如Moe的操作也需要很小心。
2025-02-28 15:00:08
370
原创 大模型之嵌入与向量化的区别是什么?零基础入门到精通,看这篇就够了!赶紧收藏!
嵌入是一种将高维、稀疏或非结构化数据(如单词、句子、图像)转换为低维、密集向量的方法,同时保留数据的语义或结构信息。
2025-02-22 16:41:21
773
原创 AI大模型入门基础教程(非常详细),AI大模型入门到精通,收藏这一篇就够了!
AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力,可以应用于各种领域,如自然语言处理、图像识别、语音识别等。
2025-02-22 16:40:01
961
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人