- 博客(869)
- 收藏
- 关注
原创 大模型应用开发LangChain4j和SpringBoot3.4.3实战构建智能问答系统
LangChain4j 是一个用于构建和操作语言模型(LLM)应用的 Java 框架,而 Spring Boot 3 是 Java 生态中最流行的框架之一。本文将带你从零开始,结合 LangChain4j 和 Spring Boot 3,构建一个智能问答系统。我们将涵盖从环境搭建到实际开发的完整流程,帮助你快速上手 LangChain4j 并集成到 Spring Boot 项目中。上一篇文章分享了。
2025-04-01 11:46:49
897
原创 如何在 Java 中基于 LangChain 编写大语言模型应用
作者 | Kumar Chandrakant译者 | 张卫滨策划 | 张卫滨***,由 InfoQ 中文站翻译分享。***引 言在本教程中,我们将会研究 LangChain 的细节,这是一个利用语言模型开发应用程序的框架。首先,我们会介绍有关语言模型的基本概念,这将对本教程有一定的辅助作用。尽管 LangChain 主要提供了 Python 和 JavaScript/TypeScript 语言的版本,但是也有在 Java 中使用 LangChain 的可选方案。
2025-04-01 11:44:53
690
原创 一文带你了解RAG(检索增强生成) 概念理论介绍+ 代码实操
RAG(Retrieval Augmented Generation, 检索增强生成)是一种技术框架,其核心在于当 LLM 面对解答问题或创作文本任务时,首先会在大规模文档库中搜索并筛选出与任务紧密相关的素材,继而依据这些素材精准指导后续的回答生成或文本构造过程,旨在通过此种方式提升模型输出的准确性和可靠性。RAG 技术架构图介绍:富文本 主要存储于 txt 文件中,因为排版比较整洁,所以获取方式比较简单【版面分析——富文本txt读取】
2025-03-19 15:36:51
785
原创 LORA 微调大模型:从入门到入土。从零基础到精通,收藏这篇就够了!
模型在训练集表现优异(如 98% 准确率),但在验证集/测试集显著下降(如 70%),这种现象称为过拟合。本质是模型过度记忆了训练数据中的噪声和特定模式,导致泛化能力下降导致模型过拟合.
2025-03-19 15:07:28
1078
原创 LLM大模型训练工具,小白也能轻松搞定!
Axolotl 是一款旨在简化各种人工智能模型微调的工具,支持多种配置和架构。主要特点:示例:Llama-Factory使用零代码命令行与 Web UI 轻松训练百余种大模型,并提供高效的训练和评估工具。主要特点:示例:FirflyFirefly 支持对主流的大模型进行预训练、指令微调和 DPO。主要特点:示例:XtunerXTuner 由上海人工智能实验室发布,是一个高效、灵活、全能的轻量化大模型微调工具库。主要特点:高效灵活全能示例:Swiftms-swift是魔塔提供的大模型与多模态大
2025-03-19 15:06:04
764
原创 LLM大模型技术实战10:一文带你入门大模型开发框架Langchain
你可能听说过,最近几个月出现了很多人工智能的应用程序。你可能也在用一些这样的应用。比如ChatPDF和CustomGPT AI这些AI工具,它们可以帮我们省去很多麻烦,我们不用再翻来覆去地看文档,就能找到想要的答案。它们让AI为我们做了很多工作。那么,开发这些工具的人是怎么做到的呢?其实,他们都用了一个叫LangChain的开源框架。01*LangChain**简介**
2025-03-19 15:04:53
558
原创 Java开发者LLM实战——使用LangChain4j构建本地RAG系统
RAG(Retrieval-Augmented Generation)的核心思想是:将传统的信息检索(IR)技术与现代的生成式大模型(如chatGPT)结合起来。具体来说,RAG模型在生成答案之前,会首先从一个大型的文档库或知识库中检索到若干条。
2025-03-19 15:03:51
1069
1
原创 Java大模型开发框架LangChain4j从入门到精通:高级Api之AiServices对话记忆
上期我们介绍了low-level的api,这些API提供了高度的灵活性,允许开发者自由组合各个组件以满足复杂需求,但相应地,也带来了较高的编码工作量。为了平衡灵活性与开发效率,本期我们将聚焦于langchain4j的high-level API——AiServices,它以更高的封装度简化业务逻辑的实现,显著降低代码复杂度。AIServices集成了多种高级功能,如(如搜索引擎、数据库查询等)、以及(Retrieval-Augmented Generation)等,旨在帮助开发者快速搭建智能对话系统。
2025-03-19 15:02:02
1037
原创 大模型微调技术全景解析:从理论到企业级实践(Python实战增强版)
大模型微调(Fine-tuning)是指在预训练语言模型(Pre-trained Language Model, PLM)的基础上,通过特定领域或任务的数据进一步调整模型参数,使其适应下游任务需求的技术。
2025-03-18 14:05:35
1074
原创 从零开始的DeepSeek微调训练实战(SFT)
前言本文重点介绍使用微调框架unsloth,围绕DeepSeek R1 Distill 7B模型进行高效微调,并介绍用于推理大模型高效微调的COT数据集的创建和使用方法,并在一个medical-o1-reasoning-SFT数据集上完成高效微调实战,并最终达到问答风格优化&知识灌注目的。你能收获什么:亲手完成DeepSeek R1蒸馏模型的微调实战对模型微调、推理数据集等知识有一定了解对大模型运行的机制和原理有一定的了解有机会制作一个属于自己的定制化大模型。
2025-03-18 13:55:03
945
原创 一网打尽!5大深度学习模型!RNN、CNN、Transformer、BERT、GPT
深度学习,在人工智能领域不断取得了发展成就。其中,RNN、CNN、Transformer、BERT以及GPT五种深度学习模型,凭借其独特的优势,在计算机视觉、自然语言处理等诸多领域实现了重要突破。本文将从四大维度——关键技术、数据处理、应用场景以及经典案例,对这五种模型进行简要介绍。首先,在关键技术方面,这五种模型各具特色,它们通过不同的算法和结构来提取数据中的深层信息,实现了高效的特征学习和模式识别。时间:起始于20世纪90年代关键技术:依托独特的循环结构与记忆单元。
2025-03-18 13:53:47
1031
原创 一文搞懂NLP框架之RNN、LSTM、Transformer结构原理!
NLP领域中,特征提取可谓是经历了显著的“变迁”与发展。回首过往,RNN曾以其独特的序列建模能力一度引领潮流,如今正如同明日黄花,逐步淡出历史舞台。紧接着,LSTM以解决长时依赖问题的独特设计展现出强大的生命力,虽已非最前沿,却仍老骥伏枥,若能进一步优化,其潜力不可小觑。而今,Transformer架构如日中天,凭借自注意力机制彻底革新了特征提取的方法,已在NLP诸多任务中发挥着中流砥柱的作用。
2025-03-18 13:53:14
1042
原创 终于有人总结了神经网络模型!
全连接神经网络为深度学习的主流架构,包含输入、隐藏和输出三层。每层神经元与前一层所有神经元直接连接。连接信号经权重加权、加偏置后,通过非线性激活函数处理,通过非线性函数的级联,将输入映射到输出空间。
2025-03-18 13:52:42
474
原创 如何在Spring Boot中无缝集成LangChain4j,玩转AI大模型!
今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。有需要的小伙伴,可以点击下方链接免费领取【保证100%免费点击领取 《AI大模型&人工智能&入门进阶学习资源包》
2025-03-18 13:52:11
801
原创 告别CoT,迎接CoD:解决了推理大模型的延迟问题
CoD(Chain of Draft,草稿链)是一种新颖的提示策略,旨在提高 LLM 在推理任务中的效率。与传统的 CoT(Chain-of-Thought,思维链)方法强调逐步、详细的推理过程不同,CoD 借鉴人类的认知过程,鼓励模型生成简洁但信息丰富的中间推理输出。通过减少冗长性并专注于关键信息,CoD 在各种推理任务中匹配或超越了 CoT 的准确性,同时仅使用了 7.6% 的 token,显著降低了成本和延迟。极简中间草稿。
2025-03-12 14:31:31
678
原创 RAG从入门到精通系列5:Indexing(索引)零基础入门到精通,看这篇就够了!赶紧收藏!
对每个聚类生成一个摘要。例如,对于“神经网络优化”类别,摘要可能是:“该类文档主要探讨了神经网络的超参数优化方法,包括梯度下降的改进、优化器选择和自动化调参工具。
2025-03-12 14:31:00
833
原创 深入理解RAG中的嵌入模型Embedding Model
在学习嵌入模型之前,我们需要先了解什么是Embedding。简单来说,Embedding是一种将离散的非结构化数据(如文本中的单词、句子或文档)转换为连续向量的技术。在自然语言处理(NLP)领域,Embedding通常用于将文本映射为固定长度的实数向量,以便计算机能够更好地处理和理解这些数据。每个单词或句子都可以用一个包含其语义信息的向量来表示。Embedding常用于将文本数据映射为固定长度的实数向量,从而使计算机能够更好地处理和理解这些数据。每个单词或句子都可以用一个包含其语义信息的实数向量来表示。
2025-03-12 14:30:08
1360
原创 大模型相关工作面试必备:私有部署deepseek不同版本的硬件参数,从零基础到精通,收藏这篇就够了!
越来越多的企业想要私有部署DeepSeek,不同参数版本的模型,需要的硬件配置是不一样的,其中GPU型号对整体硬件成本影响很大。以下供大家参考。显卡:NVIDIA RTX 3060(12GB)或RTX 4060(8GB)内存:16GB DDR4存储:512GB SSD优化策略:FP16量化 + CPU/GPU混合推理单卡方案:约4,000-6,000元(消费级显卡)适用场景:个人开发者调试、轻量级对话服务显卡:NVIDIA RTX 4090(24GB)或A5000(24GB)
2025-03-12 14:29:28
1058
原创 大型语言模型微调Fine-Tuning技术——14种主流方法的原理、适用场景及实践指南
BitFit对微调机制的一种积极探索,也很简单,通过仅调整 bias 效果就能有不错的效果,但没有具体阐述原理,就是通过猜测加实验得到的结果。同时,作者提出一个观点:微调的过程不是让模型适应另外的数据分布,而是让模型更好的应用出本身的表征能力。特点:训练参数量极小(约 0.1%)。在大部分任务上效果会差于 LoRA、Adapter 等方法。在每一个 Transformer 层都带上一些 virtual token 作为前缀,以适应不同的任务。
2025-03-12 14:28:49
1046
原创 大模型(LLM)专家精通之路(含学习路线图、书籍、课程等免费资料推荐)
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。:对于每个提示,使用训练好的模型生成多个响应,并对这些响应进行评分,以推断出被选择和被拒绝的答案。:这些模型(如CLIP、Stable Diffusion或LLaVA)能够处理多种类型的输入(文本、图像、音频等),并使用统一的嵌入空间,从而解锁了强大的应用,例如文本到图像的生成。
2025-03-08 13:10:20
1058
原创 大模型技术学习过程梳理,从零基础到精通,理论与实践结合的最佳路径!
从大的方向上来说,大模型从技术到应用,主要涉及到以上几个大的模块;而每个模块又涉及到大量的技术和细节。比如打造不同任务的神经网络模型,强化学习,迁移学习,知识蒸馏,分布式训练与存储等;以及RAG使用的向量检索,向量数据库,语义理解等,还有复杂任务的思维链(CoT),模型训练使用的LoRa等微调方法。还有多模态模型中的知识对齐,数据融合等复杂技术。基于大模型开发的人工智能机器人,感兴趣的可以点击查看:
2025-03-08 13:09:49
843
原创 从0入门大模型,看这5本就够了!从零基础到精通,理论与实践结合的最佳路径!
随着人工智能技术的飞速发展,大模型已经成为推动这一领域进步的核心力量。它们通过处理海量数据,学习复杂的模式和关系,为各种应用提供了强大的智能支持。从语音识别到自动驾驶,再到个性化推荐系统,大模型正在不断地改变我们的生活和工作方式。然而,对于初学者来说,大模型的世界可能显得既神秘又难以接近。熟练掌握大模型的知识和技能在未来职场将是一项基本要求。无论是为了提升自己的技术能力,还是为了在职场上保持竞争力,了解和应用大模型都十分有必要。
2025-03-08 13:09:15
671
原创 从零开始学习大模型学习路线,从零基础到精通,理论与实践结合的最佳路径!
随着技术的进步,大模型如OpenAI的GPT-4和Sora、Google的BERT和Gemini等已经展现出了惊人的能力-从理解和生成自然语言到创造逼真的图像及视频。所以掌握大模型的知识和技能变得越来越重要。**数学基础:**深入理解线性代数、概率论和统计学、微积分等基础数学知识。**编程基础:**熟练掌握至少一种编程语言,推荐Python,因为它是数据科学和机器学习领域的主流语言。**机器学习基础:**学习机器学习的基本概念、算法和模型,如线性回归、决策树、随机森林、支持向量机等。
2025-03-08 13:08:45
870
原创 别只会用别人的模型了,自学Ai大模型,顺序千万不要搞反了!刚入门的小白必备!从零基础到精通,理论与实践结合的最佳路径!
大家可以按照这个路线进行学习。
2025-03-08 13:08:12
535
原创 3W4000字 大模型评估全解析:方法、指标与框架,零基础入门到精通,看这篇就够了!赶紧收藏!
大模型评估全解析:方法、指标与框架🕙发布时间:2025-02-24❝本文字,分了知乎【公众号【】【开篇:大语言模型评估的重要性首先,通过下面的表格来了解传统机器学习、深度学习和大语言模型之间的区别。大语言模型的出现为解决以往被认为不可能的问题开辟了新途径。但有一个问题仍待解答:如何有效地评估基于大模型的应用程序呢?在本文中,我们将试图揭开这个谜题,了解用于基准测试大语言模型的方法,讨论最前沿(SOTA)的方法、可用的框架,以及评估基于大语言模型的应用程序时面临的挑战。
2025-03-07 19:01:16
861
原创 3W6000字了解大模型LLM:部署、优化与框架。零基础入门到精通,看这篇就够了!赶紧收藏!
由于我们提到的所有这些挑战,连续批处理被提出来解决这些问题。
2025-03-07 19:00:19
910
原创 深度剖析25种RAG变体:全网最全~没有之一
❝本文28000字符,阅读时长~~ 看速度 每种框架均配有框架示意图。本文全面、深入探讨了 25 种 RAG 变体。从基本的标准 RAG 到 CRAT 和 Graph RAG 等高级框架 — 详细的架构、组件细分、流程和具体的代码级实现,以实现 LLM 的动态、实时增强。欢迎关注公众号与如果您有任何问题或建议,欢迎在评论区留言交流!主流RAG框架可以分为以下五个主要的进化方向:成本控制型(适合初创公司)、实时互动型(适用于财经/新闻场景)、域专家类型、认知增强型、安全与合规类型。
2025-03-07 18:59:44
804
原创 全网最全的神经网络数学原理(代码和公式)直观解释 ,全网最全,没有之一
📖阅读时长:120分钟🕙全网首发时间:2025-01-11本文字符数超3W,共计37张图,每张图均配有python代码和公式解释欢迎关注知乎和公众号的专栏内容知乎LLM专栏知乎【公众号【】【人工神经网络是最强大的机器学习模型,同时也是最复杂的机器学习模型。它们对于传统机器学习算法无法完成的复杂任务特别有用。神经网络的主要优势在于它们能够学习数据中复杂的模式和关系,即使数据是高度维的或非结构化的。许多文章都讨论了神经网络背后的数学。
2025-03-07 18:59:18
974
原创 有了知识库,AI才真正能发挥作用!
大年初一那天给大家分享了在本地部署DeepSeek-R1大模型的方法,那个视频已经突破了100万播放量。正月初四,我又给大家分享了在本地部署DeepSeek-R1的基础上,再构建自己的知识库,让大模型基于自己的知识库进行创作。下面是视频(7万人观看):具体的过程,视频中已经是手把手详细教大家了,我就不再用图文的方式再讲一遍了。
2025-02-28 14:58:04
636
原创 如何通过AI搭建自己的知识库(智能体)?零基础入门到精通,看这篇就够了!赶紧收藏!
"扣子"是由字节跳动公司于2024年2月1日推出的一款集成AI智能体开发平台。它开创了国内AI聊天机器人快速开发的先河。▲扣子首页下面是扣子平台创建Bot的页面,对于初次使用的伙伴来说功能确实很多,但不知道从何下手搭建智能体。▲扣子智能体搭建页面。
2025-02-28 14:57:04
3619
原创 一文说清楚什么是预训练(Pre-Training)、微调(Fine-Tuning)零基础入门到精通,看这篇就够了!赶紧收藏!
预训练和微调是现代AI模型的核心技术,通过两者的结合,机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力,而微调则确保了模型能够根据特定任务进行细化和优化。1. 什么是预训练?1.1 预训练的关键点1.2 通俗类比2. 什么是微调?2.1 微调中的关键点2.2 通俗类比3. 预训练与微调的区别4. 总结– 领取学习资料大礼包,见文末近年来,人工智能(AI)在各个领域的突破性进展,尤其是在自然语言处理(NLP)方面,引起了广泛关注。
2025-02-28 14:56:03
905
原创 【深度学习】DeepSeek核心架构-MLA:剖析低秩联合压缩优化KV缓存、提升推理效率的技术细节
DeepSeek的基本架构仍然在Transformer框架内,每个Transformer模块由一个注意力模块和一个前馈网络组成。为实现更高效的推理和更经济的训练,在注意力和前馈网络部分,设计并使用了创新的MLA(Multi-Head Latent Attention)和DeepSeekMoE 架构。本文将从MLA的提出背景、技术原理、解耦RoPE策略及MHA与MLA的缓存对比方面进行详细阐述。!!
2025-02-28 14:55:25
749
原创 自己电脑搭建个人知识库,一般电脑也能玩(支持通义千问、GPT等)。零基础入门到精通,看这篇就够了!赶紧收藏!
既不花钱,一般电脑又能玩的方案,一句话总结:本地大模型(qwen:7b)+ 文档搜索工具(whoosh)使用此方案搭建的LLM+个人知识库,网页界面demo如下:若提问内容在我们的文档系统中,输出哪些文档命中,包括内容,然后大模型Qwen自动对内容进行深度分析。总体来说,这种模式充分发挥了高性能检索+LLM问答的两者优势,用起来还是挺舒服的。
2025-02-28 14:54:55
961
原创 「AI 智能体:从0到精通」教你创建你的第 1 个知识库(小白入门篇)
图片类型的知识库,也可以把它当作一个线上的图片存储空间。也可以结合上画板、光影融合、叠图等等插件工具,可以做出很多「付费功能」嗯,没错,在外面一些应用中,要「付费」才能使用的功能所以去复刻他们吧~让他们看看 AI 赋能的威力,hhhh瑞思拜~
2025-02-28 14:53:07
1146
原创 什么是神经网络?神经网络开发框架——PyTorch和架构Transformer的区别和联系
PyTorch就是工具,而Transformer就是理论;而理论指导工具。我们都知道大模型的本质是一个神经网络模型,因此我们学习大模型就是在学习神经网络模型;但了解了很多关于神经网络的理论,但大部分人对神经网络都没有一个清晰的认识,也就是说神经网络到底是什么?它长什么样?事实上所谓的神经网络本质上就是一个数学模型,里面涉及大量的数学运算;只不过其运算的主要数据类型是——向量,具体表现为多维矩阵。PyTorch和Transformer在神经网络的学习研究过程中,有两个东西是绕不过去的;
2025-02-22 16:37:13
946
原创 大模型训练之训练数据准备,即怎么准备高质量的训练数据集?零基础入门到精通,看这篇就够了!赶紧收藏!
训练数据集的质量是大模型的主要生命线之一,数据集质量直接影响到模型的性能和效果训练一个高性能且表现较好的模型是由多种因素决定的,比如模型的设计,损失函数与优化函数的实现,训练方式的选择;当然也包括高质量的训练数据。那么,怎么才能得到一个高质量的训练数据集呢?这个就是我们今天需要讨论的问题。训练数据集的准备机器学习和深度学习模型的性能高度依赖于训练数据的质量和数量;训练数据的准备工作对于构建一个高效可靠的模型至关重要。
2025-02-22 16:36:36
1809
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人