- 博客(336)
- 收藏
- 关注
原创 Spring Boot集成LangChain来实现Rag应用
LangChain 是一个用于开发由语言模型驱动的应用程序的框架。可以将 LLM 模型与外部数据源进行连接允许与 LLM 模型进行交互LLM 模型:Large Language Model,大型语言模型。
2025-04-01 11:59:41
618
原创 一文学会基于LangChain开发大模型RAG知识问答应用
RAG全称是Retrieval-Augmented Generation,即检索增强生成。通俗来讲,就是在用户提的问题的基础上,引入相关资料信息,把“问题+相关资料” 一起给大模型,让大模型在参考资料的约束或提示下回答问题而不是随意发挥,从而期望大模型生成质量更高、更准确的答案,改善大模型”幻觉“、训练数据过时、 知识范围有限等带来的负面问题。在涉及到专业领域知识或企业内部知识的应用场景中,这项技术发挥着重要作用。相比于,RAG时间成本、经济成本和技术难度都更低。
2025-04-01 11:57:55
788
原创 LangChain 大语言模型的新篇章
阿里妹导读本文介绍了LangChain框架,它能够将大型语言模型与其他计算或知识来源相结合,从而实现功能更加强大的应用。接着,对LangChain的关键概念进行了详细说明,并基于该框架进行了一些案例尝试,旨在帮助读者更轻松地理解LangChain的工作原理。引言近期,大型语言模型(LLM)如GPT系列模型引领了人工智能领域的一场技术革命。开发者们都在利用这些LLM进行各种尝试,虽然已经产生了许多有趣的应用,但是单独使用这些LLM往往难以构建功能强大的实用应用。
2025-04-01 11:57:14
563
原创 有史以来最详细的卷积神经网络(CNN)及其变体讲解!!!
卷积神经网络是多层感知机(MLP)的变种,由生物学家休博尔和维瑟尔在早期关于猫视觉皮层的研究发展而来,视觉皮层的细胞存在一个复杂的构造,这些细胞对视觉输入空间的子区域非常敏感,称之为感受野。
2025-04-01 11:56:41
568
原创 新手小白必看:大模型训练微调【Fine-tuning】详解(上)
一种是用Meta推出的Llama factory;另一种是用Unsloth这款工具;我们来看一下它们的之前的对比情况⬇️⬇️。
2025-03-19 15:35:24
948
原创 微调碾压RAG?大模型意图识别工程化实践
检索增强生成(Retrieval-Augmented Generation,RAG)指的是在LLM回答问题之前从外部知识库中检索相关信息,RAG有效地将LLM的参数化知识与非参数化的外部知识库结合起来,使其成为实现大型语言模型的最重要方法之一早期的神经网络模型,在处理需要依赖外部知识或特定信息的任务时遇到了瓶颈。LLM的问题:幻觉、依赖信息过时、缺乏专业领域知识。RAG的提出,是为了解决如何将广泛的、分布式的外部信息库与生成模型相结合,从而提高模型在问答、摘要等任务中的性能和准确度。
2025-03-19 15:33:31
1053
原创 利用大模型构造数据集,并微调大模型
目前大模型的微调方法有很多,而且大多可以在消费级显卡上进行,每个人都可以在自己的电脑上微调自己的大模型。但是在微调时我们时常面对一个问题,就是数据集问题。网络上有许多开源数据集,但是很多时候我们并不想用这些数据集微调模型,我们更希望使用某本书、某个作者的作品、我们自己的聊天记录、某个角色的对话来微调模型。用于微调的数据通常是成千上万的问答对,如果手工搜集,需要花费大量时间。文本将介绍一种方式,利用大模型来构造自己的数据集,并使用我们构造的数据集来微调大模型。
2025-03-19 15:31:45
1018
原创 大模型怎么做好角色扮演?最大的真实数据集、SoTA开源模型、最深入的评估在这里
角色扮演 AI(Role-Playing Language Agents,RPLAs)作为大语言模型(LLM)的重要应用,近年来获得了广泛关注。无论是用于情感陪伴、故事创作、游戏中的 AI 角色,还是真人的数字分身,都需要模型能够准确捕捉和模拟特定角色的设定、个性和行为模式。特别是当扮演小说、动漫中的知名角色时,模型需要获取并利用关于这些角色的大量知识。然而,现有的角色扮演 AI 面临两大核心挑战:缺乏高质量的真实角色数据集,以及缺少有效的评估方法。
2025-03-19 15:30:07
841
原创 大模型系列之LLaMA Factory微调学习
本文介绍了使用LLaMA Factory进行微调的步骤,包括环境搭建、数据准备、参数配置、训练和效果评估等,最终成功微调模型并使用Ollama部署,提升了模型表现,达到了预期的效果。有一点感受是跟之前接触的安全实验不太一样:大多数的安全实验都是我打了这个Payload,就一定会出现确定的结果,不管是弹计算器还是反弹Shell,一切都是确定的。而大模型的训练往往充满了玄学成分,可能需要多实验几次才知道什么是最优参数。
2025-03-19 15:29:34
1273
原创 【大模型实战教程】LLaMA-Factory微调入门指南
随着自然语言处理技术的飞速发展,预训练语言模型已成为推动各种NLP任务进步的关键力量。对于我们每一个普通用户或者作为个人兴趣的开发者来说,从0开始训练一个大规模语言模型无疑是一件十分困难的事。那么我们是否有机会接触到真正的大模型训练呢?答案是有的,利用当下丰富的开源的预训练大模型资源,通过LoRA微调等技术,我们可以对现有的预训练大模型进行特定方向的调整。如果你也想经过微调训练出自己的“定制款”大模型,那么这篇教程将是你的不二之选。
2025-03-18 14:03:24
817
原创 字节内部热捧“7种大模型微调的方法笔记”,太完整了
随着 ChatGPT 的爆火,很多机构都开源了自己的大模型,比如清华的 ChatGLM-6B/ChatGLM-10B/ChatGLM-130B,HuggingFace 的 BLOOM-176B。当然还有很多没有开源的,比如 OpenAI 的 ChatGPT/GPT-4,百度的文心一言,谷歌的 PLAM-540B,华为的盘古大模型,阿里的通义千问,等等。
2025-03-18 14:02:42
1124
原创 基于PyTorch的大语言模型微调指南:Torchtune完整教程与代码示例
本文介绍了如何使用PyTorch的Torchtune库进行大型语言模型(LLM)的微调。Torchtune提供了一套简单、灵活、高效的工具和框架,使得研究人员和开发者能够轻松地对LLM进行调试、训练和部署。文章详细介绍了Torchtune的设计原则、核心概念和主要特性,并通过一个完整的实例演示了如何使用Torchtune微调LLaMA-2-7B模型。此外,文章还介绍了两种参数高效的微调方法:LoRA和QLoRA。
2025-03-18 14:01:49
787
原创 零基础入门,DeepSeek微调实战代码教程!
微调就像给一个**“学霸”补课,让它从“通才”变成某个领域的“专家”**。此处以本文进行微调的医学数据进行举例: 假设你有一个很聪明的朋友,他读过全世界的书(相当于大模型的预训练阶段),能和你聊历史、科学、文学等各种话题。但如果你需要他帮你看医学报告段),能和你聊历史、科学、文学等各种话题。但如果你需要他帮你看医学报告,虽然他懂一些基础知识,但可能不够专业。这时候,你给他一堆医学书籍和病例,让他专门学习这方面的知识(这就是微调),他就会变得更擅长医疗领域的问题。功能。
2025-03-18 14:00:26
296
原创 深入浅出大模型:预训练、监督微调、强化学习、RLHF
2025年年初随着DeepSeek的爆火,人们对LLM(Large Language Model,大语言模型)兴趣与日激增,很多人觉得LLM常常显得近乎魔法般神奇。接下来我们就来揭开LLM的神秘面纱。我想退一步,拆解一下LLM的基本原理——深入探讨这些模型是如何构建、训练和微调,最终成为我们今天所使用的AI系统的。这篇深入解析是我一直想做的,如果你有时间,本文绝对值得一看。
2025-03-12 14:40:17
1151
原创 为啥大模型按Tokens收费?和API调用、订阅收费区别?
最近流行炫耀自己花了多少Tokens有人说它是AI世界里的“数字货币”只因【大模型按Tokens收费】平台收费标准是每100万tokens,收费16块钱这么一算,我今早花了3分钱↓账单显示每个问题回答完毕后,自动显示你消耗了多少tokens嘿嘿,有意思吧人类每次和大模型沟通聊天、写作、预测…都会消费一些 Tokens这时候,很多人就疑惑了啥是tokens?如何收费?和传统的API调用、订阅收费,有啥区别?↓不是直接用字或单词来计量而是文本经过模型分词器切分后得到的最小单位。
2025-03-12 14:39:44
1062
原创 终于读懂了大模型、智能体、AIGC,零基础入门到精通,看这篇就够了!赶紧收藏!
这几天清华、北大、浙大等诸多高校都在发布deepseek使用手册,但是真正从底层逻辑讲清楚大模型、智能体、AIGC的只有厦门大学团队了。今天给小伙伴们分享一下。一、大模型概念1.1 大模型通常指的是大规模的人工智能模型,是一种基于深度学习技术,具有海量参数、强大的学习能力和泛化能力,能够处理和生成多种类型数据的人工智能模型。通常说的大模型的“大”的特点体现在:参数数量庞大、训练数据量大、计算资源需求高。
2025-03-12 14:39:14
936
原创 一文搞懂七种大模型微调的方法,零基础入门到精通,看这篇就够了!赶紧收藏!
1️⃣ LoRA:轻盈低秩,微调新风尚LoRA,作为大模型微调领域的璀璨新星,以其独特的低秩逼近技术闪耀登场。通过在模型层间巧妙添加低秩矩阵,LoRA不仅精准捕捉任务精髓,还极大减轻了计算与存储负担。无需大刀阔斧,细微调整间尽显智慧光芒。2️⃣ Adapter-Tuning:小巧适配器,任务转换高手想象一下,给庞大的预训练模型装上一个个小巧的“适配器”,它们就是Adapter-Tuning的精髓所在。这些可学习模块无缝融入模型,让模型在保留原有智慧的同时,轻松驾驭新任务。
2025-03-12 14:38:23
923
原创 终于把深度学习中的微调、提炼和迁移学习搞懂了!!从零基础到精通,收藏这篇就够了!
微调(Fine-tuning):通过在预训练模型的基础上进行小范围的训练,适应新任务。提炼(Distillation,知识蒸馏):通过将大模型的知识转移到小模型,优化模型的效率和存储。迁移学习(Transfer Learning):将一个任务上学到的知识应用到另一个相关任务,解决数据不足的问题。这三者在实际应用中常常结合使用,根据具体的任务需求选择合适的技术,可以显著提升深度学习模型的效果和效率。黑客/网络安全学习路线。
2025-03-12 14:37:32
865
原创 大语言模型(LLM)入门学习路线图_llm教程,从零基础到精通,理论与实践结合的最佳路径!
Github项目上有一个,它全面涵盖了大语言模型的所需的基础知识学习,LLM前沿算法和架构,以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识,并推荐了一系列优质的学习视频和博客,旨在帮助大家系统性地掌握大型语言模型的相关技术。
2025-03-08 13:20:41
984
原创 AI大模型工程师学习路线,从零基础到精通,理论与实践结合的最佳路径!
学习大语言模型(Large Language Model, LLM)需要结合理论知识和实践操作。:掌握线性代数(矩阵运算)、概率统计(贝叶斯、分布)、微积分(梯度相关)。:理解监督学习、无监督学习、损失函数、优化算法(如梯度下降)。:学习神经网络(CNN/RNN)、反向传播、正则化技术(如Dropout)。:熟练使用Python及科学计算库(NumPy、Pandas)。:掌握PyTorch或TensorFlow,熟悉张量操作和模型训练流程。
2025-03-08 13:20:09
1035
原创 大模型学习?别慌!我这有份独家私藏路线图,直接抄作业!
大模型学习之路, 道阻且长, 但只要你坚持下去, 一定会有收获。别忘了分享给身边的小伙伴!本路线图为你提供了学习大模型的全面指南, 从入门到进阶, 涵盖理论到应用。如果你懒得自己找资料, 我的路线图直接“抄作业”就对了!
2025-03-08 13:19:38
843
原创 结合全网大模型学习路线的优缺点,目前最详细的大模型0基础入门学习路线!
我对比过现在网络上公开的大模型入门学习路线,都没有像我这份路线图一样会详细到告诉你每个阶段应该学什么、具体学习什么内容、看什么教材、学习方法、包括每个阶段学习后的总结。也是因为我想要做的非常非常细致,构思打磨了很长时间,所以没有在答应大家的时间发布出来。,只希望大家看在我这么幸苦的份上给个三连支持一下就OK。因为我的这份路线图是定位零基础也能学的,所以阶段一是学习数学基础,包括线性代数、微积分、概率统计和优化方法,包括每部分的具体学习内容和推荐学习教材都有。
2025-03-08 13:19:11
810
原创 大模型学习方法之——大模型技术学习路线,从零基础到精通,理论与实践结合的最佳路径!
经验总结:定期回顾学习过程,总结技术要点和实战经验跨学科融合:探索大模型在其它领域(如金融,法律,医疗等)等应用,扩展知识广度如果用一句话总结就是,学习——实践——再学习——再实践。。
2025-03-08 13:17:42
920
原创 大模型的发展潜力有多大?零基础入门到精通,看这篇就够了!赶紧收藏!
将大模型“装”进手机、融入供应链,带到办公室和生产线……2024年以来,不少国产大模型已经踏上和实体产业相融合的新赛道,加速多场景落地。今年《政府工作报告》明确指出,持续推进 “人工智能+”行动,将数字技术与制造优势、市场优势更好结合起来,支持大模型广泛应用,大力发展智能网联新能源汽车、人工智能手机和电脑、智能机器人等新一代智能终端以及智能制造装备。“支持大模型广泛应用”首次被写入《政府工作报告》,为人工智能产业发展注入了强劲动力。
2025-03-07 19:09:15
894
原创 最新「大模型简史」整理!从Transformer(2017)到DeepSeek-R1(2025)
语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。
2025-03-07 19:08:30
1203
原创 大模型入门的路很长,你敢走吗?零基础入门到精通,看这篇就够了!赶紧收藏!
大家好,我是吴师兄。作为大模型领域的“新兴战场”,越来越多的人在讨论如何入门、如何快速提升自己的能力。你是否也有过这样的困惑:想学大模型,但基础薄弱怎么办?到底该怎么学,才能在面试中脱颖而出?让我先给你一个简单的答案:学大模型不仅仅是做题、读文献那么简单,它关乎的是思维方式的转变,是对技术本质的深入理解。“大模型入门的路很长,你敢走吗?”首先,我得坦白说,大模型的学习不适合所有人,尤其是对于那些基础薄弱、没有相关项目经验的同学来说,这条路可能会比想象中的要艰难得多。有个朋友是26届的应届生,基础较为薄弱,没
2025-03-07 19:07:58
1014
原创 到底怎么才能拿到大模型offer?
大家好,我是吴师兄。在回答这个问题之前,我们首先要去了解一下什么大模,实际上不管是大模型的求职也好,我们现在的整个的这个求职也好,其实是一场。为什么很多的同学觉得求职就是现在这个环境这么差,找工作这么难,是因为大部分的同学我们都是摸着虾去求职的。他们的信息基本上来自于身边的同学,你准备了什么项目,你投了哪一个,这个公司我也投一下,那么很多的同学都是这样去求职的。
2025-03-07 19:07:25
815
原创 面试题:LLaMA在transformer的Decoder上做了哪些改进?
大家好,我是吴师兄。近年来,Meta开源的LLaMA系列大模型凭借其高性能和易用性,成为AI领域的焦点。。本文将深入解析LLaMA的四大核心技术革新。:将LayerNorm移到自注意力和前馈网络之前,如同给模型装上"稳压器",有效控制梯度传播幅度。:采用基于标准差的自适应归一化(Root Mean Square Normalization),相比传统LayerNorm减少15%计算量,训练速度提升20%且更稳定。这一组合拳使得LLaMA在千亿参数规模下仍能高效训练。
2025-03-07 19:06:45
574
原创 大模型综述:万字长文详解AI大模型的原理、应用与未来趋势(非常详细)零基础入门到精通,收藏这一篇就够了_大模型应用综述
在自然语言处理(NLP)和人工智能(AI)的浩瀚星空中,大语言模型(Large Language Models, LLMs)如同一颗璀璨的新星,正在改变我们与语言、与机器交互的方式。本章将带您踏上一段探索之旅,揭示大语言模型的发展历程、独特魅力及其在现实世界中的多彩应用。
2025-02-28 15:13:20
716
原创 100个AI岗位,00后就业首选AI赛道,应届大学生找工作收藏!
自从2022年11月30日Gatchap发布,AI如同一股强劲的浪潮,带着危机席卷了各行各业,不仅重塑了商业模式和工作流程,更是颠覆了传统就业思维,同时带来了前所未有的就业新机遇。麦肯锡全球研究院发布的《工作的新未来》报告显示:“在2030年至2060年间,将会有50%的现有职业被AI取代。”算一下就5年时间了,取中是2045年,也只是20年后。AI市场规模持续扩大是必然趋势,这直接带动了AI人才需求的增长。无论是大型跨国企业还是初创公司,都在积极招募具有AI相关背景的人才来推动技术创新和业务优化。
2025-02-28 15:12:33
652
原创 从理论到实践:RAG、Agent、微调等6种常见的大模型定制策略
大语言模型(LLM)是基于自监督学习预训练的深度学习模型,训练数据量庞大、训练时间长,并且包含大量的参数。LLM在过去两年中彻底改变了自然语言处理领域,展现了在理解和生成类人文本方面的卓越能力。然而,这些通用模型的开箱即用性能并不总能满足特定的业务需求或领域要求。LLM单独使用时无法回答依赖于公司专有数据或封闭环境的问题,这使得它们在应用中显得相对通用。由于从零开始训练一个LLM模型需要大量的训练数据和资源,这对于中小型团队来说基本不可行。
2025-02-28 15:08:51
936
原创 构建私人知识库的5个基本步骤
你好,我是郭震接下来,我将围绕AI大模型,为读者朋友们构建出AI大模型应用。今天,这篇咱们先看看,,把我们工作的历史数据构建为知识库,,效率直接起飞。构建知识库一种方法是使用LangChain,编写100行内代码,就可以自己开发一个基本的知识库,自己动手,丰衣足食。所以建议读者朋友们,一定要学习一些Python编程,应用人工智能,不会点Python编程,可能就只能借助工具,但工具只能解决通用问题。
2025-02-28 15:07:58
1035
原创 人人都可以创建个人知识库 从0到1,手把手教你基于 FastGPT 搭建本地私有化知识库!
当今环境,所有人都面临一个问题:信息过载。不知道你是否曾经遇到过以下困扰?在海量数据中搜索时,是否难以迅速找到所需的信息?在面对日益增长的专业知识,是否感到知识管理的需求愈发迫切?对于敏感数据的存储,是否时常害怕一不小心就会泄露关键信息?在日常工作中,是否因为工作效率不高而觉得时间不够用?如果这些场景让你感同身受,那么你一定在思考:是否存在一种方案,能够一举解决这些棘手的问题?
2025-02-28 15:06:49
1136
原创 AI大模型应用入门实战与进阶:构建你的第一个大模型:实战指南
AI大模型是指具有大量参数和复杂结构的人工智能模型。这些模型通常需要大量的计算资源和数据来进行训练,以实现高性能的预测和生成能力。近年来,随着计算能力的提高和数据量的增加,AI大模型在各种任务中取得了显著的成果,如自然语言处理、计算机视觉和强化学习等。AI大模型在近年来取得了显著的进展,但仍面临许多挑战和发展趋势,例如:模型压缩与加速:随着模型规模的增加,计算资源和存储需求也在不断增加。未来的研究需要关注如何压缩和加速大模型,以适应更多的应用场景。
2025-02-22 16:45:17
791
原创 普通人也能看懂的大语言模型入门,不要错过哦零基础入门到精通,看这篇就够了!赶紧收藏!
但首先,让我们从一些你可能经常听到的基本术语开始。什么是人工智能?•人工智能:一个实体,如果人类做类似的事情,人们可能会合理地称之为智能的行为。使用“智能”这个词来定义人工智能有点问题,但没有人能就“智能”的好定义达成一致。然而,我认为这种定义仍然相当合理。它基本上是说,如果我们观察到一些人造的东西,它做的事情既吸引人又有用,而且看起来有些非平凡,那么我们可能会称之为智能。例如,我们经常将“AI”这个术语归因于电脑游戏中的电脑控制角色。
2025-02-22 16:44:33
1008
原创 如何搭建个人AI知识库?零基础入门到精通,看这篇就够了!赶紧收藏!
以下内容来自newtype社群问答精选分享一下我的整体思路。我觉得方法都是次要的,因为每个人的需求、情况都不同——唯有思路可以借鉴。出发点和对应解法:第一,信息过载,无法逐一细细消化。所以需要AI辅助,通过总结、提炼等方式帮助我们先快速、大致掌握。第二,人脑不适合用来记东西,而应该用来做创造性的工作。所以需要“第二大脑 / Second Brain”来存储,需要AI根据语义进行检索(所有工具都有关键词检索,再加上语义检索就齐全了)。第三,记笔记是对信息做预处理。记笔记的目的,是增援未来的自己。
2025-02-22 16:44:03
1219
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人