自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(480)
  • 收藏
  • 关注

原创 基于大模型与Embedding技术的智能金融运营助手系统研究与实践

基于上述提升问答准确度的解决方法,中信建投证券股份有限公司构建了智能金融运营助手系统(如图1所示)。图1 智能金融运营助手系统架构答疑机器人以企业微信工作群机器人的形式对外提供服务,结合智能投顾运营材料,为客户经理提供投顾产品介绍、签约形式说明、收费情况介绍、签约异常问题解决、自动转办人工处理等运营支持。投顾专家助手、投研助手以PC客户端的形式提供服务,通过对行情、研报、资讯、财报、新闻、交易、持仓、浏览数据等所有与投顾服务相关的信息进行学习和归纳总结,给出专业观点、投资建议等,且支持信息溯源。

2025-03-12 11:37:53 924

原创 大模型书籍分享(附PDF)大模型时代:ChatGPT开启通用人工智能浪潮

讲述ChatGPT大模型的前世今生和台前幕后。

2025-03-12 11:34:34 982

原创 LLaMA-Factory 大模型微调超简单,从零开始玩转大模型微调

和。

2025-03-11 12:00:15 1171

原创 使用LLaMA-Factory快速训练自己的专用大模型

本文聊聊 LLama-Factory,它是一个开源框架,这里头可以找到一系列预制的组件和模板,让你不用从零开始,就能训练出自己的语言模型(微调)。不管是聊天机器人,还是文章生成器,甚至是问答系统,都能搞定。而且,LLama-Factory 还支持多种框架和数据集,这意味着你可以根据项目需求灵活选择,把精力集中在真正重要的事情上——创造价值。使用LLama-Factory,常见的就是训练LoRA模型,增强模型在某方面的生成能力。

2025-03-11 11:56:43 1246

原创 大模型新书抢读 | Hands-On Large Language Models,程序员必备!

通过直观的讲解、实践案例和丰富的图示,本书致力于为探索 LLM 世界的读者提供坚实的基础。无论你是 LLM 领域的资深开发者,还是刚开始探索 AI 的新手,这本书都能带你从理论到实践,手把手教你掌握前沿的大模型技术,开始构建属于自己的 LLM 应用。从标记化、嵌入到 Transformer 架构和注意力机制,本书通过精美的图表、详尽的讲解和代码示例,帮助你轻松掌握 LLM 的技术原理。本书聚焦于实际问题的解决,无论是搜索优化、数据处理,还是模型定制化微调,都能为你的业务场景提供直接的指导。

2025-03-10 15:22:48 759

原创 大模型Dify案例分享-知识库检索整合Ragflow

​ 关于ragflow 安装比较复杂,大家可以去开源github上查看它的安装,本次就不带大家安装了。​ 项目开源地址:https://github.com/infiniflow/ragflow​ 项目文档: https://ragflow.io/docs/dev/​ 目前这个项目用到的组件比较多,用到Elasticsearch、Kibana、MySQL、MinIO、Redis、RAGFlow等,大家可以参考官方文档部署好应用程序。​ 这里我们需要注意的几点。

2025-03-10 15:17:58 2052

原创 神仙级AI大模型入门教程(非常详细),从零基础入门到精通,从看这篇开始

AI大模型是指拥有极大参数量(通常在亿级甚至百亿级以上)的深度学习模型。这些模型经过大规模数据训练后,能够自动生成文本、回答问题、进行翻译等。它们的核心是深度学习,即使用多个神经网络层来提取数据特征。

2025-03-08 14:47:09 1815

原创 0天复刻Manus通用智能体,完全开源!GAIA Benchmark最强性能!

对比项ManusOWL代码闭源开源获取难度内测+天价邀请码GitHub一键clone工具链固定自由外挂执行环境云端私有云端+本地任选价格某鱼几万免费+随缘Star总结一句:Manus是高冷AI精英,🦉OWL是贴心打工老黄牛,开源和灵活度直接拉满!

2025-03-08 14:34:29 1094

原创 AI大模型agent LangChain入门环境搭建2025最新

Ubuntu 18或20都可以。

2025-03-08 14:32:25 793

原创 从0到1开发一个商用 Agent(智能体)

这个节点就是大模型的配置,在这里我们需要大模型帮我总结文章内容,提炼文章关键词。红框 1:此处可以选择不同的模型来处理,不同的提示词在不同的模型下表现有时候是不一致的,所以这里需要注意的是在当前这个场景下根据大模型的特点,选定模型后,再去写系统提示词和用户提示词。红框 2:输入,可以将上个节点输出的参数标题和内容传到这里。

2025-03-07 18:14:46 1305

原创 DeepSeek:“Manus——通用AI Agent的突破性革新”

Manus的崛起不仅是技术的突破,更是AI从“辅助工具”向“生产力主体”转型的标志。在ChatGPT与DeepSeek主导的生成式AI生态中,Manus开辟了具身智能的新赛道,其“执行即服务”模式或将成为下一代AI应用的核心范式。

2025-03-07 18:11:52 969

原创 比DeepSeeK更牛?从爆火的Manus 看 AI Agent 的价值重构与 2025 年 AI 发展趋势

尽管 Manus 标志着重大突破,AI Agent 仍面临三重瓶颈:开放式任务局限:当前系统擅长标准化作业(如报告生成),但对创造性需求(如品牌策划)处理能力有限。需引入对抗生成网络提升创新性。个性化适配成本:企业定制需求与通用性存在矛盾,Monica.im 采用 “基础版 + 行业套件” 模式平衡两者,但医疗等强监管领域仍需突破合规壁垒。能源效率约束:运行复杂 Agent 的算力消耗高达传统 ChatBot 的 20 倍,需通过神经架构搜索(NAS)优化能耗比。

2025-03-07 18:10:32 1317

原创 今年读过最绝的一本大模型书,读完你就是 LLM 大师!

为了帮助大众更好地理解和应用这一技术,Jay Alammar和Maarten Grootendorst联合推出的《动手学大语言模型》一书,为读者提供了一本全面且实用的指南。

2025-03-05 14:07:13 970

原创 一文说清大模型微调的6种方法!零基础入门到精通,看这篇就够了!赶紧收藏!

*预训练模型:**是在大规模数据上进行无监督或自监督学习训练得到的模型。例如在自然语言处理中,像 BERT(Bidirectional Encoder Representations from Transformers)、GPT(Generative Pretrained Transformer)系列等都是典型的预训练模型。这些模型通过学习大量文本数据中的语言模式、语义信息和语法结构等知识,形成了对语言的深度理解能力。**预训练过程:**在预训练阶段,模型会接触海量的数据。

2025-03-05 13:56:54 1234

原创 深入浅出大模型:预训练、监督微调、强化学习、RLHF

2025年年初随着DeepSeek的爆火,人们对LLM(Large Language Model,大语言模型)兴趣与日激增,很多人觉得LLM常常显得近乎魔法般神奇。接下来我们就来揭开LLM的神秘面纱。我想退一步,拆解一下LLM的基本原理——深入探讨这些模型是如何构建、训练和微调,最终成为我们今天所使用的AI系统的。

2025-03-04 17:25:59 847

原创 浅谈大模型以及大模型私有化+精调:面向垂直行业与特定场景之需!

大模型私有化(Model Private Deployment)指的是将预训练的大型人工智能模型(如GPT、BERT等)部署到企业自己的硬件环境或私有云平台上。与公有云服务或模型即服务(Model-as-a-Service)相比,私有化部署能够给企业带来更高级别的数据安全性和自主控制能力。对数据隐私和安全要求高、需要自主控制AI模型运行环境的企业而言,或者在特定地理位置因法律法规限制不能使用公有云服务的情况下,这种需求是确实存在的。

2025-02-26 11:28:13 1229

原创 本地私有化RAG知识库搭建—基于Ollama+AnythingLLM保姆级教程

检索增强生成(Retrieval-Augmented Generation,RAG)是一种结合了信息检索和语言模型的技术,它通过从大规模的知识库中检索相关信息,并利用这些信息来指导语言模型生成更准确和深入的答案。这种方法在2020年由Meta AI研究人员提出,旨在解决大型语言模型(LLM)在信息滞后、模型幻觉、私有数据匮乏和内容不可追溯等问题。即:RAG 就是可以开卷回复的 LLM‍。

2025-02-26 11:26:27 912

原创 白话科普 | 看完即可上手DeepSeek训练,构建专属大模型,LoRA技术让你轻松训练行业大模型

微调(Fine-tuning)是指在已经训练好的大模型基础上,针对特定任务或场景进行进一步训练的过程。与从零开始训练一个模型相比,微调可以大幅降低时间、计算资源和数据的需求。举个例子,假设你有一个通用的大语言模型,它可以回答各种问题,但对医疗领域的专业术语并不熟悉。这时,你可以通过微调,用少量医疗相关的数据重新训练这个模型,让它成为一位“医疗专家”。

2025-02-25 11:39:23 962

原创 手把手教你用LangChain打造会思考的AI助手(附代码)

想象你家有个智能扫地机器人,它工作时是不是这样的?这就是典型的:这个管家会循环执行"观察环境->思考决策->执行动作"的完整流程,就像人类处理问题一样。这种模式是LangChain智能体的底层逻辑基础。现在咱们升级难度!:这里用到了LangChain的能力,AI会根据当前情况自主选择工具,就像人类在不同场景下选择不同APP一样。要让AI真正像人一样工作,必须解决记忆问题。A:就像单兵作战和集团军的区别!

2025-02-24 11:59:58 840

原创 爆火的清华大学DeepSeek手册【全集五版】

篇幅有限,扫码免费领取

2025-02-24 11:57:30 394

原创 《大模型白盒子构建指南》毕业,仅需2G显存,手搓关于LLM的一切!

为什么要做这样一个项目?作为一名学习者,我在初尝深度学习的时候,就喜欢 line-by-line 研读代码。从踏上研究这条道路时,深感能得到一份优质的开源代码有多么的不容易,基本每一行都不舍得掠过,研读完每一处细节才肯放下…这种对于优质材料打破沙锅问到底的方式是我的学习习惯,我和项目的伙伴们也一直受益于此学习方式。基于此,伙伴们和我决心为 LLM 系列开创一个从零手搓的教程,帮助更多学习这门深入了解 LLM 的每一处细节,让“黑箱”从此消失!!

2025-02-22 16:49:46 756

原创 2025想转行AI大模型?这份指南必看!从入门到精通

2025年,AI大模型将成为改变世界的力量。无论你是初学者,还是有一定经验的从业者,只要抓住这个机会,你就能站在AI技术的最前沿。现在就行动起来,开启你的AI大模型之旅吧!未来已来,你准备好了吗?

2025-02-20 11:02:25 1459

原创 K8S 1.30环境中私有化部署 Ollama 和 DeepSeek-R1(671B模型)

Ollama主要集中在本地化部署大型语言模型,帮助用户实现无需云端的 AI 模型部署,关注隐私保护和本地化计算。DeepSeek主要侧重于利用深度学习技术改进搜索和信息检索,通过语义理解优化传统的搜索引擎,特别适用于大规模数据集的处理和智能推荐。这两个工具都在各自领域中推动了 AI 技术的应用和发展,Ollama 更专注于本地化的 AI 模型应用,而 DeepSeek 更注重语义搜索和智能信息检索。

2025-02-20 10:59:28 1013 1

原创 学习Transformer,应该从词嵌入WordEmbedding开始

这里我先笼统、概述的说一下Embedding技术。实际上,只要是使用深度学习模型处理NLP问题;都需要在模型中添加,Embedding层。例如,在下面的llama3架构中:其中的2号位置,就是词嵌入层。Embedding层用于将离散的单词数据,转换为连续且固定长度的向量:这样使模型才能处理和学习这些数据的语义信息。例如,我们希望将“Are you OK?”这句话,作为神经网络模型的输入。此时神经网络是没办法直接处理这句文本的。我们需要先将“Are you OK?

2025-02-20 10:57:03 751

原创 阿里大模型面试:不懂后训练,是真的不太行

今年工业界陆续开源了多款优秀的大语言模型,并放出了技术报告,本文整理工业界主流开源LLM的后训练方案,着重介绍训练算法和数据处理部分。

2025-02-19 17:04:31 1136

原创 Agentic RAG:对标准RAG(增强检索生成系统)的能力增强

一个简单的 RAG 由一个检索组件(通常由嵌入模型和向量数据库组成)和一个生成组件(一个LLM)构成。在推理时,用户查询的问题在索引文档中进行相似性搜索,检索出与问题最相似的文档,并为LLM提供额外的上下文。它通过整合外部知识源来增强传统的大语言模型 (LLM),使LLM能够访问和利用除初始训练数据之外的其他大量信息。可以将 RAG 想象为一位学者,除了拥有自己的知识外,还可以即时访问到一座全面的图书馆。RAG架构典型的 RAG 应用有两个显著的局限性。

2025-02-18 11:56:23 1023

原创 【AI】DeepSeek+Dify构建知识库、Agent(智能体)、工作流、聊天助手

昨天看到一个网友说"不会使用DeepSeek,那么这东西到普通人手里,就是百度Plus版",这么说也不无道理。为什么DeepSeek会掀起这么大的浪潮,是因为过去我们想实现的很多事情都要基于机器对自然语言的理解,比如机器人发展了很久,现在有了机器狗、人形机器人,但还是需要遥控去控制,而不具备自主思维。再比如刚出来的Gpt、文心一言,更像是拼凑起来的文字,具有浓重的程序化风格。

2025-02-18 11:40:16 6455

原创 DeepSeek R1+Ollama+Chatbox本地模型部署

要使用 Ollama 和 Chatbox 实现 DeepSeek R1 的本地 AI 助手,你需要完成以下几个步骤。这个过程包括。

2025-02-17 13:51:33 983

原创 2025最新DeepSeek 从入门到精通干货驯化手册2.0版本 | 112页!,完整版PDF免费分享!

通过 7 大场景和 50 大案例,知晓在日常生活、家庭教育、职场等领域的具体用法;借助全套提示词,学会与 DeepSeek 有效沟通,提高使用效率,解决各类实际问题。三、日常生活中,可以用 deepseek 解决哪些问题?五、职场工作中,可以用 deepseek 解决哪些问题?六、老板创业者,可以用 deepseek 解决哪些问题?四、家庭教育,可以用 deepseek 解决哪些问题?七、自媒体人,可以用 deepseek解决哪些问题?八、如何把 deepseek 变成你的私人投顾?

2025-02-17 13:47:40 437

原创 AI: Unsloth + Llama 3 微调实践,基于Colab

在深入之前,我们先简单了解一下什么是大语言模型。我们可以把它们想象成超级聪明的“鹦鹉”,它们通过阅读大量的文本(比如书籍、文章、网页)来学习语言。学完之后,它们就能做很多事情,比如:回答问题:就像一个知识渊博的助手。写文章:可以写各种类型的文本,比如新闻、故事、代码。翻译语言:把一种语言翻译成另一种语言。进行对话:就像一个聊天机器人,可以和我们对话。Llama 3 就是这样一种大语言模型,而且它是开源的,这意味着我们可以免费使用和修改它。

2025-02-15 11:43:31 995

原创 DeepSeek 服务器繁忙?这里有 100 个解决方案。。。

可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。这里需要提醒一下,硅基流动满血的 DeepSeek-R1 需付费使用,好在我们注册时,它送的 2000 万token 够我们 1 万次左右的对话了,足够大多数人日常使用了。浏览器打开 https://openrouter.ai/chat 后,用邮箱注册后,点击添加模型按钮,选择 DeepSeek R1,就能愉快的聊天啦。

2025-02-15 11:36:59 923

原创 放弃没用的本地部署残血版DeepSeek吧,教你如何白嫖满血版DeepSeek

春节期间,热度最高的当属DeepSeek了,嘟嘟春节期间也各种安利身边朋友使用DeepSeek,但是随着时间的发酵,大家会发现DeepSeek经常不能用,那是因为DeepSeek受到了大规模恶意攻击,IP地址都在美国。​下面这个是查看DeepSeek状态的网站:​​可以发现,最近标红的就是故障中​如果你遇到使用的时候,提示服务器繁忙,就大概率是被攻击了由于DeepSeek是开源生态,模型都提供了,所以有一种解决方案是本地部署,然后利用一些第三方软件来接入这个模型来使用。

2025-02-14 11:14:38 1130

原创 一步步将DeepSeek R1微调成一个DeepDoctor(资深医生)

为了应对 DeepSeek R1 的发布,OpenAI 推出了两个强大的工具:一个更先进的推理模型:o3,以及 Operator AI Agent,依托全新的计算机使用 Agent(CUA,Computer Use Agent)模型,能够自主浏览网站并执行任务。可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。该提示将引导模型逐步思考,并提供一个逻辑严谨、准确的回答。

2025-02-13 11:46:19 1248

原创 34k star!利用DeepSeek快速构建私有知识库

产品文档、技术资料等关键信息存储于不同位置,导致检索耗时且效率低下。:新员工入职培训需反复讲解基础内容,增加了时间成本与人力投入。:客户咨询问题高度重复,但依赖人工响应,难以实现规模化处理。:企业内部知识资产缺乏系统化沉淀与复用机制,导致经验流失。:参考资料缺乏统一管理与智能化检索方案,传统文档管理系统仅支持基于目录或关键词的简单搜索,无法满足精准需求正是为解决这些痛点而生。传统的文档管理系统只能按目录存储和搜索关键词,而商业AI助手又无法导入私有数据。发文时github上现已34K stars.

2025-02-13 11:37:00 689

原创 5分钟带你解读清华团队出品《DeepSeek:从入门到精通》手册,结构清晰!

对比推理模型(如DeepSeek-R1)与通用模型(如GPT-4)的本质差异,提出「快思慢想」效能模型:前者采用链式思维逐步推理,后者依赖概率预测快速响应。构建「提示语DNA」理论体系,将元素分为信息类(主题/数据)、结构类(格式/风格)、控制类(约束/验证)三大类。当我们理解到提示词本质是「人类意图的编译器」,便能突破表层功能探索,转向「需求定义-过程引导-价值创造」的深度整合。解法:改用需求导向模式,如:「我需要向大学生科普量子计算,请设计包含原理、应用和职业机遇的演讲大纲,用生活案例降低理解门槛」

2025-02-13 11:35:34 1278

原创 2025赶紧抓住风口!转行AI大模型,收入直接暴涨10倍+

恕我直言,就这几天,各大厂都在裁员,什么开发测试运维都裁,只有大模型是急招人。你说你不知道大模型是什么?那可太对了,你不知道说明别人也不知道,就是要趁只有业内部分人知道的时候入局!尤其是干程序员的,绝对要抓住这个机会,我不是危言耸听,经历过Java、Python、大数据的,都应该知道,每个新技术,风口就那么多年,技术迭代的很快。

2025-02-12 11:43:27 1076 1

原创 30岁,零基础小白,计划转行前和AI大模型们聊了聊天

双非,本科,工商管理专业,计划转行至人工智能/无人机/半导体/新能源等行业,

2025-02-12 11:40:35 870

原创 大模型神书《HuggingFace自然语言处理详解——基于BERT中文模型的任务实战》读完少走几年弯路!

2.1 编码工具简介 62.2 编码工具工作流示意 62.3 使用编码工具 82.4 小结 15。

2025-02-11 11:14:14 895

原创 QWLawyer-0.5B:基于Qwen2.5-0.5B-Instruct和huggingface的微调法律模型

寒假一直忙着在学习huggingface,没有更新我的推文,这不正好有时间用一个简单的方式做一次大模型的有监督微调(Supervised Fine-tuning,SFT)。有监督微调的数学原理主要基于梯度下降和反向传播算法。首先,预训练模型在大量数据上学习到了通用的特征表示。在进行有监督微调时,模型在这些通用特征的基础上,通过特定任务的数据进行进一步学习。(所以说,机器学习的核心真的就是围绕着梯度下降算法创建各种各样的架构做出来的,真是博大精深)

2025-02-11 11:13:10 837

原创 大白话说清楚DeepSeek的蒸馏技术到底是什么?

另外除了软标签,学生模型也会学习标准的真实标签数据(例如标注好的训练集),这样可以更好地平衡模型的泛化能力,使其既能模仿教师模型的决策模式,又不会丢失关键的任务特性。可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。LLM蒸馏的主要好处之一是创建明显更小的模型。通过将知识从大型教师模型转移到较小的学生模型,得到的学生保留了教师的大部分能力,同时尺寸仅为教师的一小部分。

2025-02-10 11:25:28 1076

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除