自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(518)
  • 收藏
  • 关注

原创 如何使用Hugging Face从零开始训练BPE、WordPiece和Unigram Tokenizers

如果你有一些NLP的经验,你可能知道标记化是任何NLP管道的舵手。标记化通常被认为是NLP的一个子领域,但它有自己的。现在,它支撑着许多最先进的NLP模型。这篇文章是关于通过利用从头开始训练标记化**。**在我们进入训练和比较不同标记器的有趣部分之前,我想给你一个关于算法之间关键差异的简要总结。主要区别在于要合并的,以及每个算法用来生成最终标记集的。

2025-03-31 22:36:11 719

原创 AI大模型应用实战:使用LLaMA-Factory快速训练自己的专用大模型

本文聊聊 LLama-Factory,它是一个开源框架,这里头可以找到一系列预制的组件和模板,让你不用从零开始,就能训练出自己的语言模型(微调)。不管是聊天机器人,还是文章生成器,甚至是问答系统,都能搞定。而且,LLama-Factory 还支持多种框架和数据集,这意味着你可以根据项目需求灵活选择,把精力集中在真正重要的事情上——创造价值。使用LLama-Factory,常见的就是训练LoRA模型,增强模型在某方面的生成能力。本教程将以增强 GLM-4-9B-Chat 模型的脑筋急转弯能力为例,演示LoRA

2025-03-31 22:30:33 482

原创 大模型书籍推荐:Transformer自然语言处理: 构建语言应用,附409页pdf免费下载

Transformers 已经被用来编写真实的新闻故事,改进谷歌搜索查询,甚至创造出讲笑话的聊天机器人。在本指南中,作者Lewis Tunstall、Leandro von Werra和Thomas Wolf(拥抱Transformers 的创始人之一)使用亲身实践的方法来教你Transformers如何工作,以及如何将它们集成到应用程序中。你会很快学到他们能帮你解决的各种任务。本书涵盖了NLP中transformers的所有主要应用,每一章(除了少数例外)专门针对一个任务,结合一个实际的用例和数据集。

2025-03-28 15:29:43 1084

原创 大模型应用RAG实战:如何快速搭建个性化RAG聊天机器人

在 AI 领域,Retrieval-Augmented Generation(简称 RAG)已经成为生成式 AI 应用的重要技术,尤其是在对话式 AI 中。它结合了预训练大语言模型(LLM)如 OpenAI 的 GPT 和外部知识库(存储在向量数据库中,比如 Milvus 和 Zilliz Cloud),能够生成更加精准、上下文相关的回复,并且保持信息的实时性。一个完整的 RAG 管道通常由四个基本组件组成:向量数据库、嵌入模型、LLM 和框架。

2025-03-28 15:24:40 659

原创 手把手教你用LangChain自动写SQL做数据分析可视化

从数据库里拿到原始数据后,我们得给用户生成一个人类能看懂的自然语言响应。这就得利用语言模型的能力,把原始数据转换成容易理解的内容。我们可以写一个函数,它接收(用户问题)、schema(结构)、sql(SQL 查询)、datatemplate = """根据表结构、问题、SQL 查询和 SQL 响应,提供一个结构化的、人类可读的响应。仅提取响应中可用的字段,并正确格式化它们。{schema}问题:{question}SQL 查询:{query}SQL 响应:{response}

2025-03-28 15:22:01 963

原创 Qwen2.5大模型微调实战:医疗命名实体识别(NER)任务(完整代码)

命名实体识别 (NER) 是一种NLP技术,主要用于识别和分类文本中提到的重要信息(关键词)。这些实体可以是人名、地名、机构名、日期、时间、货币值等等。NER 的目标是将文本中的非结构化信息转换为结构化信息,以便计算机能够更容易地理解和处理。​![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-​NER 也是一项非常实用的技术,包括在互联网数据标注、搜索引擎、推荐系统、知识图谱、医疗保健等诸多领域有广泛应用。​​。

2025-03-26 18:01:25 957

原创 AI看舌苔?我用通义千问开发了个老中医(前后端 + OpenAI库)

所有的项目都是基于 TailwindCSS 实现了响应式,同时支持网页端和移动端的显示效果。这期尝试开发的 AI 应用是使用通义千问的大模型 API,开发一个 AI 看舌苔的应用。整个项目的操作流程比较简单,第一屏用户上传自己的舌头的照片, 保存到 OSS 中。然后将 OSS 保存的图片发送给通义千问的大模型(这里采用了 qwen-vl + qwen-max 两个大模型),让大模型生成我们的前端 JSON 数据并返回整个项目使用到的技术栈如下:前端Nuxt.js。

2025-03-26 17:55:29 753

原创 大模型微调到底有没有技术含量?

并不是说以上的“做法1”是不对的,我自己也有过很多次的“做法1”,毕竟相信前辈往往都能有不错的结果。我只是想强调:SFT这个方向有没有技术含量,还是要看自己的定位和做法。

2025-03-24 15:44:16 571

原创 99%的人都应该看看这本书,精简小册子让你快速跨入大模型的世界

书中首先介绍了大模型(LLM)的基础知识,包括语言模型、自然语言处理(NLP)以及Transformer架构,帮助读者快速理解GPT-4等模型的工作原理。通过这本书,读者能够快速掌握大模型的基础知识与开发技巧,特别适合初学者与想要在短时间内完成AI应用开发的开发者。在deepseek爆火的现在,大模型已经不再是开发者专享的东西,未来一定是大模型的世界,不管你是做什么工作,都应该来了解大模型,甚至是开始使用大模型。这一部分不仅帮助我理解了大模型的技术本质,也让我对NLP领域的前沿发展有了更系统的认识。

2025-03-24 15:42:17 784

原创 8分钟打造一个DeepSeek生成测试用例系统知识库

用户问题 → 知识检索 → 提示词增强 → 大模型生成 → 结果输出与传统生成的区别:知识实时性无需重新训练模型数据安全性敏感信息不离域结果可控性通过检索结果引导生成方向。

2025-03-21 15:52:27 989

原创 DeepSeek R1微调实战:一步步将DeepSeek R1微调成一个DeepDoctor(资深医生)

为了应对 DeepSeek R1 的发布,OpenAI 推出了两个强大的工具:一个更先进的推理模型:o3,以及 Operator AI Agent,依托全新的计算机使用 Agent(CUA,Computer Use Agent)模型,能够自主浏览网站并执行任务。可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。该提示将引导模型逐步思考,并提供一个逻辑严谨、准确的回答。

2025-03-21 15:48:50 930

原创 国产五大AI模型哪家强?DeepSeek、豆包、Kimi、智谱清言、通义千问深度解析!哪款大模型更适合你?

比如搞学术研究,我们问专业领域的复杂问题,它可以快速翻找资料,整理出关键信息,条理清晰地解答,帮我们省下不少时间。采用以KVCache为中心的创新架构,分离预填充与解码集群,充分利用GPU资源,推理吞吐量最高提升525%,响应速度提升3倍。智谱清言通过构建大规模的知识图谱,将海量的信息进行结构化处理,使得模型能够更好地理解和运用知识,为用户提供更准确、更有深度的回答。需要强化多模态能力,数学推理较弱,准确性低于其他竞品,例如解答数学题时常出现细节错误,还需要解决长文本处理的算力成本问题。

2025-03-21 15:27:35 1492

原创 Embedding向量模型在RAG本地知识库中如何使用

通过理解这些技术细节,即使是刚入门的小白也能做出专业选择。当处理中文合同文档时,选择BGE模型配合余弦相似度;处理跨国客服对话记录时,Jina的多语言支持是更好的选择;​ 记住,选择模型的依据终止依据——合适的才是最好的!

2025-03-20 16:01:32 891

原创 大模型报告 | 比清华版更全面、更落地!《DeepSeek企业落地应用讲义精华全版258页》(附下载)

在当今数智化浪潮席卷全球的时代,人工智能(AI)已成为推动企业转型升级的关键力量。然而,对于众多企业来说,如何将AI技术真正落地应用,实现降本增效、创新发展,依然是一个亟待解决的难题。为此,大任智库AI应用创新团队研发了一本堪称AI应用领域的“宝典”——

2025-03-20 15:58:13 440

原创 景观设计转行 | 从景观到大模型,我的产品经理转型探索纪实

2016-2019 中国农业大学风景园林专业:2020-2023 中国农业大学风景园林专业2023-至今 某AI领域龙头企业-AI大模型产品经理意外邂逅我跟景观结缘纯粹是一场意外。还记得高考后的一个午后,当时选专业选累了,就把专业参考书随手丢到床上,人也趴到了床上。不经意间转头,看到书上的一个专业——风景园林,感觉这专业名还挺清新脱俗,便去详细了解了一下。看了专业简介,需要学习绘画、植物、建筑等,是艺术与工程的交叉学科,又不用学很多数学(因为我本身不是很擅长),所以我就决定报这个专业了。

2025-03-20 15:56:08 777

原创 最基础的大模型入门教程,手撸RAG基本原理代码,适合JAVA等传统项目开发人员。

各大开发平台申请模型例如:智谱开放平台,目前旗下模型glm-4-flash可以免费使用。在模型网站下载开源模型,如Hugging Face(需要科学上网),国内可以在ModelScope下载,具体操作步骤以及硬件要求见官网。

2025-03-18 17:01:57 1120

原创 如何高效提升大模型的RAG效果?多种实用策略一次掌握

持续提升RAG(检索增强生成,Retrieval-Augmented Generation)的效果是当前许多企业应用大模型时非常关注的一个关键问题。虽然RAG看起来简单,但真正要做到效果持续提升,还真不是一件容易的事。咱们今天就用更轻松的语言,结合实际案例,聊聊如何通过多种策略持续增强RAG能力,帮助你在实际落地项目中游刃有余!我是Fanstuck,致力于将复杂的技术知识以易懂的方式传递给读者,热衷于分享最新的行业动向和技术趋势。

2025-03-18 16:58:13 860

原创 从零开始:如何用Python训练一个AI模型(超详细教程)

AI“大模型”是相对于传统AI模型而言的,指的是参数规模大、学习能力强的模型。它们拥有强大的数据处理和推理能力,能够应对复杂任务。例如,GPT系列模型不仅可以完成写作任务,还能实现编程、回答问题等多种功能,表现得更加“聪明”。深度学习()是基于“神经网络”的机器学习方法,特别擅长从复杂数据中提取特征并作出精准预测。如果线性回归是“单核处理器”,那么深度学习就是“多核加速器”。它模拟人脑的神经元,用层层堆叠的“神经网络”来处理数据。换句话说,深度学习就是“开挂的人脑仿真”。输入层。

2025-03-12 13:50:34 1349

原创 大语言模型进一步详解:如何零基础入门LLM

去衡量新的feature或者新的模型是否有效。同时,DS也需要提供。

2025-03-12 12:02:21 1038

原创 DeepSeek爆了,普通人如何3小时完全从0训练自己的大模型

MiniMind 降低了 AI 开发的门槛,让更多人能够参与到大语言模型的探索中来。

2025-03-10 15:45:19 835

原创 大型语言模型(LLM)推理框架的全面分析与选型指南(2025年版)

本文全面深入地分析了截至 2025年2月27日主流 LLM 推理框架的最新技术动态、核心特性、以及在各种典型应用场景下的最佳实践。SGLang 凭借其高性能 runtime 和强大的分布式支持能力,在快速原型开发和企业级大规模部署领域独占鳌头,尤其结合 SkyPilot 和 Kubernetes 的实战案例,充分印证了其在复杂应用场景下的卓越表现。vLLM 和 LMDeploy 继续在 GPU 高性能推理领域保持绝对领先地位。

2025-03-10 15:42:36 852

原创 DeepSeek+ragflow构建企业知识库:高级应用篇,越折腾越觉得ragflow好玩

• 从知识检索测试来说,开启知识图谱的检索效果最好。• 从聊天效果来说,反而通用的更符合我的口味。• 我的需求不明确,只是随意拿着一份文档测试,测试没有目标性,只是体验下检索的效果以及差异性,这个需要专业的测试。

2025-03-10 15:41:20 1065

原创 如何从0开始构建一个通用AI Agent 智能体架构设计和实现?

若能访问一系列工具(例如:代码执行或网络搜索),AI Agent 智能体能够决定采用何种工具、如何运用它,并根据输出结果进行迭代优化。这种灵活性使得系统能以最低限度的配置应对多样化的应用场景。

2025-03-08 15:41:03 1068

原创 最易懂的大模型基础概念,新手小白入门必看!从零基础到精通,就看这一篇,赶紧收藏!!

大模型,通常指的是参数数量极多的深度学习模型,这些模型通过在海量数据上进行训练,能够学习到丰富的语言模式和知识。它们在自然语言处理(NLP)领域尤其流行,能够执行多种语言任务,如文本生成、翻译、问答等。想象一下,你有一个超级聪明的助手,它可以帮你写文章、翻译外语、甚至帮你聊天。这个助手就是大模型,它就像一个装满了各种知识的大型图书馆,可以帮你找到答案和解决问题。

2025-03-08 15:15:02 992

原创 大模型量化技术实践指南:GPTQ、AWQ、BitsandBytes 和 Unsloth

它在减少 LLM 的模型大小和推理成本方面非常有效。例如,当我们将一个大约。

2025-03-08 15:12:52 737

原创 详解自然语言处理5大语义分析技术及14类应用,零基础入门到精通,看这篇就够了!(建议收藏)

自然语言处理(Natural Language Processing,NLP)技术是与自然语言的计算机处理有关的所有技术的统称,其目的是使计算机能够理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能。自然语言处理技术的研究,可以丰富计算机知识处理的研究内容,推动人工智能技术的发展。语义分析是一种基于自然语言进行语义信息分析的方法,不仅进行词法分析和句法分析这类语法水平上的分析,而且还涉及单词、词组、句子、段落所包含的意义,目的是用句子的语义结构来表示语言的结构。

2025-03-05 14:27:44 764

原创 疯传!Transformer的神坛之作,经典代码逐行详解,零基础也能吃透!

无论你是此刻就急切渴望深入掌握Transformer的原理与应用,还是在未来的学习、工作进程中才会涉足这片领域,这本书都是你不容错过的专业指南,值得你投入时间潜心研读。这本书封面虽然普通,但内容价值极高。论代码解读注释的详尽程度,在我接触的专业书籍里,除了《处理几乎所有机器学习问题》,就属它最为出色,是不可多得的专业读物。

2025-03-05 14:25:39 1046

原创 DeepSeek-R1+ Ollama 本地部署全攻略

敏感数据无需上传云端,全程在本地运行。支持接入企业知识库/行业数据库(PDF/Excel/Markdown等格式)。单张消费级显卡即可运行,长期使用成本低于云服务。NVIDIA显卡(≥8GB显存) → 适合7B/8B模型。NVIDIA显卡(≥16GB显存) → 支持14B大模型。可使用CPU模式运行(速度约为GPU的20%)。Windows 10/11(21H2及以上版本)。若只需运行DeepSeek-R1模型‌ → 可不安装Docker,直接使用Ollama本地运行。

2025-03-04 17:45:03 607

原创 大模型小白零基础秒懂——如何从0到1训练大语言模型|大模型

大模型作为新时代的风口,确实为那些希望转行或寻求职业突破的人提供了广阔的舞台。然而,是否选择进入这一领域还需综合考虑自身的兴趣、特长以及长远规划。通过构建基础知识体系、参与实际项目、拓展软技能、关注跨学科融合以及建立广泛的社交网络,你可以在这个充满机遇的新领域中迅速站稳脚跟。这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费。

2025-02-27 17:54:33 1019

原创 LoRA、完全微调到底有何不同?MIT 21页论文讲明白了

微调(Fine-tuning)是将经过预训练的大语言模型应用于下游任务的关键范例。最近,低秩自适应 (LoRA) 等方法已被证明可以在各种任务上达到完全微调模型的性能,同时可训练参数的数量却大大减少。这就提出一个问题,即它们学到的解决方案真的等效吗?带着这一疑问,来自 MIT 的研究者在论文《 LORA VS FULL FINE-TUNING: AN ILLUSION OF EQUIVALENCE 》中进行了深入探讨。论文地址:https://arxiv.org/pdf/2410.21228v1。

2025-02-26 14:36:06 859

原创 大模型预训练代码实战教程

dataset[0]'请你给哪吒写一首诗:哪吒降世,意气飞扬。\n逆天改命,破障冲霄。红绫缠腕,风火踏浪。\n不屈不悔,笑傲苍茫。很多人都喜欢在自定义数据集里面完成 tokenizer,但我把这个操作留到了中。如果在数据集中完成tokenizer,那么就需要在对input_ids和进行手动填充。如果在完成 tokenizer,便无需再对input_ids和手动填充。tokenizer 会默认把这个batch的数据处理完成。只需要手动处理 label。

2025-02-25 11:55:39 718

原创 震撼!HuggingFace 超大规模训练手册来袭,解锁 GPU 集群训 LLM 密码

数千个 GPU 完美和谐地协同工作,这就是训练当今最强大的人工智能模型所需要的——一场计算能力的交响乐,直到最近,这还只是精英研究实验室的专属领域。开源已经改变了这一局面,但尚未完全改变。是的,你可以下载最新的 Llama 或 DeepSeek 模型,阅读它们的技术和实验报告。但最具挑战性的部分——训练代码、协调 GPU 训练这些大规模系统所需的知识和技术——仍然笼罩在复杂性之中,分散在一系列不相关的论文和通常私有的代码库中。这本开源书籍旨在改变这一现状。从基础开始,我们将带你了解将大型语言模型的训练从一个

2025-02-24 14:53:24 978

原创 大模型企业应用报告:《AI大模型应用助力企业“营销服”跃进与提效》(附下载)

本报告详细介绍了百度智能云如何利用AI大模型技术推动企业营销、销售和服务领域创新。该文件展示了AI技术在智能创作、智能客服、数字人、营销视频生成等多场景下的应用,强调了百度智能云在提升企业营销服务效率和效果方面的潜力。报告中介绍了百度智能云的一念、曦灵、客悦等平台,这些平台通过大模型技术为企业提供全面的营销内容创作、数字人服务和智能客服解决方案。此外,文件还强调了百度智能云在不同行业的深度应用,以及与合作伙伴共同探索AI大模型在企业营销服务中的广泛应用。

2025-02-24 14:38:38 378

原创 大模型优质书籍推荐!(免费分享PDF)《AI大语言模型的基础与前沿》,程序员都在看的大模型书!!!

全球首个完全自主的 AI 软件工程师上线,它是来自 Cognition 这家初创公司的产品——Devin, 这个名字也随即引爆了科技圈。话说 Devin 有多能干?它能实现端到端的完整项目开发。也就是说,只需一句指令,Devin 就可以从零构建出一个完整互联网应用,其他工作还可以自主查找并修复代码中的 bug,甚至是训练和微调自己的 AI 模型。更厉害的是,Devin 还通过了一家 AI 公司的技术面试,并且在 Upwork 上完成了实际工作。

2025-02-22 17:54:01 987

原创 本地搭建Qwen和DeepSeek AI助手,打造专属智能体验

因此,本地部署AI助手不仅是一种技术尝试,更是一种对隐私和效率的双重保障。在本地部署AI模型之前,我们需要评估自己的电脑硬件是否能够支持目标模型的运行。如果你的设备满足上述要求,就可以尝试部署Qwen2.5:7B和DeepSeek-R1-7B等中等规模的AI模型了!这两款模型不仅功能强大,而且开源友好,社区支持广泛,非常适合初学者和进阶用户使用。Ollama是一款轻量级的工具,可以帮助我们快速部署和管理本地AI模型。

2025-02-21 13:48:24 1026

原创 聊聊SFT微调训练——如何训练更强更低成本的推理大模型

Sky-T1-32B-Preview 是伯克利 Sky Computing Lab推出的推理模型,在常见的推理和编码基准测试中,其表现可与 o1-preview 媲美。值得注意的是,Sky-T1-32B-Preview 的训练成本不到 450 美元,展示了以经济高效的方式复制高水平推理能力的可能性。

2025-02-20 11:56:11 714

原创 内行人熬夜必读!《从零构建大语言模型》:揭秘大模型核心技术,附PDF下载!

1、第一部分理解大型语言模型:介绍了 LLM 的基本概念、transformer架构以及训练大型语言模型所需的基础知识。5、第五部分无标签数据的预训练:讨论了如何在没有标签的数据上进行预训练,使模型能够捕捉语言的复杂性和上下文关系。3、第三部分注意力机制编程:深入探讨了注意力机制的原理及其在 LLM 中的应用,并通过代码实现了这些机制。6、第六部分模型微调:解释了如何在特定任务或领域的数据上微调预训练的模型,以提升其在特定应用中的表现。,没正式出版就已经在Github仓库有17.1k的星标了。

2025-02-20 11:54:52 806

原创 2024年小结:从大模型算法工程师面试官的角度,聊聊今年就业情况

文章的原因。然而。

2025-02-19 17:11:26 1057

原创 普通人也能转行AI?清华团队出的deepseek保姆级教程来了

对于想进阶的朋友,教程里的干货更多。2024年底发布的新一代大语言模型v3,多项评测成绩超过主流开源模型,后来又发布了r1模型,性能比肩美国开放人工智能研究中心(openai)的o1模型正式版 ,关键是训练成本才560万美元,性价比超高,在海外直接火出圈,把美国那些科技巨头都给“震”到了。比如,你想写一篇公众号推文,以前可能绞尽脑汁想半天,现在用deepseek,按照教程里教的提示语设计方法,告诉它你的主题、风格、想要表达的重点,它就能帮你生成初稿,你再稍微润色一下,一篇优质推文就诞生了。

2025-02-18 12:01:57 614

原创 PPT革命!DeepSeek+Kimi=N小时工作5分钟完成?

今天,我们暂时抛开知识库这类的聊天问答场景,看看DeepSeek能直接给我们打工人带来什么直接的好处。这个话题比较大,本期就先以我们打工人最常见的苦恼来举例吧,是什么呢?对,就是PPT,相信每个职场人一定都经历过那种加班加点去撰写和美化PPT的场景,深夜改第8版PPT的职场人第二天还要挤早班地铁赶去给客户做汇报,充满了辛酸,打工人真是太难了!但实际上,PPT中的核心内容,每个制作人心里都清楚,但要给客户讲解总是需要PPT做展示,做的太丑又显得不尊重客户似的。

2025-02-18 11:58:56 1307

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除