- 博客(671)
- 资源 (9)
- 收藏
- 关注

原创 从零搭建机器学习平台Kubeflow
来自官网的一段介绍: Kubeflow 项目致力于使机器学习 (ML) 工作流在 Kubernetes 上的部署变得简单、可移植和可扩展。Kubeflow的目标不是重新创建其他服务,而是提供一种直接的方法,将用于 ML 的同类最佳开源系统部署到不同的基础设施中。在任何运行 Kubernetes 的地方,开发者都应该能够运行 Kubeflow。从官网这段介绍可以看出,Kubeflow与Kubernetes是形影不离的。
2022-12-25 03:59:33
9774
5

原创 Python人工智能之图片识别,Python3一行代码实现图片文字识别
自学Python3第5天,今天突发奇想,想用Python识别图片里的文字。没想到Python实现图片文字识别这么简单,只需要一行代码就能搞定#作者微信:2501902696from PIL import Imageimport pytesseract#上面都是导包,只需要下面这一行就能实现图片文字识别text=pytesseract.image_...
2017-09-20 14:15:00
24131
原创 【RAG实战 】 手把手教你从零手撸一个语义切块,解锁更多优化技巧!
在RAG(Retrieval-Augmented Generation)中,chunk是个关键步骤。它的核心目标,就是把语义相近的内容放在一起,语义不同的内容拆开,这样后续的检索(retrieve)和重排序(rerank)才能更有效。举个例子:今天天气很好,我和小明在一起打篮球。隔壁老王在家里看电视。小明的妈妈在家里做晚饭,晚上我去小明家吃饭。这段话其实表达了三个完全不同的意思,最理想的chunk方式,就是精准地把这三个部分分开,互不干扰。
2025-03-23 16:26:35
884
原创 AI老板心中的迈巴赫:DeepSeek+Ollama+Xinference+RAGFlow+Dify部署教程,RAG产品化体验5件套
DeepSeek-R1火了之后,Ai老板部署需求大大提升,抛开效果不谈,五件套易用性和灵活性相比VLLM大大提升,门槛较低,但是效果不言而喻。以下部署全部以docker方式进行,因为太方便了,但同时坑很多,请做好心理准备喜欢折腾的同学可以按照下面教程进行部署,我也是被逼无奈请杯子里面装满水,原地坐牢,不出意外的话就马上出意外了,一个BUG一支烟。
2025-03-21 22:51:42
982
原创 为什么 RAG 会失败以及如何解决?揭秘背后三大致命缺陷!
RAG(检索增强生成)它把检索系统和生成式 AI 结合起来,让 AI 回答得更准确、更贴合上下文。和普通的大语言模型(LLM)不同,RAG 不只是依赖训练时学到的知识,而是能实时从外部信息源查找内容,并用这些信息来生成更可靠的回答。RAG 的核心组成负责从外部数据源提取相关信息,确保 AI 的回答既准确又及时。检索做得好,AI 的输出质量就高;如果检索设计不合理,可能会导致无关答案、幻觉(AI 瞎编)或数据缺失。由大语言模型(LLM)来处理用户提问,并结合检索到的内容生成回答。
2025-03-21 22:22:47
635
原创 解锁的搜索与推理新模式:DeepSearch与DeepResearch的区别
DeepSearch 可以理解为一种“高级的网页搜索代理”。传统的网页搜索代理通常只是用已有的搜索工具来收集信息,然后生成答案,它基本上只进行了一次搜索。而 DeepSearch 则在搜索过程中加入了“推理”这一环节。简而言之,DeepSearch 的工作原理是不断地进行“搜索 → 推理 → 搜索 → 推理…”的循环,直到找到最合适的答案,或者达到 Token 限制为止。下图展示了 DeepSearch 和传统网页搜索代理的处理流程对比。
2025-03-20 01:47:20
792
原创 玩转RAG应用:如何选对Embedding模型?
在打造检索增强生成(RAG)应用时,选择合适的Embedding模型就像挑选合适的工具,直接影响到应用的表现和效果。那么,面对众多的模型,我们该如何轻松找到最适合的那一款呢?MTEB 是一个包含广泛文本嵌入(Text Embedding)的基准测试,它提供了多种语言的数十个数据集,用于各种 NLP 任务,例如文本分类、聚类、检索和文本相似性。MTEB 提供了一个公共排行榜,允许研究人员提交他们的结果并跟踪他们的进展。MTEB 还提供了一个简单的 API,允许研究人员轻松地将他们的模型与基准测试进行比较。
2025-03-18 22:44:00
634
原创 推理大模型的后训练增强技术-如何系统地理解和提升长思维链推理能力
最近,基于大型语言模型(RLLMs)的推理能力取得了显著进展,例如OpenAI的O1和DeepSeek的R1,它们在数学、编程等复杂领域展现了强大的能力。然而,尽管已有这些突破,关于长链思维的全面综述仍然匮乏,这也限制了对其与传统短链思维(Short CoT)区别的理解,并使得“过度思考”和“测试时扩展性”等问题的讨论变得复杂。接着,探讨了长链思维的关键特征:深度推理、广泛探索和可行反思,这些特征使得模型能够处理更复杂的任务,且相比较浅的短链思维,能够生成更加高效、连贯的结果。
2025-03-18 17:22:37
866
原创 推理大模型的后训练增强技术-Reasoning模型也进化到2.0了,这次居然学会用工具了
Reasoning模型也进化到2.0了,这次居然学会用工具了!✨ 最近有个叫START的方法,让大模型也能学着用工具,比如自己调用代码解释器,来提升推理和解决问题的能力。具体怎么实现的呢?它会把「思考链」和「工具调用」结合起来,给模型配上了自查、自我探索和自己修bug的能力。简单说,就是教模型边想边动手,用工具解决推理过程中的难题。具体的训练步骤大概是:1️⃣ 收集数学和编程题目,比如数学的AIME、MATH,编程的Codeforces、LiveCodeBench这些比赛题目。
2025-03-17 22:08:02
644
原创 推理大模型的后训练增强技术-从系统1到系统2:大语言模型推理能力的综述
我们平时接触的AI,很多都是快速的、直觉型的,类似人类的“系统1”,能快速回答问题,但碰到稍微复杂一点的任务,就可能“翻车”了。这篇论文探讨的,是如何让AI从这种“直觉型”思维,迈向更为深度和理性的“系统2”思维——也就是人类在面对复杂问题时,那种慢一点但更加谨慎和全面的思考模式。研究团队认为,实现真正的人工智能,关键在于如何有效地让AI从快速的直觉反应,过渡到深度的、理性的思考。仓库链接:https://github.com/zzli2022/Awesome-System2-Reasoning-LLM?
2025-03-15 00:34:18
328
原创 Gemma 3 27B版本超越DeepSeek V3:技术要点分析!
Gemma 3 是 Google 最新的开放权重大型语言模型。它有四种尺寸,分别是 10 亿、40 亿、120 亿 和 270 亿 参数,包含基础(预训练)和指令调优版本。Gemma 3 支持 多模态!4B亿、12B和 27B参数的模型可以处理 图像 和 文本,而1B参数的模型仅限于文本。Ollma Gemma3模型权重合集Gemma 3作为Gemma系列的最新迭代,带来了以下几个关键的进步:Gemma 3整合了视觉理解能力,能够处理图像输入,扩展了模型的应用范围。
2025-03-13 00:40:34
2564
原创 推理大模型的后训练增强技术--LLM 推理模型的现状
我的猜测是,研究人员受到了 DeepSeek-R1 论文中“顿悟时刻 (Aha moment)”图的启发,研究人员在图中看到 LLM 提出了类似“等等,等等。等等。这是一个顿悟时刻,我可以标记一下 (Wait, wait. Wait. That’s an aha moment I can flag here.)”的内容,这表明纯强化学习可以诱导 LLM 产生推理行为。有趣的是,他们还尝试了其他 token,例如“嗯 (Hmm)”,但发现“等待 (Wait)”的表现略好。
2025-03-12 15:55:54
854
原创 大语言模型对软件工程师的影响曲线
最近刷到一篇有意思的文章,讨论了大语言模型(LLM)对软件工程师影响的职级曲线。以工程师的职级差异视角出发,揭示了为什么不同经验水平的人对大语言模型的评价差异如此之大,提供了一个非常有趣的解释框架。关于大语言模型 (LLM) 有什么用,网上已经吵翻天了。有人认为它带来了生产力的巨大飞跃,也有人对此不以为然。现在,每个与此相关的 HackerNews 帖子下面,都会出现一长串争论不休的回复。我们称之为新的“大分歧”。
2025-03-11 13:16:51
932
原创 关于DeepResearch设计实现的碎碎念
最近我们通过一些新闻博客包括LLMs产品的推出,DeepSearch和这两个词不断的映入我们眼帘。图片来源:Jina,DeepSearch 与 DeepResearch 的设计和实现一个有趣的发现是,DeepSearch 和 DeepResearch 不仅限于OpenAI,之前一直听说OpenAI的DeepResearch特别厉害,最近许多公司如 Jina AI、Perplexity 和 Google 也在开发类似工具。
2025-03-10 02:35:26
1072
原创 推理大模型的后训练增强技术-强化学习篇
人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。在回忆往事时,我们会对生命中某些时刻的决策印象深刻:“唉,当初我要是去那家公司实习就好了,在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思,我们或许能领悟一些道理,变得更加睿智和成熟,以更积极的精神来迎接未来的选择和成长。在机器学习领域,有一类重要的任务和人生选择很相似,即序贯决策(sequential decision making)任务。
2025-03-09 13:47:14
760
原创 推理大模型的后训练增强技术-指令微调篇,如何用指令微调提升推理能力?
指令微调是一种在带有指令提示和相应输出的标记数据集上微调大模型的技术,通过提供一组概述所需操作的指南或指令,使预训练模型适应执行特定任务。指令:“你是一个乐于助人、尊重他人且诚实的助手。始终尽可能有帮助地回答,同时确保安全。你的回答不应包含任何有害、不道德、种族主义、性别歧视、恶毒、危险或非法的内容。请确保你的回答在社会上不带有偏见,并且具有积极的性质。如果一个问题没有意义,或事实不连贯,请解释原因,而不是回答错误的内容。如果你不知道问题的答案,请不要分享错误信息。上下文:<<输入你的上下文>>
2025-03-08 12:59:47
873
原创 推理大模型的后训练增强技术-预训练篇
训练大型语言模型不是一个单一的过程,相反,它是一个多层的训练过程组合,每个过程都有其独特的作用,并对模型的性能做出贡献。阶段1:自我监督学习(Self-Supervised Learning):自我监督学习是一种特殊形式的无监督学习,主要通过数据本身的内在结构来生成标签,而不需要人工标注的标签。比如LLM中的预训练。阶段2:监督学习(Supervised Learning):监督学习是机器学习中最常见的一种方法,其中模型通过带有标签的训练数据进行学习,目的是从输入数据和其对应的标签中找到映射关系。
2025-03-07 20:28:46
1040
原创 【论文分享】推理大模型Post-Training技术的全面综述
大型语言模型(LLMs)推理方法概述,展示了通过链式思维(CoT)提示、自我反馈和情节记忆等方法提升推理能力的路径。该图强调了多种基于强化学习的优化技术,包括GRPO、RLHF、DPO和RLAIF,用于通过奖励机制和基于偏好的学习来微调推理模型。测试时扩展(Test-time Scaling)方法概述:并行扩展、顺序扩展和基于搜索的方法。图中还展示了它们如何整合到计算最优策略中。
2025-03-06 21:43:11
589
原创 RAG学习必备,论文+实战+经验全收录!
【RAG实战】Prompting vs. RAG vs. Finetuning: 如何选择LLM应用选择最佳方案。【RAG落地利器】向量数据库Milvus教程:如何实现MetaData检索过滤。【RAG论文】文档树:如何提升长上下文、非连续文档、跨文档主题时的检索效果。【RAG入门教程02】Langchian的Embedding介绍与使用。从零开始优化 RAG 流程的终极指南,解决检索增强生成的核心挑战。你的RAG系统真的达标了吗?【RAG论文】检索信息中的噪音是如何影响大模型生成的?
2025-03-04 23:50:57
426
原创 HuggingFace 又出新教程啦!手把手教你构建DeepSeek-R1推理模型
LLM 在许多生成任务上表现出色。然而,直到最近,它们还在解决需要推理的复杂问题上举步维艰。例如,它们很难处理需要多步推理的谜题或数学问题。Open R1 是一个旨在让 LLM 推理复杂问题的项目。它通过使用强化学习来鼓励 LLM 进行“思考”和推理。简单来说,模型经过训练可以产生想法和输出,并构建这些想法和输出,以便用户可以分别处理它们。让我们看一个例子。问题:“我有 3 个苹果和 2 个橙子。我总共有多少个水果?想法:“我需要将苹果和橘子的数量相加,得到水果的总数。答案:“5”
2025-03-04 12:15:53
1079
原创 图解KV Cache:解锁LLM推理效率的关键
在Transformer架构中,KV Cache是一种关键的性能优化机制。它通过缓存已计算的Key和Value矩阵,避免在自回归生成过程中重复计算,从而显著提升推理效率。这种机制类似于人类思维中的短期记忆系统,使模型能够高效地利用历史信息。KV Cache 作为 Transformer 架构中的关键性能优化机制,通过巧妙的缓存设计显著提升了模型的推理效率。其工作原理主要体现在三个核心维度:首先,在计算效率方面,KV Cache通过缓存已处理token的Key和Value表示,有效消除了重复计算的开销。
2025-03-03 18:27:37
1010
原创 LevelRAG:突破查询重写瓶颈,提升混合检索效果
📌LevelRAG 通过高级检索器的逻辑规划低级检索器的多检索融合稀疏检索器的查询优化优化了 RAG 在混合检索场景中的查询重写和检索逻辑,提高了检索完整性和准确性。📌实验结果表明:LevelRAG在复杂问答任务中表现出色,特别是在多跳推理任务中,显著优于现有方法。🚀 未来,LevelRAG 可以进一步优化检索策略,提高适应性,并提升计算效率!
2025-03-02 16:28:02
868
原创 6 大 RAG 知识库PDF文档处理神器对比,谁才是你的最佳选择?
今天,我们精挑细选 6 款最具代表性的 RAG 知识库文档处理工具,从技术架构、功能特性、适用场景、优劣势等多个维度对比,帮你找到最适合的解决方案!💡🔥。
2025-03-01 16:24:36
733
原创 DeepSeek开源周 Day05:从3FS盘点分布式文件存储系统
今天是DeepSeek开源周的第五天,官方开源了一种高性能分布式文件系统Fire-Flyer File System,简称3FS,目的是解决人工智能训练和推理工作负载的挑战。Fire-Flyer 文件系统 (3FS) - 一种并行文件系统,可利用现代 SSD 和 RDMA 网络的全部带宽。⚡ 180 节点集群中的 6.6 TiB/s 聚合读取吞吐量⚡ 在 25 节点集群中,GraySort 基准测试的吞吐量为 3.66 TiB/min。
2025-02-28 10:31:04
1403
原创 DeepSeek开源周 Day04:从DualPipe聊聊大模型分布式训练的并行策略
今天是DeepSeek开源周的第四天,官方开源了一种新型并行计算优化策略——DualPipe。其实大家阅读过Deepseek-V3技术报告的同学,对这个技术并不陌生。开源地址:https://github.com/deepseek-ai/DualPipe。
2025-02-27 12:11:32
1222
原创 DeepSeek开源周 Day03:从DeepGEMM看大模型算力提速的矩阵乘法
今天是DeepSeek开源周的第三天,继FlashMLA和DeepEP之后,DeepSeek开源了DeepGEMM库。作为一个专注于FP8精度通用矩阵乘法的高性能库,DeepGEMM在提供极致性能的同时保持了令人惊讶的代码简洁性。DeepGEMM以其轻量级设计和出色性能成为大模型计算加速领域的亮点。该库不仅支持常规的密集矩阵乘法,还特别优化了混合专家模型(MoE)场景下的分组GEMM计算,成为DeepSeek-V3/R1训练和推理的核心动力。在技术实现上,
2025-02-26 10:35:08
1093
原创 DeepSeek开源周 Day02:从DeepEP开源趋势重新审视大模型Infra
如下图为 NVIDIA GPU 常见的浮点数表示方式,其中 sign 表示符号位,exponent 表示指数位(决定了动态范围),mantissa 表示尾数位(决定了表示精度)。相比 FP32:FP16的指数位和尾数位都更小。因此,通常 FP32 转 BF16 时会带来较大的精度损失。BF16的指数位和 FP32 相同,尾数位更少。因此,通常 FP32 转 BF16 只需要做尾数位的截断,损失相对较小。现在的 LLM 预训练中通常都会使用 BF16。FP8 E4M3 的指数位和尾数位都更小。
2025-02-25 12:15:10
1046
原创 DeepSeek开源周 Day01:从FlashMLA背后原理回顾KV Cache
这部分主要参考LLM推理算法简述,可以快速回顾下KV Cache概念,关于更多LLM推理算法讲解大家可以阅读。LLM 推理服务的吞吐量指标主要受制于显存限制。研究团队发现现有系统由于缺乏精细的显存管理方法而浪费了 60% 至 80% 的显存,浪费的显存主要来自 KV Cache。因此,有效管理 KV Cache 是一个重大挑战。什么是KV Cache?
2025-02-24 11:37:52
395
原创 关于Grok3和DeepSeek背后苦涩教训引发的思考
Grok3 和 DeepSeek-R1 的故事,是 2025 年 AI 领域的一面镜子。Grok3 用规模证明了计算能力的无可替代,而 DeepSeek-R1 用创新展示了效率的潜力。没有一条路是完美的。规模带来胜利的同时埋下成本的隐患,效率带来希望的同时伴随挑战的阴影。站在这个十字路口,AI 社区需要回答的是:未来的突破是继续“力大拍砖”,还是转向“精巧杠杆”?或许,正如《苦涩教训》的深刻启示,最终的答案不在于选择哪条路,而是如何在这两条路之间找到融合之道——用规模赋能创新,用创新优化规模。
2025-02-23 02:19:26
1103
原创 从零开始优化 RAG 流程的终极指南,解决检索增强生成的核心挑战
本文讨论了优化 RAG 管道各个部分并增强整体 RAG 性能的各种技术。你可以在 RAG 管道中使用其中一种或多种技术,使其更加准确和高效。希望这些技术能够帮助你为你的应用程序构建一个更强大的 RAG 管道。参考资料:https://luv-bansal.medium.com/advance-rag-improve-rag-performance-208ffad5bb6a。
2025-02-21 02:24:08
728
原创 注意力机制进化史:从MHA到MoBA,新一代注意力机制的极限突破!
大模型时代下的注意力模型发展回顾:MHA、MQA、GQA、MLA、NSA、MoBA
2025-02-20 00:12:27
625
原创 硬件对齐+原生训练!DeepSeek NSA打造高效稀疏Attention
NSA的技术方法涵盖算法设计与内核优化。其整体框架基于对注意力机制的重新定义,通过设计不同的映射策略构建更紧凑、信息更密集的键值对表示,以减少计算量。同时,针对硬件特性进行内核优化,提升实际运行效率。背景知识注意力机制:在语言建模中,注意力机制广泛应用。对于输入序列长度为tttotAttnqtktvtotAttnqtktvt其中AttnAttnAttnAttnqtktvt∑i1tαtiv。
2025-02-19 08:51:18
1034
原创 大语言模型简史:从Transformer(2017)到DeepSeek-R1(2025)的进化之路
语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。
2025-02-16 21:50:58
1499
原创 怎么知道效果提升了?7个用于改进RAG系统的检索指标
检索系统不仅用于RAG,还广泛应用于网络和企业搜索引擎、电商产品搜索、个性化推荐、社交媒体广告检索、档案系统、数据库、虚拟助手等领域。这些检索指标有助于评估和改进性能,从而更好地满足用户需求。你认为还有哪些指标可以补充到这个列表中呢?欢迎留言告诉大家!
2025-02-16 15:33:39
1046
原创 一文深入了解DeepSeek-R1:模型架构
DeepSeek-R1 (DeepSeek-V3) 总共包含 671B 个参数,其中每个标记激活 37B 个。在这里插入图片描述。
2025-02-13 23:42:36
6475
3
原创 DeepSeek-R1复现方案梳理
在 100 步时,解方程的成功率约为 25%,并且模型开始用文字进行 “推理”;近日,来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B,通过简单的强化学习(RL)微调,得到了全新的DeepScaleR-1.5B-Preview。由huggingface组建,目前刚上线2周,发布了最新进展open-r1/update-1,在MATH-500任务上接近deepseek的指标,可以在open-r1/open-r1-eval-leaderboard查看指标的排行榜。
2025-02-12 22:36:59
1111
原创 DeepSeek 背后的数学原理:深入探究群体相对策略优化 (GRPO)
群体相对策略优化 (是一种强化学习 (RL) 算法,专门用于增强大型语言模型 (LLM) 中的推理能力。与严重依赖外部评估模型(价值函数)指导学习的传统 RL 方法不同,GRPO 通过评估彼此相关的响应组来优化模型。这种方法可以提高训练效率,使 GRPO 成为需要复杂问题解决和长链思维的推理任务的理想选择。GRPO 的本质思路:通过在同一个问题上生成多条回答,把它们彼此之间做“相对比较”,来代替传统 PPO 中的“价值模型”为查询生成一组响应。根据预定义的标准(例如准确性、格式)计算每个响应的奖励。
2025-02-11 17:56:13
948
原创 RbFT:针对RAG中检索缺陷的鲁棒性微调
总体而言,这篇论文针对RAG系统在面对检索缺陷时的脆弱性问题,提出了一种有效的鲁棒性提升方法RbFT,并在多个数据集上验证了其有效性,为实际应用中提高RAG系统的鲁棒性提供了有价值的解决方案。
2025-02-10 22:33:25
1114
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人