
人工智能
文章平均质量分 93
AI仙人掌
NLP算法专家|深耕智能文本处理领域,专注用AI技术驱动金融与政务场景的数字化转型
技术核心能力
领域专长
• 金融政务场景:10年+垂直领域经验,聚焦智能风控、政务文档解析、高精度信息抽取
• 文本智能处理:构建金融合同解析、监管文件结构化、政务问答系统等20+行业解决方案
展开
-
基于物理信息的神经网络在异常检测Anomaly Detection中的应用:实践指南
物理信息神经网络(PINNs)代表了一种令人兴奋的新建模范式,这种范式正在各行各业迅速崭露头角。PINNs 最有前景的应用之一是复杂物理系统中的异常检测Anomaly Detection。这一应用尤其值得关注,因为它解决了传统机器学习方法在实践中一直难以克服的几个关键痛点。在这篇博客中,让我们通过回答实践者在采用基于 PINN 的方法进行异常检测Anomaly Detection时最常遇到的一些问题,深入探讨这个热门话题。原创 2025-04-27 13:11:54 · 980 阅读 · 41 评论 -
如何解决无训练数据问题:一种更为智能化的解决方案
手动标注数据真的很费时间,而且买数据集又贵得要命,还不一定能完全符合你的需求。但这里有个令人兴奋的好消息,为啥不用 AI 来解决这个问题呢?别再依赖传统方法了,你可以用像 LLM(大型语言模型)和图像生成器这样的 AI 工具,为你的特定目标创建合成训练数据。如今有那么多开源和商业的 AI 模型可供选择,你可以根据自己的需求随意搭配,无论是想控制预算、提高效率,还是追求高质量的结果,都能轻松搞定。这对研究和商业来说,简直就是一场变革!原创 2025-04-27 20:00:00 · 1020 阅读 · 11 评论 -
如何在本地使用Ollama运行 Hugging Face 模型
通过简单的步骤,用户可以将 Hugging Face 上的模型转换为 GGUF 格式,实现在本地离线运行大型语言模型。文章首先介绍了 Ollama 的优势,包括简单的命令行界面、内置 REST API、快速模型切换和离线支持。然后详细讲解了完整的工作流程:从寻找或创建 GGUF 版本的模型,到编写 Modelfile、创建和运行模型。对于没有现成 GGUF 版本的模型,文章还提供了详细的转换教程,包括安装依赖、下载模型、转换格式等步骤原创 2025-04-14 08:48:06 · 930 阅读 · 7 评论 -
AI烘焙大赛中的算法:理解PPO、GRPO与DPO最简单的方式
我翻遍了arXiv上那些让人头秃的论文,发现它们不是在堆砌数学公式,就是在用更复杂的数学公式解释上一个数学公式。今天,本AI厨神就要用最接地气的烘焙大赛来拆解这些算法,保证让您看得津津有味,连隔壁卖煎饼的王大妈都能听懂!不过在那之前,各位AI厨师们,请继续在算法的厨房里挥洒汗水吧!里面记载着:“面粉要过筛三次”、“蛋白打发要逆时针搅拌”、“烤箱温度要精确到±1℃”——这些细节决定了你的蛋糕是米其林三星还是黑暗料理。适合预算有限但又要比DPO稳定点的项目,就像学校里的学习小组——虽然比不上私教,但比自学强。原创 2025-04-08 00:00:00 · 1127 阅读 · 3 评论 -
Text-to-SQL技术深度解析:从理论突破到工程实践
SQL的专业性要求构成了数据民主化的主要障碍——据统计,仅约35%的开发人员接受过系统的SQL培训,而超过51%的专业岗位需要SQL技能。对于算法工程师而言,把握技术本质,理解业务需求,在生成质量与系统可靠性间寻求平衡,将是构建成功Text-to-SQL系统的关键。传统**自一致性(Self-Consistency)**方法假设多数投票最优,但在Text-to-SQL中面临两大局限:(1)最频繁的答案未必正确,(2)高温采样会降低候选质量。THEN"表达式),(3)数仓建模时建立清晰的业务域映射。原创 2025-04-08 00:00:00 · 801 阅读 · 3 评论 -
零SQL构建数据分析AI智能体——基于LangChain和DuckDB的魔法之旅
SQL一直是数据分析领域的"普通话",但如今有了AI,连SQL语法都可以丢进垃圾桶了!本文将手把手教你用LangChain和DuckDB打造一个会自己写SQL的AI小助手,连Kaggle数据集都能轻松调戏~原创 2025-04-07 03:00:00 · 2403 阅读 · 70 评论 -
大语言模型(LLM)的“瘦身计划”—提示压缩:方法、算法及代码
LLMLingua提出,经常忽略压缩内容之间的相互联系以及LLM与用于提示压缩的小型语言模型之间的相关性。LLMLingua 正是为了解决这些问题而设计的。具体来说,如图4所示,LLMLingua 使用预算控制器动态分配不同的压缩比例给原始提示的各个部分,如指令、演示和问题。它还执行粗粒度的演示级压缩,以在高压缩比例下保持语义完整性。此外,LLMLingua 引入了令牌级别的迭代算法,用于细粒度的提示压缩。图4:LLMLingua 的框架。LLMLingua。原创 2025-03-26 00:15:00 · 1069 阅读 · 0 评论 -
使用Python从零开始构建千万级参数的大型语言模型(LLM)
徒手pytho撸出Transformer架构并一步步训练处一个LLM大模型原创 2025-03-22 00:15:00 · 1311 阅读 · 7 评论 -
全球首个工业界多模态推理模型Skywork R1V:用一个MLP适配器把一个视觉编码器和一个文本 LLM拼装!
冻结视觉编码器和语言模型,只对 MLP 适配器进行少量数据的微调,让视觉特征与语言模型的隐层空间进一步对齐并校准。原创 2025-03-21 09:19:50 · 940 阅读 · 1 评论 -
DAPO:一个开源的大规模大型语言模型LLM强化学习系统
DAPO为大规模LLM强化学习提供了开源解决方案,其技术细节(尤其是四大核心策略)对复现SOTA结果具有重要参考价值。算法工程师可基于此框架探索更复杂的RL应用场景,如多模态交互与自主决策。原创 2025-03-20 00:15:00 · 1572 阅读 · 4 评论 -
一种基于大规模语言模型LLM的数据分析洞察生成方法
从数据库中生成有洞察力和可操作的信息在数据分析中至关重要。本文介绍了一种使用大型语言模型(LLMs)自动生成文本洞察的新方法。我们的方法以多表数据库作为输入,利用LLMs生成简明的基于文本的洞察,反映表中的有趣模式。我们的框架包括一个假设生成器,用于制定与领域相关的问题,一个查询代理,通过生成针对数据库的SQL查询来回答这些问题,以及一个总结模块,用于将洞察进行语言化。通过人类判断和自动化指标的混合模型,对洞察的正确性和主观洞察力进行评估。在公共和企业数据库上的实验结果表明,我们的方法生成的洞察比其他方法更原创 2025-03-19 09:48:03 · 2102 阅读 · 40 评论 -
知识蒸馏:从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新)
Deepseek对模型蒸馏技术的创新点在于进一步优化了用于学生模型训练的教师模型输出数据,通过数据增强合成并优化了具有推导过程的思维链语料(如多步骤推理的CoT语料等),再对学生模型进行微调。该技术利用了推理模型的特点,将教师模型在推理任务中学习到的思维方式通过蒸馏传输给学生模型,使学生模型具备相似的推理能力,从“知识迁移”演进为“能力转移”。利用这种蒸馏方式,模仿教师模型的输入到输出的映射关系,小参数的学生模型也能获得非常高的推理能力。知识蒸馏的核心目标是实现从教师模型到学生模型的知识迁移。原创 2025-03-19 12:30:00 · 1733 阅读 · 7 评论 -
在家用台式机上部署 DeepSeek-R1:低成本高性能的 CPU 推理方案---不到 4 万元
另外,在使用 CPU 推理时,由于 SIMD 指令集对 8-bit 整数的点积运算有原生支持,更重要的是我们发现 Q4 的思维链平均长度比 Q8 长了 45%,也就是说多输出了 45% 的无效 Token,所以虽然 Q4 生成 Token 速度较快,但完成任务甚至会更慢。DeepSeek-R1 是一种高稀疏度的 MoE(Mixture of Experts)模型,其总参数量高达 671B,但实际推理时采用“按需激活”机制:每层包含 256 个专家(Expert),每次仅激活其中的 8 个专家。原创 2025-03-19 00:15:00 · 853 阅读 · 1 评论 -
DeepSeek模型六大国运级关键创新技术详解
DeepSeek-V3和DeepSeek-R1显著有效性和效率的核心技术:对MOE架构的改进——特别是多头潜在注意力(MLA)和专家混合(MoE);多Token预测;算法、框架和硬件的联合设计;组相对策略优化(GRPO)强化学习算法;以及训练后技术:如纯强化学习和多阶段迭代训练,该训练在监督微调(SFT)和强化学习之间交替进行。KV缓存是一种在变压器的多头注意力(MHA)块中使用的技术,通过存储中间键和值来加速推理,避免了重复计算。实际上,KV缓存成为长上下文大型语言模型(LLMs)的瓶颈,因为它们的高内存原创 2025-03-18 10:36:33 · 1064 阅读 · 0 评论 -
【实测闭坑】LazyGraphRAG利用本地ollama提供Embedding model服务和火山引擎的deepseek API构建本地知识库
这个模块的核心功能是通过自然语言处理技术从文本中提取名词短语,构建名词图,并计算节点之间的关系强度。它使用了并行处理和缓存机制来提高性能,并提供了边权重标准化的选项。我首先测试了LazyGraphRAG利用本地ollama提供Embedding model服务和火山引擎的deepseek API构建本地知识库。网上很多教程都是很老的,说利用ollama需要改源码,目前的版本是不需要改任何源码的,直接设置好配置文件即可。主要原因deepseek-V3也不是很友好啊,我没钱prompt 微调啊,晕死。原创 2025-03-17 23:00:22 · 574 阅读 · 0 评论 -
【再读】R1-Onevision通过跨模态形式化为复杂多模态推理任务提供了系统性解决方案
R1-Onevision:跨模态形式化驱动的多模态推理技术突破,R1-Onevision通过跨模态形式化、双阶段训练和教育级基准测试,为多模态推理树立了新标杆。其技术创新不仅提升了模型在复杂任务中的表现,更重要的是为行业提供了一种可解释、可迁移的多模态处理范式。随着形式化方法的不断完善和硬件性能的持续提升,我们有理由期待多模态AI在教育、医疗、工业等领域实现更广泛的落地应用。R1-Onevision:结合形式语言和基于规则的强化学习打造的具有推理能力的多模态开源大型语言模型我们针对其报告进行了一个总结原创 2025-03-17 13:13:42 · 1544 阅读 · 39 评论 -
[撸代码]什么是AI智能体(AI Agents)?教你快速利用LangGraph构建您的第一个Agent
这个构建的示例展示了一种可以应用于许多场景的基本模式。• 医疗研究论文:其中理解研究类型、关键医学术语和核心发现至关重要;• 法律文件:其中识别相关方、关键条款和整体影响是必不可少的;• 财务报告:其中理解报告类型、关键指标和主要结论驱动决策。原创 2025-03-15 14:25:25 · 1356 阅读 · 0 评论 -
【训练细节解读】文本智能混合分块(Mixtures of Text Chunking,MoC)引领RAG进入多粒度感知智能分块阶段
MoC框架通过双重评估指标+混合分块架构分块即语义建模:需联合优化局部相似性与全局结构。轻量化设计:通过规则引导与模型稀疏化,平衡性能与资源消耗。评估先行:直接指标(BC/CS)可加速迭代,减少对下游任务的依赖。论文代码:未开源,但可通过Langchain自定义NodeParser复现核心逻辑(参考附录A.1)。延伸阅读:推荐研究LumberChunker的LLM指令微调策略及SemanticSplitter的阈值优化方法。原创 2025-03-14 14:49:43 · 1805 阅读 · 2 评论 -
上下文微调(Contextual Fine-Tuning, CFT)提高大型语言模型(LLMs)在特定领域的学习和推理能力
大型语言模型(LLMs)在开放领域任务中表现出色,结合上下文学习和微调的方法,通过简单的领域自适应提示显著提高了LLMs在新领域的知识获取和开放式推理能力。实验结果表明,CFT在医疗和金融领域的基准测试中均优于传统的持续预训练和指令微调方法。:CFT通过上下文提示提供额外的语义信息,帮助模型更好地理解和学习新领域的知识,从而提高了学习效率。实验表明,CFT模型在训练过程中损失更低,收敛速度更快。:CFT在多个医疗和财务基准测试中均表现出优于CPT和IFT的性能。原创 2025-03-14 00:00:00 · 1748 阅读 · 4 评论 -
【开源+代码解读】Search-R1:基于强化学习的检索增强大语言模型框架3小时即可打造个人AI-search
强化学习驱动检索:首次将RL应用于LLM与搜索引擎的多轮交互,突破传统监督学习限制。轻量化奖励设计:仅用结果奖励即可引导模型学习复杂检索策略。结构化生成框架:通过标记控制生成流程,兼容不同RL算法。原创 2025-03-13 13:57:02 · 3014 阅读 · 16 评论 -
128K超长上下文多语言多模态Gemma 3发布,单卡AI性能显著提升!27B超越DeepSeek-V3 可在单块 GPU 上运行的最强 AI 模型
增加模型的视觉理解能力,扩展语言覆盖范围,支持长达128K个token的上下文,并通过知识蒸馏提高模型的数学、聊天、指令遵循和多语言能力。Gemma 3 提供 1B(32K)、4B、12B 和 27B 参数大小,在问答、总结和推理等任务中表现出色,其紧凑的设计使其可以在资源有限的设备上部署。尽管如此,模型的记忆和隐私风险仍然需要持续关注和改进。:Gemma的技术演进经历了多个阶段,从最初的Gemma 1到最新的Gemma 3,每一次迭代都在模型架构、多模态能力和长上下文处理等方面取得了显著进展。原创 2025-03-13 09:07:53 · 1821 阅读 · 15 评论 -
数据工程师面临的压力:AI大模型LLM驱动下的数据处理(ETL与大型语言模型)
提取、转换和加载(ETL)流程是现代数据管道的核心,它帮助组织迁移和处理大量数据,用于分析、AI 应用和商业智能(BI)。传统的 ETL 明确基于规则,需要大量手动配置来处理不同的数据格式。然而,随着大型语言模型(LLMs)的最新趋势,我们开始看到变革性的 AI 驱动 ETL 用于数据提取和集成。原创 2025-03-12 12:46:58 · 1873 阅读 · 8 评论 -
【开源代码解读】AI检索系统R1-Searcher通过强化学习RL激励大模型LLM的搜索能力
两阶段强化学习(RL)为了通过探索外部检索环境来激励大语言模型的搜索能力,设计了一种基于结果的两阶段强化学习方法,通过定制的奖励设计,使模型能够在推理过程中自由探索如何调用外部检索系统以获取相关知识。具体来说,在第一阶段,我们采用检索奖励来激励模型进行检索操作,而不考虑最终答案的准确性。这样,大语言模型可以快速学习正确的检索调用格式。在第二阶段,我们进一步引入答案奖励,以鼓励模型学习有效地利用外部检索系统正确解决问题。原创 2025-03-12 00:15:00 · 1606 阅读 · 35 评论 -
如何进行故障分析?分享几款设备故障诊断的解决方案
在当前工业设备制造和应用领域中,设备的安全高效稳定运行对于企业的生产效率和经济效益均至关重要。设备故障诊断技术发展迅速,经历了“人工诊断”阶段、“小模型诊断”阶段,而大模型的到来开启了设备故障诊断的新时代--“大模型智能诊断”阶段,为设备故障诊断和维护带来了革命性的变革。原创 2025-03-11 09:17:14 · 1806 阅读 · 4 评论 -
什么是测试时计算?40张图带你深度理解推理型 LLM 的概念与DeepSeek-R1 的完整训练过程
40多张图带你探索推理大模型、测试时计算,并深入研究 DeepSeek-R1原创 2025-03-11 00:00:00 · 1098 阅读 · 0 评论 -
KidneyTalk-open系统,RAG在医疗场景的真实落地:用于解决肾脏疾病的医疗问答问题
KidneyTalk-open作为第一个无代码的私有大型语言模型系统,成功实现了医学知识管理和智能推理的本地集成。通过创新性地结合开源LLM部署框架、语义知识数据库构建和多代理检索增强技术,解决了医学LLMs应用中的三个关键挑战。实验结果和在实际病例中的应用比较表明,该系统在肾脏疾病诊断和治疗等专业场景中表现出卓越的医学本地化能力和基于证据的推理质量。这一进展为促进智能医疗的包容性发展提供了新的工具。原创 2025-03-10 23:00:00 · 1214 阅读 · 4 评论 -
Chain of Draft草稿链CoD:通过少写多想来加速思考,减少大模型(LLMs)在复杂推理任务中的冗长输出和延迟,比CoT更快
大型语言模型 (LLM) 在通过思维链 (CoT) 提示等机制解决复杂推理任务方面表现出卓越的性能,该机制强调冗长、循序渐进的推理。然而,人类通常采用一种更有效的策略:起草简洁的中间思想,只捕捉基本信息。在这项工作中,我们提出了 Chain of Draft (CoD),这是一种受人类认知过程启发的新型范式,其中 LLM 在解决任务时生成极简但信息丰富的中间推理输出。通过减少冗长程度并专注于关键见解,CoD 在准确性上匹配或超过 CoT,同时仅使用 7.6% 的令牌,从而显着降低了各种推理任务的成本和延迟。原创 2025-03-10 08:19:48 · 1569 阅读 · 3 评论 -
如何利用DeepSeek+OCR技术打造一款AI投标工具:自动解析招标文件并生成投标标书的工具?
打造自动投标工具需以AI为核心,结合行业Know-How和用户体验设计。通过模块化开发、对标成熟产品、差异化创新,可构建高效、合规的解决方案,助力企业在招投标竞争中抢占先机。通过整合自然语言处理(NLP)、多模态大模型、知识图谱等技术,结合招投标行业的深度需求,可打造一款高效、精准的自动投标工具。原创 2025-03-09 20:56:38 · 2055 阅读 · 1 评论 -
通过Python和PyTorch 代码理解解注意力机制的工作原理
请注意,多头注意力结果是一个 6×4 维张量:我们有 6 个输入标记和 4 个自注意力头,其中每个自注意力头返回一个 1 维输出。为了在类似 GPT 的 LLM 中实现这一点,对于处理的每个标记,我们会屏蔽输入文本中当前标记之后的未来标记。在这种方法中,我们取注意力分数,并将对角线上方的值替换为负无穷大,然后将这些值输入到 softmax 函数中以计算注意力权重。例如,多头注意力中的每个注意力头都可以学习关注输入序列的不同部分,从而捕捉数据中的各个方面或关系。这种表示的多样性是多头注意力成功的关键。原创 2025-03-11 08:00:00 · 1486 阅读 · 4 评论 -
AI人工智能正在[工业]钢铁产业生产预测性维护 (PdM) 场景中发挥着巨大作用:场景、方法及步骤
,基于人工智能的预测性维护能够为钢铁行业带来显著益处,包括提高运营效率、减少停机时间以及提升质量:钢铁企业可显著降低非计划停机时间(减少30%-50%)、延长设备寿命(如轧辊寿命提升20%),并优化维护成本(节省15%-40%)。但智能解决方案的开发仍是一项具有挑战性的任务,需要进一步研究原创 2025-03-10 00:30:00 · 1016 阅读 · 0 评论 -
利用LLMs准确预测旋转机械(如轴承)的剩余使用寿命(RUL)
LM4RUL框架【用于基于预训练的大语言模型(LLM)进行轴承RUL预测】在FEMTO数据集上六个跨条件RUL预测任务中,LM4RUL在所有任务中均表现最佳。与DDAN方法相比,在Task 3中,LM4RUL的。在XJTU-SY数据集上三个跨条件RUL预测任务中,LM4RUL也取得了最佳预测性能。与DDAN方法相比,其。原创 2025-03-09 10:15:00 · 1397 阅读 · 0 评论 -
数据增强术:如何利用大模型(LLMs)来模拟不同的扰动类型以增强信息提取任务的鲁棒性
使用数据扰动增强可以在使用少量数据的情况下,提高模型在未见数据集上表现出优越的泛化能力原创 2025-03-09 00:15:00 · 2568 阅读 · 4 评论 -
慎用KG-RAG,如果你不懂何时以及如何利用知识图谱进行检索增强生成那就直接pass
KG-RAG就是知识图谱(Knowledge Graph)与检索增强生成(RAG)的结合,能够显著提升模型在复杂查询、多跳推理、领域知识依赖等场景下的表现。在金融风控、法律分析等对事实准确性要求高的领域,知识图谱通过结构化三元组减少大模型“幻觉”,提供可追溯的引用来源。传统RAG可能因分块检索导致信息割裂,而知识图谱通过子图检索保留全局关系,例如分析企业供应链网络时整合上下游信息。若领域知识频繁更新(如医学研究进展),知识图谱的动态更新机制能快速整合新数据,而无需重新训练模型。原创 2025-03-07 11:17:09 · 879 阅读 · 0 评论 -
结合LLMs和检索增强生成RAG技术应对复杂工业环境中进行自适应异常检测
在复杂工业环境中,异常检测面临独特的挑战,尤其是在数据稀疏和操作条件不断变化的背景下。在这种情况下,预测性维护(PdM)需要适应性强、可转移并能够整合领域特定知识。RAAD-LLM是一个用于自适应异常检测的新框架,利用与检索增强生成(RAG)相结合的大型语言模型(LLMs)解决了上述PDM挑战。通过有效利用领域特定知识,RAAD-LLM在时间序列数据中增强了异常检测能力,而无需在特定数据集上进行微调。该框架的适应机制使其能够动态调整对正常操作条件的理解,从而提高检测准确性。原创 2025-03-07 00:45:00 · 813 阅读 · 0 评论 -
50张图解密大模型量化技术:INT4、INT8、FP32、FP16、GPTQ、GGUF、BitNet
量化的目标是将模型参数的精度从较高的位宽(如32位浮点数)降低到较低的位宽(如8位整数)。在减少表示原始参数的位数时,通常会损失一些精度(粒度)。为了说明这种效果,我们可以拿任何一张图片,只用8种颜色来表示它:请注意放大后的部分看起来比原始图像更“颗粒化”,因为我们只能用更少的颜色来表示它。量化的主要目标是减少表示原始参数所需的位数(颜色),同时尽可能保留原始参数的精度。原创 2025-03-08 00:15:00 · 1849 阅读 · 0 评论 -
利用50张可视化动图理解Mamba与状态空间模型
Mamba 和状态空间模型的简单介绍:为了进一步改进 LLM序列长度增加,则成本会很高的缺点,人们开发了新的架构,其性能甚至可能超越 Transformer 架构。其中一种方法就是Mamba ,一种状态空间模型原创 2025-03-07 00:15:00 · 840 阅读 · 0 评论 -
阿里推出全新推理模型(因果语言模型),仅1/20参数媲美DeepSeek R1
阿里Qwen 团队正式发布了他们最新的研究成果——QwQ-32B大语言模型!这款模型不仅名字萌萌哒(QwQ),实力更是不容小觑!😎QwQ-32B 已在和开源,采用了 Apache 2.0 开源协议。大家可通过直接进行体验!Qwen 团队却用320亿参数的 QwQ-32B,硬刚拥有6710亿参数的 DeepSeek-R1,并且在多项评测中取得了媲美甚至超越后者的惊人成绩!背后究竟是什么黑科技?答案就是——Qwen 团队在博文中提到,他们深入探索了强化学习(RL)在提升大语言模型智能方面的巨大潜力。原创 2025-03-06 08:49:27 · 1098 阅读 · 0 评论 -
用于提升LLMs性能的多种后训练方法Post-Training:微调、强化学习和扩展策略
对LLMs后训练方法的系统回顾,提供了对微调、强化学习和测试时扩展的全面分析。文章强调了这些技术在提升模型推理能力、事实准确性和用户意图对齐方面的作用,并指出了未来研究的方向。通过整合最新的研究成果,文章为优化LLMs在实际应用中的表现提供了有价值的指导。这篇论文为理解和应用后训练技术提供了深入的见解,特别是在提升LLMs的推理能力和对齐人类偏好方面原创 2025-03-06 01:00:00 · 851 阅读 · 0 评论 -
图解MOE大模型的7个核心问题并探讨DeepSeekMoE的专家机制创新
1、什么是专家混合模型(Mixture of Experts, MoE)?2、什么是专家?3、路由机制如何工作?4、如何进行负载均衡?5、如何通过Switch Transformer 简化MoE?6、专家混合模型在视觉模型中如何应用?7、Mixtral 8x7B中的活跃参数与稀疏参数?8、DeepSeekMOE做了哪些创新原创 2025-03-06 00:15:00 · 1073 阅读 · 0 评论 -
从理解强化学习及其在 LLM 中的作用开始手把手教你构建DeepSeek-R1推理模型
本文深入探讨了强化学习(RL)在大型语言模型(LLM)训练中的应用,特别是通过人类反馈强化学习(RLHF)技术对齐人类偏好。文章重点介绍了组相对策略优化(GRPO)这一创新算法,其通过生成多个响应组、组内归一化优势计算和KL散度约束,显著提升了训练效率和稳定性。此外,本文详细解析了DeepSeek R1模型的四阶段训练流程,展示了其在数学和编程任务中的卓越表现。最后,文章还介绍了如何在TRL库中实现GRPO,并提供了配置参数、奖励函数设计和训练监控指标等实用建议原创 2025-03-05 01:15:00 · 1921 阅读 · 10 评论