大模型零基础教程-优快云博客

原创 DeepSeek开发实战教程！DeepSeek-R1-Distill-Qwen与LangChain的本地大模型应用开发教程！

创建LLM.py# 基于本地 DeepSeek_R1_Distill_Qwen 自定义 LLM 类print("正在从本地加载模型...")print("完成本地模型的加载")generated_ids = self.model.generate(model_inputs.input_ids, attention_mask=model_inputs['attention_mask'], max_new_tokens=8192) # 思考需要输出更多的Token数，设为8K@property。

2025-04-05 10:45:00 532

原创 Grok3 又双叒叕进化啦？？？

最近 AI 圈的节奏简直比短视频还快。今天一个爆更，明天一个官宣，每天都在上新。这不 Grok3 又双叒叕上新了，而且还卷到了图片编辑领域。与此同时，豆包这边也不声不响地迎来了大更新。

2025-04-04 08:30:00 443

原创 DeepSeek AI智能运营：重构企业效率的范式革命

本书从多个方面介绍了如何整合AI技术进行运营工作，包括AI与用户运营的融合、精细化运营策略的构建、智能内容创作助手的运用、AI驱动分析决策。读者可以通过本书学习如何利用AI处理运营工作，从而更好地满足目标受众需求，提高内容质量，做出更准确的决策，并提升工作效率。本书内容丰富实用，旨在帮助读者适应数字化时代的挑战，实现运营工作的智能化和高效化。握人工智能大模型在写作中的应用。任嘉兴专栏作家独立运营顾问三节课特邀专家讲师。

2025-04-02 10:51:51 1041

原创 GPTs+RPA赋能智慧校园：构建下一代教育智能体的技术实践

定制化GPTs（Custom GPTs）是由OpenAI推出的一种创新技术，它允许用户根据自己的特定需求和应用场景来创建定制版本的GPTs。定制化GPTs结合了用户自定义的指令、额外的专业知识以及多样化的技能，旨在为用户提供日常生活、工作或特定任务中的更多帮助和支持。

2025-04-02 10:51:05 907

原创新版DeepSeek-V3官方报告出炉：超越GPT-4.5，仅靠改进后训练

刚刚，DeepSeek官方发布DeepSeek-V3模型更新技术报告。！而且这。DeepSeek-V3-0324和之前的DeepSeek-V3。打破了之前传言该版本base模型是R2的传言。，与此前网传的685B有所出入。开源版本上下文长度为128K（网页端、App和API提供 64K 上下文）。私有化部署时只需要更新checkpoint和tokenizer_config.json（tool calls相关变动）。目前，想要体验这一版本模型，只需用户登录官方网页、APP、小程序进入对话界面后，

2025-04-01 10:52:42 1074

原创 OpenAI 的噩梦！DeepSeek V3 0324 可在 Mac Studio 上以每秒 20 个 token 速度运行

2025 年 3 月 25 日，DeepSeek 悄然发布了一种新的大语言模型，该模型已经在 AI 行业掀起了轩然大波，不仅仅由于它的强大功能，还由于其部署方式。这款 641 GB 的模型名为 DeepSeek-V3-0324，今天出现在 AI 代码存储库 Hugging Face 上。几乎没有任何公告，延续了这家公司低调发布强大产品的模式。

2025-04-01 10:38:40 262

原创智谱干了件好事儿，免费不限量，这是国内首个正经给用户使用的通用智能体

未来已来，只是分布不均。成为那个提前拥抱未来的人。如果你希望系统掌握智能体技术，不只是浅尝辄止，而是真正理解并运用这项改变世界的力量，我诚挚推荐你阅读「AI智能体红宝书」—这是我倾注心血打造的智能体学习指南，从入门到精通，一本打尽。

2025-03-31 22:19:45 735

原创 MCP、RAG、Agent之间的概念和关系，被我和AI协作的12张图总结了

RAG将信息检索与文本生成相结合，创造更准确、信息更充分的回应。

2025-03-27 11:51:32 389

原创通义QwQ-32B+Milvus，消费级显卡布满血大模型与RAG的时代来了！

最近，通义开源的QwQ-32B模型可谓是火的一塌糊涂。作为一个中型推理模型，QwQ-32B。

2025-03-27 11:46:11 703

原创可解释人工智能在工业智能诊断中的挑战和机遇：归因解释

（一）基于注意力机制的归因解释人类视觉系统在观察外界信息时，会自动聚焦于感兴趣区域并抑制不相关的信息。基于深度学习的注意力机制类似于人类视觉系统，可以从输入信息中筛选出利于模型预测的特征并赋予其更高的权重。基于注意力机制的事后可解释方法通过可视化注意力权重解释信号特征对模型决策的贡献。具体来讲，在深度网络中融入注意力机制，在训练过程中通过反向传播算法优化网络，注意力权重会自适应为输入信号的特征分配权重。

2025-03-27 11:44:55 251

原创 Energy 基于贝叶斯算法优化的CNN-LSTM神经网络的水轮机故障诊断

CNN在特征学习方面具有影响力，并且具有高度的容错性和鲁棒性。CNN是一个由输入层、卷积层（CONV）、激活函数层、池化层和全连通层（FC）组成的多层神经网络，其典型架构如图2所示。LSTM是一种改进的RNN。它学习长期依赖信息，以缓解RNN在训练过程中的梯度消失和爆炸问题。LSTM是处理时间序列数据的理想选择[49]RNN只能保持一个隐藏状态，而LSTM有更多的参数来决定存储什么信息和丢弃什么信息，基于LSTM的网络是时间序列分类和预测的理想选择。LSTM的整体结构如图3所示。

2025-03-18 10:56:41 346

原创海龟策略：量化交易的实战应用

1983年，期货大佬理查德·丹尼斯做了一场实验：他招募了23名新手（昵称“海龟”），传授一套趋势跟踪策略，并每人给予100万美元资金。5年后，这群“海龟”中最高盈利达1.72亿美元。Anderson（2000）：在国债期货和小麦市场中应用海龟交易法则，取得了超额收益，并验证了最优资产配置方法的适用性。John et al.（2004）：在美国国债期货、标准普尔500指数期货和黄金期货中进行了大量市场论证，发现海龟交易法则在美国期货市场中能够取得超额收益。他们还对模型进行了优化，进一步提升了收益。

2025-03-18 10:55:26 427

原创办公效率翻倍！如何让Word与Deepseek完美融合（保姆级教程）

Deepseek是超强大的语言模型，接入word后相当于为文档配备了一个智能高效助手，无论查找资料、优化表达、在线翻译都非常方便。效果展示：操作步骤展示：一、打开Deepseek官网，进入API平台官网：https://www.deepseek.com/二、创建一个API Keys并复制3.配置word1）新建一个wrod2)点击左上角文件3）点击选项4）勾选开发者工具5）设置信任中心6）点击开发者工具的visual basic7)插入模块8）粘贴代码。

2025-03-17 21:32:15 884

原创 IEEE TII | 论文荐读！对比学习+领域自适应！CTPA：对比时序预测自适应方法 , 用于工业时间序列的跨领域预测

所提出的CTPA方法能够将从一个条件（有标签的源域）学到的知识转移到另一个条件（无标签的目标域）。这种方法允许在源数据和目标数据之间发现相关性和域不变表示，同时保持每个域的固有结构。图1展示了CTPA的整体框架。CTPA的神经网络架构包括一个编码器、一个预测器、一个映射模块和一个对抗判别器。源模型通过使用有标签的源域数据进行监督预训练。预训练损失函数包括预测损失和对比域泛化损失。然后，预训练好的模型被转移到目标域，并将目标模型初始化为源模型。

2025-03-17 21:29:03 676

原创 2025年大模型应用落地白皮书：企业AI转型行动指南解读（附PDF下载）

这份白皮书是《2025年大模型应用落地白皮书：企业AI转型行动指南》，由火山引擎发布，旨在为企业在大模型技术的应用落地提供指导和参考。以下是对白皮书内容的详细解读分析：核心观点• 大模型与业务深度融合：大模型技术已进入与业务深度整合的关键时期，企业正基于具体业务场景积极探索大模型的实际部署与应用潜力.• 落地周期和应用速度超预期：大模型能够大幅提升企业生产力、驱动业务创新和增长，企业实现大模型部署的周期已缩短至平均6-12个月.

2025-03-14 10:36:21 1063

原创大模型(LLM)到底是什么？和AI有啥关系？

简单科普一下，AI是人工智能，大模型是大语言模型（LLM）的缩写，大模型是AI领域的一个重要领域和分支。ChatGPT爆火之前，提到AI模型一般指的是垂直模型，比如会做翻译的AI，会下围棋的AI，会对话的AI等。传统的AI都是这种只会做特定领域事情的模型，无法像人类一样，什么都会干。如果AI什么都能干了，那叫做通用人工智能（AGI）。

2025-03-14 10:32:35 432

原创手把手教你实现自己的“Manus”：构建基于容器的多用户Agent应用【下】

继续上文（手把手教你实现自己的“Manus”：构建基于容器的多用户Agent应用【上】）来完成自己的“Manus”。再重复下我们关注的重点：编码Agent与Web Agent是主要任务工具它们需要在容器环境中执行以确保安全多用户环境，每个用户有自己的Agent与容器**构建Tool：浏览器自动化（Docker版）**这个工具的任务是把AI生成的代码在一个动态启动的容器中执行，并返回结果。它并不关心代码的目的，仅仅是纯粹的执行。OK，这就是全部工作。如果不放心，你可以单独测试这个工具。

2025-03-13 10:48:53 652

原创 OpenAI新品背后的Agent竞争，Manus威胁有多大？

整体来看，这次OpenAI的发布更像是将自家operator和deep research中的一些功能对外开放，让开发者能够更便捷地构建工作流。然而，这些更新似乎并不足以成为对Manus的有力回应。从短期发展来看，Anthropic的Claude Code未来发展反而更值得期待。

2025-03-13 10:43:03 623

原创定理解释Agent：迈向大模型定理理解的多模态解释

论文提出了一种名为TheoremExplainAgent的AI系统，用于生成多模态定理解释视频，并构建了TheoremExplainBench基准测试来评估其效果。论文题目： TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding论文链接： https://arxiv.org/abs/2502.19400。

2025-03-12 11:39:21 672

原创大模型，潜力有多大？

将大模型“装”进手机、融入供应链，带到办公室和生产线……2024年以来，不少国产大模型已经踏上和实体产业相融合的新赛道，加速多场景落地。今年《政府工作报告》明确指出，持续推进 “人工智能＋”行动，将数字技术与制造优势、市场优势更好结合起来，支持大模型广泛应用，大力发展智能网联新能源汽车、人工智能手机和电脑、智能机器人等新一代智能终端以及智能制造装备。“支持大模型广泛应用”首次被写入《政府工作报告》，为人工智能产业发展注入了强劲动力。

2025-03-12 11:31:14 892

原创最新「大模型简史」整理！从Transformer（2017）到DeepSeek-R1（2025）

语言模型」是一种「人工智能系统」，旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构，使得能够产生连贯且上下文相关的文本，应用于翻译、摘要、聊天机器人和内容生成等领域。

2025-03-10 22:03:05 1002

原创 AI大模型就业指南：大模型热门就业方向有哪些？

随着人工智能技术的飞速发展，大模型（Large Models）已成为推动行业革新的关键力量。这些模型在自然语言处理、计算机视觉、推荐系统等领域展现出卓越的性能，为求职者开辟了新的职业道路。本文将深入探讨AI大模型时代下的热门就业方向。一、自然语言处理（NLP）自然语言处理是大模型应用最为广泛的领域之一。随着BERT、GPT等预训练模型的普及，NLP工程师的需求量激增。

2025-03-10 21:37:29 1765

原创我花了5分钟，成功部署阿里QwQ-32B，秒出的感觉太爽了

Manus 昨天平地一声雷炸的圈子里的好多人都头脑发热了，官方和一些带节奏的人估计都度过了难忘的一天。今天圈子终于开始有点回归理性了。今天除了五位数的邀请码一码难求，另一边复现 Manus 项目出的飞快，连卖 Manus 的课教程都冒出来了，真快啊（不过大家还是要谨慎一点擦亮眼睛）。回到今天群聊的榜一大哥——QwQ 32B.我翻了一下聊天记录，吐槽最多的是——推题 token 太长，动辄 2、3 万字一直在推理，不出东西其实 QwQ 这个模型之前发布过一个预览版，只不过这次是正式版。

2025-03-08 11:30:25 3218

原创单显卡即可！深度解析QWQ-32B开源模型本地化部署

日前，阿里云通义千问官方宣布推出最新推理模型QWQ-32B。QWQ-32B 模型以其的“小巧”身材，实现了的卓越性能，这无疑是一个令人振奋的突破。其成功的关键，在于创新性地引入了策略。传统AI模型通常依赖于预训练和微调，这种模式在处理复杂推理任务时，往往显得力不从心。QWQ-32B 采用了独特的双阶段强化学习训练方法，模拟了人类从错误中学习、不断精进的过程。模型在初期训练中，接受基于明确结果的奖励信号，例如数学题的对错、代码的运行结果等。这使得模型能够快速掌握特定领域的专业技能。

2025-03-08 11:26:48 4371

原创一手体验首款通用Agent产品Manus - 唯有惊叹。

昨天夜里，深夜惊雷。一个新团队突然发了一个首款通用行的项目：Manus。演示在此，我人直接看麻了。看完我的第一感觉，卧槽，人类又要一败涂地了。这尼玛，就是OpenAI的DeepResearch和Claude的Computer Use的究极集合体，甚至，他还能自己写代码，直接Coding Agent。这特么是什么怪物啊。。。我预想到这一天会来，只是没想到，来的如此之早。Manus在GAIA的评分上，也非常的离谱。已经超越OpenAI的DeepResearch的了，成为GAIA评分第一。

2025-03-07 17:26:29 1097

原创现象级Manus一夜爆火！10 万的邀请码被指套壳炒作，合伙人出面澄清：从未开设任何付费获取的渠道……

AI智能体并不是大模型应用的终点，具身智能、代理式人工智能以及通用人工智能都可能是AI智能体的下一步。继DeepSeek 之后，科技圈又一个不眠之夜！3月6日凌晨，一款名为“Manus”的AI工具，迅速走红，全网刷屏。据团队介绍，Manus在GAIA基准测试中取得了SOTA（State-of-the-Art）的成绩，显示其性能超越Open AI的同层次大模型。据了解，在使用传统AI大模型时，需要用户挨个提需求，AI依次完成，随后再提需求，AI依次完成……以此类推；

2025-03-07 17:07:17 1066

原创 Manus背后的华人团队：套壳到极致，就是胜利｜甲子光年

因为没码，直奔主题，全文无尿点。Monica 公司发布的 AI Agent 智能体产品 Manus 是一款具备突破性技术的通用型 AI 代理，根据 Manus官网（https://manus.im）技术白皮书和网络公开资料，整理 Manus 核心技术和应用信息如下，欢迎讨论。Manus 采用的分工机制，模拟人类工作流程，提升复杂任务的处理效率。采用蒙特卡洛树搜索（MCTS）算法优化任务拆解效率；调用工具（如代码编写、网页爬虫），不能调用 CS 架构应用程序；

2025-03-06 20:35:34 1470

原创 Manus超详细介绍，看这一篇就够了

因为没码，直奔主题，全文无尿点。Monica 公司发布的 AI Agent 智能体产品 Manus 是一款具备突破性技术的通用型 AI 代理，根据 Manus官网（https://manus.im）技术白皮书和网络公开资料，整理 Manus 核心技术和应用信息如下，欢迎讨论。Manus 采用的分工机制，模拟人类工作流程，提升复杂任务的处理效率。采用蒙特卡洛树搜索（MCTS）算法优化任务拆解效率；调用工具（如代码编写、网页爬虫），不能调用 CS 架构应用程序；

2025-03-06 20:27:25 12045 1

原创一步步将DeepSeek R1微调成一个DeepDoctor（资深医生）

DeepSeek-R1 和 DeepSeek-R1-Zero 在数学、编程和逻辑推理任务上与 OpenAI 的 o1 性能相当。

2025-03-06 11:53:39 770

原创 MaxCompute x DataWorks × DeepSeek，实现使用自定义数据集微调DeepSeek-R1蒸馏模型

表结构新建好并提交发布后，您可以使用 DataWorks 通过数据集成任务、MaxCompute 节点任务向 MaxCompute 表中写入数据，DataWorks 深度适配数十种大数据及 AI 计算引擎进行数据集成，支持自定义数据集的开发与调度。此外，DataWorks 还支持通过上传数据功能将本地数据导入 MaxCompute 表中。当然，也可以使用 DataWorks 对写入的数据进行二次开发。

2025-03-06 11:44:09 780

原创 AI大模型的原理、应用与未来趋势（非常详细）零基础入门到精通，收藏这一篇就够了！

在自然语言处理（NLP）和人工智能（AI）的浩瀚星空中，大语言模型（Large Language Models, LLMs）如同一颗璀璨的新星，正在改变我们与语言、与机器交互的方式。本章将带您踏上一段探索之旅，揭示大语言模型的发展历程、独特魅力及其在现实世界中的多彩应用。

2025-03-05 11:33:59 1126

原创 DeepSeek-R1 x Agentic RAG：构建带“深度思考“开关的知识研究助理

RAG是一种基于“检索结果”做推理的应用，这大大限制了类似DeepSeek-R1模型的发挥空间。但又的确存在将RAG的准确性与DeepSeek深度思考能力结合的场景，而不仅仅是回答事实性问题。比如：基于企业知识库与产品文档，写一份市场分析报告。根据已有的技术报告创作一篇公众号文章。你很难用传统的RAG方法去“回答”这样的主题；也无法快速的更换DeepSeek就输出需要的结果。本文将介绍**如何结合DeepSeek-R1与Agentic RAG方法以构建带有“深度思考”开关的问答与研究助理。

2025-03-05 11:12:16 1130

原创「AI 智能体：从0到精通」教你创建你的第 1 个知识库（小白入门篇），从入门到精通，看这篇就够了！

图片类型的知识库，也可以把它当作一个线上的图片存储空间。也可以结合上画板、光影融合、叠图等等插件工具，可以做出很多「付费功能」嗯，没错，在外面一些应用中，要「付费」才能使用的功能所以去复刻他们吧~让他们看看 AI 赋能的威力，hhhh瑞思拜~

2025-03-04 11:41:01 1597

原创聊一聊五种智能体模式

AI 智能体是利用 LLM 处理信息、与工具交互并执行任务的系统。工作流（Workflow）：LLM 与外部工具按照预定义的执行路径进行结构化序列操作。此类系统注重可预测性，适用于定义明确且可重复的任务。智能体（Agent）：更具动态性和自主性的系统，LLM 可自主决定流程、选择工具并确定任务完成方式。这种方式提供了更大的灵活性和适应性。选择工作流还是智能体取决于问题领域：工作流在结构化自动化任务中表现出色，而智能体则更适合需要大规模动态决策的场景。

2025-03-04 11:27:42 594

原创学习AGI大模型到底有多重要？

AGI大模型的重要性不仅体现在其技术本身，更体现在其对我们生活的深远影响。它将改变我们的工作方式，提升我们的生活质量，推动社会的发展。因此，学习AGI大模型，了解其背后的原理和应用，对于我们来说至关重要。在2024年，AGI大模型将成为科技发展的关键力量。它将引领我们进入一个全新的智能时代，为我们带来前所未有的便利和机遇。因此，让我们抓住这个机遇，学习AGI大模型，掌握未来的科技力量，为自己的生活增添更多的可能性。

2025-03-03 11:52:31 876

原创搞懂推理大模型，看这篇就够了！_推理模型

如果你从事人工智能（或一般的机器学习）工作，你可能对模糊且备受争议的定义并不陌生。“推理模型”这一术语也不例外。最终，有人会在一篇论文中正式定义它，但很快又会在下一篇论文中被重新定义，如此循环。在本文中，我将“推理”定义为回答需要复杂、多步生成并包含中间步骤的问题的过程。例如，像“法国的首都是哪里？”这样的事实性问题并不涉及推理。相比之下，像“如果一列火车以每小时60英里的速度行驶3小时，它会行驶多远？”这样的问题则需要一些简单的推理。例如，它需要在得出答案之前认识到距离、速度和时间之间的关系。

2025-03-03 11:47:28 1081

原创刚刚，GPT-4.5震撼上线情商逆天！OpenAI最大最贵模型最像人类，奥特曼带娃缺席

这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。考试没过确实很打击人，也会让人特别沮丧，但你要记住，这只是一次考试而已，不能代表你这个人，更不能说明你的实力。截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。画作以精湛的技法刻画了火光照耀下的海景与自然风光，将古典神话主题与壮丽的自然景观完美结合，展现出独特的艺术魅力。它们是互补的，而非相互竞争」。

2025-02-28 17:23:57 905

原创用DeepSeek和AnythingLLM搭建个人知识库，简单又省事，关键还好用

DeepSeek从发布R1版本后，瞬间掀起了全球关注热潮！无论是技术大咖还是普通用户，都迫不及待地在试用这个神器。从一线开发者到三四线城市的网友，大家都在争先恐后地探索如何利用DeepSeek优化自己的工作和生活。你也许已经在朋友圈看到各种关于DeepSeek的讨论和分享，也有些人已经用他提升了自己的工作效率，自媒体也使劲的宣传为自己赢得流量（也请用户谨慎区别，客观看待）今天，分享一个通过DeepSeek和AnythingLLM来快速构建一个自己的个人知识库。

2025-02-27 11:03:24 1161

原创 2024年最全AI大模型面试题合集，AI大模型面试从入门到精通！

如果你对这些面试题的答案感兴趣的话，记得添加下方，我会在后台将完整的PDF答案分享给你。你了解ReAct吗，它有什么优点？解释一下langchain Agent的概念langchain 有哪些替代方案？langchain token计数有什么问题？如何解决？LLM预训练阶段有哪几个关键步骤？RLHF模型为什么会表现比SFT更好？参数高效的微调（PEFT）有哪些方法？LORA微调相比于微调适配器或前缀微调有什么优势？你了解过什么是稀疏微调吗？

2025-02-27 10:27:35 1111

原创 DeepSeek接入个人知识库，保姆级教程来了！

RAGFlow 是一款基于深度文档理解的开源检索增强生成（Retrieval-Augmented Generation，RAG）引擎，旨在通过结合信息检索和生成式 AI 的优势，解决现有技术在数据处理和生成答案方面的挑战。

2025-02-26 11:41:03 2876

空空如也

空空如也