自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(388)
  • 收藏
  • 关注

原创 大模型系列——Google Colab运行DeepSeek R1

最近我在测试本地运行DeepSeek R1,但CPU温度太高了。我的朋友说你为什么不使用 Google Colab?因为它为你提供了一个 免费GPU最近,我尝试在没有任何 GPU 的情况下在本地运行使用 Qwen 7B 蒸馏的 DeepSeek R1。我的所有 CPU 核心和线程都被推到了极限,最高温度达到 90 摄氏度(Ryzen 5 7600)。我的朋友说你为什么不使用 Google Colab?因为它为你提供了一个 GPU(免费使用 3-4 小时)。

2025-04-03 21:48:26 3

原创 大模型系列——DeepSeek-R1微调指南

在这篇博文中,我们将逐步指导你在消费级 GPU 上使用 LoRA(低秩自适应)和 Unsloth 对 DeepSeek-R1 进行微调。微调像 DeepSeek-R1 这样的大型 AI 模型可能需要大量资源,但使用正确的工具,可以在消费级硬件上进行有效训练。让我们探索如何使用 LoRA(低秩自适应)和 Unsloth 优化 DeepSeek-R1 微调,从而实现更快、更具成本效益的训练。DeepSeek 的最新 R1 模型正在设定推理性能的新基准,可与专有模型相媲美,同时保持开源。

2025-04-03 21:47:42 352

原创 大模型系列——DeepSeek-R1图形界面Agent指南

ChatGPT Operator 是 OpenAI 提供的一项高级功能,允许用户创建能够执行复杂任务(例如推理、Web 自动化和多步骤问题解决)的高级 AI 代理。例如,ChatGPT Operator 在这个视频。

2025-04-01 07:32:36 182

原创 大模型系列——DeepSeek-R1驱动的金融分析师

我们将专注于创建一个专门用于提取相关新闻见解的代理。该代理将利用 DeepSeek-R1 提供全面的市场洞察。在当今快节奏的金融市场中,获取准确及时的信息对于做出明智的投资决策至关重要。想象一下,一位人工智能金融分析师能够分析股票数据、提取相关新闻见解并综合可行的建议——所有这些都是实时的。在上一节中,我们构建了一个能够分析股票数据的金融分析师。现在,我们将专注于创建一个专门用于提取相关新闻见解的代理。

2025-04-01 07:31:25 336

原创 大模型系列——DeepSeek-R1驱动的房地产AI代理

Smolagents 提供了一个极简的 AI 代理框架,专为开发人员设计,以便高效地构建和部署智能代理。简单:紧凑的代码库(约 1,000 行),易于开发。代码代理:执行 Python 代码片段以提高准确性。安全执行:在沙盒环境中运行代码。多功能 LLM 集成:支持多个 LLM,包括 Hugging Face 模型和 OpenAI 的 GPT。工具中心集成:允许从 Hugging Face Hub 共享和导入工具。卓越的可组合性:嵌套函数调用增强了逻辑表示。

2025-03-31 07:49:28 103

原创 大模型系列——DeepSeek-R1聊天机器人开发教程

简而言之,DeepSeek-R1 是一种推理模型,它利用强化学习来教授基本语言模型 DeepSeek-V3 进行推理,而无需人工监督。最先进的推理:DeepSeek-R1 在高级数学任务上可以达到 97.3% 的准确率,优于早期的基准。同样,它在 AIME 2024 上的得分为 79.8%,在 SWE-bench Verified 上的得分为 49.2%,也优于其他模型。成本效率:与行业标准相比,DeepSeek 模型的训练成本显著降低应用广泛:在创意写作、长上下文理解和事实问答方面表现出色。

2025-03-31 07:48:14 151

原创 大模型系列——DeepSeek-R1股市分析综合指南

AI股票交易不再是奢侈品——它是必需品。通过DeepSeek R1,你可以访问免费的AI股票交易工具,构建数据驱动的策略,并领先于市场趋势。无论是初学者还是经验丰富的投资者,DeepSeek都能让AI驱动的股票分析变得易于操作和执行。

2025-03-31 07:47:11 25

原创 大模型系列——DeepSeek-R1的3个关键思想

大多数新的 AI 模型感觉都像是小步。DeepSeek R1 则不同。这是近期第一个让你停下来思考的模型,这可能很重要。来自中国的新型大型语言模型 DeepSeek R1 的发布在 AI 研究界引起了轰动。这不仅仅是又一次渐进式改进。DeepSeek 代表着一次重大飞跃。大多数新的 AI 模型感觉都像是小步。DeepSeek R1 则不同。这是近期第一个让你停下来思考的模型,这可能很重要。中国的一个团队上周日发布了它,它已经引起了轰动。

2025-03-30 22:06:54 16

原创 AI 编程工具—聊天式编程让代码听你的话:Cursor打造极致心流体验

聊天式”**编程的到来。和传统的编程模式相比,“聊天式”编程有三大核心突破:●。

2025-03-30 22:05:04 121

原创 大模型系列——使用Ollama本地部署Gemma-3-27B大模型,基于LangChain分析PDF文档

默认情况下,Ollama 运行语言模型的令牌上下文窗口为2048,当推理时发送的令牌数大于此数值,提示便会被截断。而谷歌 Gemma 3 大语言模型拥有高达 12.8 万令牌的超大上下文窗口,为充分发挥其优势,在本地部署时,基于 270 亿参数版本的 Gemma 3,结合硬件能力,从 gemma3:27b 派生了本地模型,将上下文窗口设置为 16000 个令牌。其具备多模态能力,能处理文本和图像;当用户输入任何研究论文的网址时,系统将根据提示摘要指令,在不丢失上下文信息的情况下,显示出连贯的摘要内容。

2025-03-29 09:36:55 206

原创 大模型系列——Text2SQL 的实现探究

*Spider、WikiSQL和CHASE等主流Text2SQL数据集提供****自然语言查询与SQL查询对应数据**Text2SQL数据集是指一类专门用于训练Text2SQL(文本到SQL)模型的数据集合。**,主要包含****数据集收集、数据预处理、模型选择与构建和微调权重***基于开箱即用的Text2SQL Agent结合业务整合到应用***通过自然语言描述完成复杂数据库的查询操作****开源的AI原生数据应用开发框架****是一个利用LLMs实现****主要包括两种:**

2025-03-29 09:36:08 124

原创 大模型系列——Deepseek + Lakehouse 架构

说到大语言模型,不得不提OpenAI。作为行业的开创者,OpenAI用ChatGPT展示了大语言模型的惊人潜力。但有趣的是,在技术发展道路上,OpenAI选择了一条相对封闭的路线。Deepseek选择了一个与众不同的姿态——开放共享。当笔者深入研读Deepseek的技术文档时,不禁为其披露技术细节的诚意所打动。相比之下,回想前几年研究OpenAI发布的论文时,核心技术细节往往语焉不详。

2025-03-28 07:59:42 166

原创 大模型系列——DeepSeek + IDEA 辅助编程王炸组合

通过以上步骤,你就成功地将 DeepSeek 集成到了 IDEA 中。在今后的编程工作中,你可以尽情享受 DeepSeek 带来的便利和高效,感受它为你带来的那些温暖治愈的瞬间,领略编程世界的无限魅力。

2025-03-28 07:58:57 88

原创 大模型系列——DeepSeek R1驱动的PDF机器人

本指南将引导你使用DeepSeek R1 + RAG构建一个功能性的PDF聊天机器人。逐步学习如何增强AI检索能力,并创建一个能够高效处理和响应文档查询的智能聊天机器人。本指南将引导你使用DeepSeek R1 + RAG构建一个功能性的PDF聊天机器人。逐步学习如何增强AI检索能力,并创建一个能够高效处理和响应文档查询的智能聊天机器人。想象一下:您刚刚部署了一个聊天机器人来处理客户查询,但与其让用户印象深刻,它却在基本问题上磕磕绊绊,吐出无关的答案,甚至更糟——完全捏造虚假信息。听起来熟悉吗?

2025-03-27 08:56:10 131

原创 大模型系列——DeepSeek R1驱动的简历自动分析,在人事行业的应用

本文深入探讨了通过 Together.ai 平台集成 DeepSeek R1 以创建 Resume Roaster 的过程——一种用于详细简历审查的 AI 驱动工具。DeepSeek R1 已用于通过自动化简历审查和为招聘经理提供可操作的见解来简化招聘流程。这些模型在理解和处理结构化文档方面表现出色,使其对于简历分析等任务非常有用。本文深入探讨了通过 Together.ai 平台集成 DeepSeek R1 以创建 Resume Roaster 的过程——一种用于详细简历审查的 AI 驱动工具。

2025-03-27 08:55:21 199

原创 大模型系列——DeepSeek R1架构和训练过程图解

这些问题,混乱的推理和语言混乱,是明显的障碍。现在我们已经了解了 DeepSeek v3 的思考方式,它是 DeepSeek R1 实现的起点,我所说的起点是指它已经创建了 DeepSeek R1 Zero版本,这是一个在创建最终版本之前存在一些错误的初始版本。然后,GRPO 使用计算出的优势来更新策略模型 (DeepSeek-V3-Base),以增加生成具有高优势的输出(如 o2 和 o3)的概率,并降低具有低优势或负优势的输出(如 o1 和 o4)的概率。至关重要的是,这无需单独的批评模型即可完成。

2025-03-27 08:54:26 429

原创 大模型系列——DeepSeek Janus系列多模态模型

DeepSeek 的 Janus是一系列统一的多模态模型,结合了视觉和语言功能。与专注于文本到图像合成或视觉语言任务的传统模型不同,Janus-Series 无缝集成了这两种功能。多模态理解:可以处理文本和图像,实现深度上下文理解。文本到图像生成:类似于 OpenAI 的 DALL-E 3,但开源且针对效率进行了优化。统一 Transformer 架构:使用单个 Transformer 执行文本和视觉任务。可扩展性:支持针对不同硬件功能量身定制的多种模型大小。

2025-03-26 07:35:09 18

原创 大模型系列——DeepSeek Janus Pro 7B

在本文中,我们将探讨 Janus-Pro-7B 的架构、功能、训练方法和潜在应用。此外,我们将提供在实际应用中利用此模型的代码片段。Deep Seek Janus-Pro-7B 是一种创新的大型语言模型 (LLM),在人工智能社区掀起了波澜。Janus-Pro-7B 专为各种复杂任务而设计,在自然语言理解、推理和生成方面表现出色。在本文中,我们将探讨 Janus-Pro-7B 的架构、功能、训练方法和潜在应用。此外,我们将提供在实际应用中利用此模型的代码片段。架构和设计。

2025-03-26 07:34:26 19

原创 Apache Flink 2.0.0: 实时数据处理的新纪元

今天,Flink 开发团队骄傲地宣布 Apache Flink 2.0.0 正式发布!这是 Flink 2.x 系列的首个版本,也是自九年前 Flink 1.0 发布以来的首次重大更新。这个版本凝聚了社区两年来精心筹备与协作的成果,标志着 Flink 发展开启了新篇章。在这个版本中,165 位贡献者齐聚一堂,完成了 25 项 Flink 改进提案(FLIP),解决了 367 个问题。过去十年间,Apache Flink 经历了蜕变式的发展。

2025-03-24 21:31:51 772

原创 大模型系列——DeepSeek API+SearXNG联网搜索

在这篇文章中,我将提供一个快速概述,说明如何使用开源的DeepSeek R1模型和SearXNG搜索引擎在本地搭建一个能够进行网络搜索的聊天机器人。在这篇文章中,我将提供一个快速概述,说明如何使用开源的DeepSeek R1模型在本地搭建一个能够进行网络搜索的聊天机器人。这将是一项相当技术性的任务,我在考虑时感到很困难,因为通讯定位为以非技术性的方式解释技术内容,但为了帮助那些想开始AI之旅的人们,我还是决定写这篇文章。我尽力以非技术性的方式解释(因为我们是半专家,对吧?

2025-03-24 09:13:58 687

原创 大模型系列——SearpApi联网搜索 给DeepSeek插上翅膀

本地部署的DeepSeek API没有联网搜索功能,因此我们需要自己实现,这就是本教程的目的。我找不到 DeepSeek 的知识截止日期,所以我直接问了 DeepSeek:DeepSeek 对知识截止日期的回复如你所见,它的最新知识来自 2024 年 7 月,它建议使用互联网访问获取最新信息。如果你直接使用该平台,可以激活“搜索”功能来搜索网络:DeepSeek 中的 Web 搜索功能但如果使用 API,则需要找到一种变通方法,这就是我们将在本线程中讨论的内容!

2025-03-24 09:13:14 616

原创 大模型系列——DeepSeek与ChatGPT:AI语言模型的全面技术解析与对比(万字深度版)

2023年推出的GPT-4 Turbo进一步整合多模态接口,支持图像、音频输入,但闭源策略限制技术透明度,商业模式依赖API订阅与算力服务。其2023年版本基于LLaMA架构改进,2025年升级为自研MoE(混合专家)框架,参数总量达6710亿,动态激活路径仅需370亿参数。例如,处理量化交易请求时,仅激活金融专家模块,其余参数保持休眠。ChatGPT通过Plugin商店构建生态壁垒,超1.2万个应用覆盖营销、教育等领域,但企业数据需上传至OpenAI服务器,引发欧盟GDPR合规性质疑。

2025-03-21 09:10:12 2573

原创 大模型系列—— Deepseek × SeaTunnel 引领下一代智能数据集成革命

Apache SeaTunnel,这一由国人主导、全球社区共建的顶级开源数据集成项目,凭借其对大模型能力的原生支持、向量数据处理能力的突破,以及无缝衔接百种数据源的开放生态,正成为企业迈向智能化数据处理的核心引擎。在人工智能技术迅猛发展的今天,大模型与数据处理技术的深度融合正在重塑企业数据架构的底层逻辑。等大模型技术,标志着数据处理领域正式进入“大模型驱动”的新纪元。SeaTunnel的2.3.7版本已经深度集成。

2025-03-21 09:09:24 2557

原创 大模型系列——DeepSearch 与 DeepResearch 的设计和实现

DeepSearch 的核心理念是通过在搜索、阅读和推理三个环节中不断循环往复,直到找到最优答案。搜索环节利用搜索引擎探索互联网,而阅读环节则专注于对特定网页进行详尽的分析(例如使用 Jina Reader)。推理环节则负责评估当前的状态,并决定是应该将原始问题拆解为更小的子问题,还是尝试其他的搜索策略。DeepSearch - 持续搜索、阅读网页、推理,直到找到答案(或超出 token 预算)。

2025-03-21 09:08:49 2661

原创 大模型系列——CodeGPT集成DeepSeek-R1 写代码的效率起飞了

本指南将向你展示如何在本地安装和运行 DeepSeek、使用 CodeGPT 对其进行配置以及开始利用 AI 来增强你的软件开发工作流程,所有这些都无需依赖基于云的服务。本分步指南将向你展示如何在本地安装和运行 DeepSeek、使用 CodeGPT 对其进行配置以及开始利用 AI 来增强你的软件开发工作流程,所有这些都无需依赖基于云的服务。

2025-03-20 09:07:06 3375

原创 大模型系列——蒸馏DeepSeek-R1到自己的模型

蒸馏是一种机器学习技术,其中较小的模型(“学生”)经过训练以模仿较大的预训练模型(“老师”)的行为。目标是保留老师的大部分表现,同时显着降低计算成本和内存占用。这个想法最早是在 Geoffrey Hinton 关于知识蒸馏的开创性论文中提出的。它不是直接在原始数据上训练学生模型,而是从老师模型的输出或中间表示中学习。这实际上是受到人类教育的启发。成本效率:较小的模型需要更少的计算资源。速度:非常适合延迟敏感的应用程序(例如 API、边缘设备)。

2025-03-20 09:06:23 3677

原创 大模型系列——IDEA集成DeepSeek,通过离线安装解决无法安装Proxy AI插件问题

许多开发者尝试通过安装ProxyAI等插件将AI能力引入IDEA,但在实际使用中常遭遇插件安装失败、网络连接不稳定或兼容性冲突等问题。例如,企业内网环境下的网络限制可能导致插件市场无法访问,而部分AI插件对IDEA版本或依赖库的严格要求也让开发者陷入反复调试的困境。所以我们可以通过离线安装的方式来解决这一难题。

2025-03-19 21:58:27 3650

原创 大模型系列——大模型:人工智能的前沿

在数字化浪潮汹涌澎湃、日新月异的当今时代,大模型犹如一颗璀璨夺目的新星,在科技的天幕上强势崛起,迅速吸引了全球范围内的广泛关注与热烈讨论,成为科技领域一颗耀眼的焦点。从最初的理论探索与初步尝试,到如今在各行各业中的广泛渗透与深度应用,大模型正以令人瞠目结舌的速度和不可阻挡的态势,重塑着我们的生活方式、工作模式乃至整个社会的运行逻辑。大模型不仅是人工智能技术发展历程中的一个重大突破和里程碑式的成就,更是推动全球经济持续增长、提升社会治理效能、加速科技创新步伐的关键力量。

2025-03-19 21:46:10 3587

原创 大模型系列——在CPU上运行DeepSeek-R1

在 CPU 上运行 LLM 提供了一种扩大可访问性的替代方案,允许更多用户在现有硬件上利用 AI。本指南探讨了在 CPU 上有效使用 DeepSeek R1 的方法。随着对 AI 驱动应用程序的需求不断增长,大型语言模型 (LLM) 已成为各个领域的重要工具。然而,大多数这些模型都需要强大的 GPU 才能有效运行,这使得许多用户无法使用它们。并不是每个人都能买得起高端 GPU,而且从长远来看,云服务的成本可能很高。

2025-03-19 07:49:31 4059

原创 大模型系列——用DeepSeek模型构建AI 代理

在本综合指南中,我们将探讨如何利用 DeepSeek 的功能构建能够以有意义的方式理解、推理和交互的复杂 AI 代理。人工智能领域正在迅速发展,DeepSeek 的模型代表了智能 AI 代理开发的重大进步。在本综合指南中,我们将探讨如何利用 DeepSeek 的功能构建能够以有意义的方式理解、推理和交互的复杂 AI 代理。

2025-03-19 07:48:50 4152

原创 大模型系列——用Deepseek-R1蒸馏自己的模型

为了举例说明,我希望模型能够遍历我的数据集,理解每个意见的情感,并从-5到5对每个意见进行排名,并将其添加到新的列中。总之,上述指南为你提供了一个简单的方法来创建最新精馏Deepseek-R1模型的本地私有实例,并展示了如何创建自定义提示以在自己的数据上以可扩展的方式运行。通过使用pandas的apply()函数,我可以使用上述指定的函数针对数据框中的所有行运行模型,并结合辅助系统提示来帮助指导模型产生正确的输出。确保指定正确的模型。只需在>>>后面直接写入你的提示,就可以开始与你的模型的本地版本互动。

2025-03-18 22:19:27 4526

原创 大模型系列——用DeepSeek-R1构建生成式AI应用

在这篇文章中,我们将使用DeepSeek开源模型构建一个生成式AI应用程序,该模型能够根据我们的需求生成代码和其他内容。在这篇文章中,我们将使用DeepSeek开源模型构建一个生成式AI应用程序,该模型能够根据我们的需求生成代码和其他内容。在构建此应用程序时,我们将使用Langchain(AI工作流框架)、Ollama和DeepSeek-R1等开源工具。为什么我们使用DeepSeek-R1、Langchain和Ollama?

2025-03-18 22:18:10 4676

原创 大模型系列——深度解析 DeepSeek 的蒸馏技术

1.1 蒸馏技术定义与原理模型蒸馏(Knowledge Distillation)是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术。其核心目标是在保持模型性能的同时,显著降低模型的计算复杂度和存储需求,使其更适合在资源受限的环境中部署。蒸馏技术的定义在机器学习中,模型蒸馏是一种优化技术,通过模仿教师模型的输出,训练一个较小的学生模型,从而实现知识的传递。教师模型通常具有较高的性能,但计算成本高昂,而学生模型则更加轻量级,推理速度更快,且内存占用更少。蒸馏技术的原理。

2025-03-17 21:57:16 5796

原创 大模型系列——腾讯IMA 与 DeepSeek- R1 构筑的个人知识库

腾讯 IMA 与 DeepSeek-r1 满血版的完美结合,无疑是个人知识库的理想解决方案。它无需繁琐的部署流程,也不用担心 API 调用的不稳定,为职场人和学生党提供了一个高效、智能的知识管理与运用平台,助力我们在职场与学业的道路上披荆斩棘,不断前行。

2025-03-17 21:54:58 5552

原创 大模型系列——基于DeepSeek-R1构建文档问答机器人

在这个项目中,我们将结合本地 AI 的隐私与 Deepseek R1 的智能,创建一个完全本地化、推理驱动的问答机器人。在人工智能 (AI) 日益融入我们日常生活的时代,一个问题仍然处于最前沿:隐私。尽管基于云的 AI 系统功能强大,但它们通常伴随着重大的权衡——你的数据在远程服务器上处理,这引发了对安全性和机密性的质疑。对于许多应用程序,尤其是那些处理敏感信息的应用程序,这根本是不可接受的。如果我们能够利用人工智能的力量,同时将所有内容保持在本地,确保你的数据永远不会离开您的机器,那会怎样?

2025-03-15 09:13:44 7192

原创 大模型系列——基于DeepSeek R1的RAG实战

本指南将向你展示如何使用开源推理工具 DeepSeek R1 和用于运行本地 AI 模型的轻量级框架 Ollama 构建检索增强生成 (RAG) 系统。你是否曾希望直接向 PDF 或技术手册提问?本指南将向你展示如何使用开源推理工具 DeepSeek R1 和用于运行本地 AI 模型的轻量级框架 Ollama 构建检索增强生成 (RAG) 系统。

2025-03-15 09:12:26 7189

原创 大模型系列——构建Deepseek AI邮件代理

实时获取电子邮件。将其分类为垃圾邮件、紧急、需要审查和信息性类别。为每封电子邮件生成摘要。使用摘要来撰写适当的回复。根据用户输入发送或草拟回复。虽然是关键组件,但我们还需要其他工具来构建此系统。主要使用的三个工具是LangChainLangGraph和IMAP服务器。生成电子邮件内容的简短摘要。将摘要传递给响应节点进行处理。

2025-03-15 09:11:22 7156

原创 大模型系列——当微信支持 DeepSeek 后,完全实现了生态全闭环,你想象不到有多好用!

AI 时代腾讯的优势巨大,具体不是提现在技术上,而是微信的生态。基本每个中国人只要会上网都得使用微信,这么强大的一个生态当接入 DeepSeek 后,无疑会爆发出巨大的能量。“ima知识库”就像你在微信里的私人知识库助手,上传所需的文档、文章等资料或者公众号文章,即可构建你的专属智库。上传的垂直领域资料越多,系统在相关赛道的解答就越深入全面,后续在更多垂直领域比拼的就是知识库数。

2025-03-15 09:10:26 7085

原创 大模型系列——LangChat如何接入DeepSeek-R1模型

本教程给使用LangChat的朋友学习如何本地部署DeepSeek-R1模型。以及如何使用LangChat的Agent功能构建知识库。

2025-03-14 13:40:34 7660

原创 大模型系列——Pgvector:如何轻松将PostgreSQL转变为矢量数据库

pgvector是一款PostgreSQL扩展,专门用于存储矢量并在这些矢量中执行相似搜索。与传统的PostgreSQL数据类型不同,pgvector针对高维数据进行了优化,非常适合机器学习模型、图像识别和自然语言处理任务。pgvector的核心特性:高效的矢量存储:pgvector在不丢失数据完整性的情况下压缩高维矢量。这是一件大事,因为高维数据可能会成为存储的噩梦。多种距离度量:无论你使用欧几里德距离、余弦相似度还是曼哈顿距离,pgvector都能应对。

2025-03-14 13:38:06 7529

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除