自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(677)
  • 收藏
  • 关注

原创 在个人电脑上运行Llama 3 70B大规模模型指南

随着人工智能和机器学习技术的迅猛发展,像Llama 3 70B这样的庞大语言模型已经成为了研究、开发和应用中的重要工具。这篇文章将详细介绍如何在个人电脑上运行Llama 3 70B大模型,并涵盖硬件要求、软件环境配置、安装步骤、运行示例和常见问题的解决方案。虽然运行这样一个大规模的模型在性能上有限制,但对于实验和学习非常有帮助。

2024-06-15 10:35:11 7287

原创 2024!国内AI大模型平台哪家强?全方面测评来了

这篇仅是开坑哈,后面会持续更新的~主旨就是想要在滚滚浪潮中帮助AI开发者发现、汇聚到简单、好用的AI大模型平台&开发者社区上来,共建国内繁荣AIGC生态!!有些规模太小、不好用、吃相太难看(没几个模型就要走付费变现路子的)的平台我就先不放上来啦。

2024-06-05 17:14:02 7085

原创 如何学习训练大模型——100条建议(附详细说明)_如何训练自己的大模型

通过深入了解本文中的这些细节,并在实际项目中应用相关知识,将能够更好地理解和利用大模型的潜力,不仅在学术研究中,也在工程实践中。通过不断探索新方法、参与项目和保持热情,并将其应用于各种领域,从自然语言处理到计算机视觉和自动驾驶。通过不断学习、实践和探索,可以不断提升自己在深度学习领域的技能和洞察力,同时也能为社会和行业带来创新和改进。从小规模的项目和模型开始,逐渐迭代和扩展到更大的模型,逐步积累经验,最终能够处理大模型和复杂任务。分享您的研究成果和代码,以获得反馈和建立声誉。

2024-04-17 11:56:47 6760

原创 AI 入门,从零搭建完整 AI 开发环境,并写出第一个 AI 应用

在本文中,我们从零开始,一步步搭建了一个完整的AI开发环境,并创建了一个简单的AI应用。您学习了如何安装Python、Anaconda、TensorFlow,以及如何使用Jupyter Notebook进行开发。通过这个简单的手写数字识别应用,您不仅学习了AI的基本概念,还亲身体验了AI的应用。AI是一个广阔而充满机遇的领域,希望这个教程能够激发您继续深入学习和探索AI的兴趣。

2024-04-10 11:02:43 10153 1

原创 国内超大型智能算力中心建设白皮书 2024

智算中心建设通过领先的体系架构设计,以算力基建化为主体、以算法基建化为引领、以服务智件化为依托,以设施绿色化为支撑,从基建、硬件、软件、算法、服务等全环节开展关键技术落地与应用。一、体系架构(一)总体架构图8 智算中心总体架构智能算力中心建设白皮书,重点围绕基础、支撑、功能和目标四大部分,创新性地提出了智算中心总体架构。其中,基础部分是支撑智算中心建设与应用的先进人工智能理论和计算架构;支撑部分围绕智算中心算力生产、聚合、调度、释放的作业逻辑展开;功能部分提供算力生产供应、数据开放共享、智能生态建设和产业创

2024-04-08 15:07:31 9330 1

原创 一文讲清智能体(AI Agent),这是一篇不得不看的干货总结!

智能体(Agent)作为先进的人工智能实体,通过持续感知外部环境、自主决策并执行行动来达成预设目标。其架构具备环境感知、动态决策、行为执行等核心功能模块,并集成记忆存储机制、多层级规划策略及工具调用能力。其规划模块整合了思维链推演、自我反思机制及目标分解技术,形成闭环式认知增强系统。区别于传统AI系统,智能体展现出三大核心特性:在独立运作层面具有无需人工干预的决策自主性;在时间维度上支持长期运行与迭代优化;在环境交互中可通过数据驱动持续演进行为策略。

2025-04-01 10:50:41 459

原创 一文了解DeepSeek及应用场景

DeepSeek R1在数学、代码、自然语言推理等任务上。

2025-04-01 10:44:49 359

原创 一篇关于DeepSeek模型先进性的阅读理解

现在DeepSeek是风光无两的当红炸子鸡,不懂DeepSeek都不意思跟人聊天了,为了紧跟时代进度的步伐,做一个懂AI的IT从业人员,积极学习了一下“先进”生产力,做好自我“反思”,回馈圈内外好友。

2025-03-31 15:06:46 462

原创 什么是RAG(说人话版)

RAG(Retrieval-Augmented Generation)是一种结合信息检索与生成模型的技术,旨在通过从外部知识库动态检索相关信息,提升大语言模型(LLM)生成内容的准确性、时效性和可信度。

2025-03-31 15:03:52 741

原创 RAGFlow+DeepSeek搭建本地知识库

将文本(World、PDF等等)中的自然语言转换成机械可以理解的高维向量,然后通过向量之间的匹配和比对去捕获到单词或是句子背后的语义信息。除了针对知识库的文本之外,还会针对用户输入的信息进行处理。说人话就是,Embedding模型会把信息转换成对应的身份证,然后会匹配两个身份证最相似的数据。

2025-03-29 10:37:14 778

原创 刚刚,阿里Qwen2.5-Omni又开源,实时语音与视频,太卷了~

Qwen2.5-Omni的核心优势在于:全能感知+实时交互+低成本部署。它不仅让AI更像“真人”,还通过开源和轻量化设计,让普通用户和开发者都能轻松用上顶尖技术,彻底改变了AI“高高在上”的印象。

2025-03-29 10:31:22 597

原创 从单模态到世界模型 | AI大模型将如何突破现有技术天花板?

随着人工智能技术的不断发展,AI大模型已经成为目前最受关注的领域之一。尤其是在,AI大模型已经取得了一系列令人瞩目的成果,如GPT-4、BERT等。但是,AI大模型并不局限于自然语言处理领域,未来将会涉及图像、声音、视频等多模态数据。多模态AI大模型是指同时处理多种不同类型数据的AI大模型。这些数据可以是等多模态数据。未来的AI大模型将会更加全面、多样化,并能够更好地处理各种类型的数据。这将使得AI大模型在更广泛的应用场景中发挥作用,如图像、声音和视频等领域。

2025-03-28 10:43:30 524

原创 申请DeepSeek API详细教程(图文并茂),通信小白也能看懂!

使得开发者可以在自己的应用程序中调用DeepSeek的智能服务。这些服务包括但不限于文本理解、生成、处理,以及特定领域的推理和分析等。申请DeepSeek API主要有以下。

2025-03-28 10:37:46 599

原创 首篇多模态 RAG 全栈技术综述出炉~

和为 Multimodal RAG:多模态RAG多模态检索增强生成(RAG)通用框架,突出展示了每个阶段所采用的先进技术和方法。查询预处理、多模态数据库、检索策略(模态为中心)、融合机制、增强技术、生成阶段、训练策略(噪声管理技术)。:数据集、评估指标、基准测试、评估方法以及检索、融合、增强和生成方面的创新检索策略是多模态RAG系统的核心部分,主要通过高效搜索和相似性检索来提升信息检索的准确性和效率。融合机制的目标是将来自不同模态的数据整合到统一的表示中,以支持跨模态推理。

2025-03-27 10:23:16 805

原创 Deepseek本地部署必备硬件指南,轻松上手无难度

本地部署DeepSeek需根据模型规模匹配硬件,入门级可选RTX 3060+16GB内存,企业级推荐多卡A100+128GB内存。量化技术与Ollama工具能显著降低部署门槛,而Linux系统与高速SSD可进一步提升性能。若追求便捷,一体机是平衡成本与安全的折中方案。我的DeepSeek部署资料已打包好(自取↓)

2025-03-27 10:19:05 1027

原创 从黑箱到透明:深度拆解LLM的8个关键步骤

表面上看,大型语言模型(LLMs)似乎非常直接——你输入一些内容,它们生成一个回应。简单的输入,简单的输出。但在幕后,这是一个复杂的转换链——原始文本被分解成数字,通过神经计算的多层处理,最终,模型生成的内容听起来非常接近人类的语言。从根本上说,这一切都归结为一件事:预测下一个词。在这篇文章中,我将把这一过程分解为大型语言模型(LLM)管道中的八个清晰步骤,为你提供一个完整的模型,展示LLM从开始到结束处理语言的全过程。

2025-03-26 10:46:08 979

原创 DeepSeek突袭公布V3 / R1 完整推理系统!!

为了实现这两个目标,我们的方案是使用大规模跨节点专家并行(Expert Parallelism / EP)。首先 EP 使得 batch size 大大增加,从而提高 GPU 矩阵乘法的效率,提高吞吐。其次 EP 使得专家分散在不同的 GPU 上,每个 GPU 只需要计算很少的专家(因此更少的访存需求),从而降低延迟。但 EP 同时也增加了系统的复杂性。因此,本文的主要内容是。

2025-03-26 09:49:29 719

原创 一文读懂爆火的DeepSeek

近期,DeepSeek国产AI助手悄然走红,迅速占领各大社交平台的热搜榜单。这款由中国深度求索公司开发的AI产品,以其强大的自然语言处理能力和多场景应用优势,引发业界广泛关注。更令人瞩目的是,DeepSeek的崛起不仅在国内引发热议,更在大洋彼岸的美国掀起了一场关于AI技术竞争的深度讨论。DeepSeek的核心竞争力在于其独特的技术架构。与传统的单一任务AI模型不同,DeepSeek采用了多模态融合技术,能够同时处理文本、图像、语音等多种数据形式。

2025-03-25 10:30:27 800

原创 一文看懂扣子:3分钟快速搞定一个智能体

扣子(Coze)官方平台:https://www.coze.cn/home。

2025-03-25 10:26:06 1117

原创 从检索到生成:RAG 技术综述

RAG 技术在解决现实世界中的自然语言处理挑战方面展现出了巨大潜力。通过结合检索和生成的优势,它不仅提升了模型的准确性和可靠性,还为处理复杂任务提供了新的思路。

2025-03-24 11:40:48 747

原创 如何在本地部署DeepSeek-R1模型?

在本地部署DeepSeek-R1模型时,需根据硬件资源、模型版本及使用场景选择合适的方案。

2025-03-24 11:25:18 687

原创 AI大模型·白皮书 | 人工智能行业:2025年人工智能十大发展趋势(附AI实战教程下载)

大语言模型发展进入深度推理阶段,通用人工智能愈行愈近,AI应用进入爆发前夜。站在当前这一重要的历史节点,我们从技术、应用、能源三个维度展望了人工智能的未来发展,其中技术是源动力,应用是牵引力,能源是支撑力。对未来的展望中,我们提出推理计算、合成数据、缩放法则、超级智能体、具身智能、AI4Science、端侧创新、自动驾驶、人工智能+、能源需求十个方面的重要发展趋势。

2025-03-22 17:04:50 138

原创 AI大模型·白皮书 | 2025中国AI Agent 行业研究报告

在技术突破与行业重构方面,大模型促使AI Agent从任务执行者向决策主体跨越,推动工作范式变革,各行业加速应用,尤其在金融、医疗等领域,企业竞争也转向生态与场景层面。AI Agent源于哲学概念,在大模型的赋能下,实现从被动工具到主动智能先锋的转变,具备强大的语言理解、生成和推理能力,能自主感知环境并决策,重构人机协作生态。在产业价值上,它推动效率变革,从效率工具向智能协作者转变,提升生产效率,改变交互方式,企业软件也借助它从“流程固化”迈向“任务智能”,并成为企业级“数字员工”,提升员工数字化素养。

2025-03-22 16:28:30 322

原创 大模型发展史!从Transformer(2017)到DeepSeek-R1(2025)!

语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。

2025-03-22 14:49:36 719

原创 本地部署DeepSeek+Dify构建AI 智能体

在机器学习和深度学习中,模型蒸馏是一种将大型模型(满血版)压缩为小型模型(蒸馏版)的技术。

2025-03-22 11:02:00 691

原创 你的RAG为何总“答非所问“?90%的人都不知道核心原理

RAG 是一种结合检索(Retrieval)和生成(Generation)的技术,主要用于让 AI 在回答问题或生成内容时,能够更好地利用外部知识库,而不是完全依赖于自身预训练的知识。举个例子,你如果问大模型自己公司的经营数据状况,它可能回答不上来,或者会一本正经的胡说八道。但是如果你将企业的经营数据外挂在它上面,它就能基于这部分数据进行分析回答。

2025-03-22 10:33:18 895

原创 理解微调与RAG的区别和使用场景

微调是一种。

2025-03-21 11:13:34 772

原创 AI进入推理模型时代,一文带你读懂思维链

近段时间,推理模型 DeepSeek R1 可说是 AI 领域的头号话题。用过的都知道,该模型在输出最终回答之前,会先输出一段思维链内容。这样做可以提升最终答案的准确性。今天这篇文章将带你了解思维链(CoT)的相关研究和技术。(图注)某些形式的推理技巧。已经存在了相当长的一段时间。从技术上讲,它是一种高级提示工程。各种形式的 CoT 通常都是强迫大型语言模型进行推理。2024 年 9 月,OpenAI 发布了其模型 o1 的预览版后,我们看到围绕 CoT 的炒作愈演愈烈。

2025-03-21 09:52:36 251

原创 检索密集型应用的Agent(智能体)架构基础知识、模式和示例

本文介绍了智能架构。讨论了作为基础构建块的组件以及可以组合成整体架构的底层模式。根据你的使用案例的复杂性,我们首先讨论了单Agent架构与多Agent架构的优缺点。如果任务相对简单,单一Agent方法通常是最佳选择。然而,对于更复杂的任务,多Agent架构提供了更好的质量和灵活性。接下来,我们探讨了一些常见的多Agent架构设计模式以及每种模式的优缺点。我们还看了一些面向检索密集型系统的智能架构示例,以及如何通过单一Agent设置来克服简单RAG的局限性。

2025-03-20 11:54:53 673

原创 Deepseek-R1为什么要联网,理解RAG

RAG是AI技术的一次重要升级,通过“先查后写”机制,解决了传统生成模型的诸多痛点。它不仅是技术上的创新,更让 AI 在专业领域和实时场景中真正落地,成为可靠的知识助手。未来随着检索和生成技术的进一步融合,RAG 的应用潜力将更加广泛。我的DeepSeek部署资料已打包好(自取↓)但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!❗️为什么你必须了解大模型?

2025-03-20 11:18:31 1026

原创 一文详解DeepSeek MoE架构创新点在哪?

春节期间,DeepSeek凭借其强大的自然语言理解和生成能力,迅速成为业界的焦点,推动了自然语言处理技术的发展,并在多个领域得到了广泛应用。使得模型能够并行处理输入序列中的每个元素,提高了计算效率。则将模型划分为多个专家子模型,每个子模型负责处理不同的输入任务,提高了模型的泛化能力和鲁棒性。可以说,正是利用MOE架构和Transformer架构两位“大神”,才让DeepSeek在AI领域一鸣惊人。要想了解DeepSeek Moe的创新,

2025-03-19 14:55:16 908

原创 一文吃透LLM大模型:从原理到未来

LLM 大模型作为人工智能领域的关键技术,正以前所未有的速度改变着我们的生活和工作方式。它的出现,不仅为自然语言处理带来了革命性的突破,还在内容创作、智能客服、代码生成、教育等多个领域展现出巨大的应用潜力。随着技术的不断发展,LLM 大模型在多模态融合、模型轻量化和个性化定制等方面的趋势也愈发明显。这些趋势将进一步拓展大模型的应用边界,使其能够更好地满足人们在不同场景下的需求。对于我们普通用户来说,LLM 大模型既带来了无限的便利,也让我们看到了人工智能的无限可能。

2025-03-19 14:40:00 966

原创 三张图速通 DeepSeek-R1 论文和技术原理

本文用三张图介绍了 DeepSeek-R1 论文的三个核心内容(纯RL的方案可行性、DeepSeek-R1修炼手册、蒸馏小模型的潜力)。未来会聚焦通用能力提升(函数调用、多轮对话、复杂角色扮演以及 json 输出等任务上的表现不如 DeepSeek-V3)、语言混用问题解决(尤其是针对非中英prompt)、prompt engineering(比如 DeepSeek-R1 对 prompt 较为敏感,few-shot 会降低性能)、软件工程任务上的改进等。我的DeepSeek部署资料已打包好(自取↓)

2025-03-18 13:43:15 797

原创 LLM后训练技术全景综述:从ChatGPT到DeepSeek-R1,大语言模型如何变得更聪明?

你是否好奇为什么ChatGPT能够如此准确地回答问题?为什么专业领域内的AI助手显得更加专业?为什么DeepSeek-R1的逻辑推理能力似乎有了质的飞跃?这一切的秘密,都隐藏在"后训练"(Post-training)这个看似简单却极为关键的技术环节中。今天,让我们一起探索LLM后训练的技术全景,看看大模型是如何从"学得广"到"懂得深"的蜕变之路。

2025-03-18 11:47:43 605

原创 DeepSeek+Coze实战:一键获取对标账号所有视频,自动存入表格,10倍提效

我们今天分享了如何用deepseek+coze一键获取对标账号的所有视频,并自动存入飞书表格。整个过程非常简单直观。即使不懂编程也能轻松完成,让你不用再花钱购买采集工具。希望这个小技巧能帮助大家提升工作效率。我的DeepSeek部署资料已打包好(自取↓)但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!❗️为什么你必须了解大模型?1️⃣ 薪资爆炸:应届大模型工程师年薪40万起步,懂“Prompt调教”的带货主播收入翻3倍。

2025-03-17 14:21:25 1217

原创 掌握智能代理Agent:从基础到高级,全面解析AI时代的关键技术框架

AI时代的Agent框架是一种专门用于构建、部署和管理智能代理(AI Agent)的软件平台。这种框架被视为一个高度集成的生态系统,旨在支持复杂的AI应用开发,从而减轻开发者的负担,使他们能够更加专注于产品的创新和优化。例如,在开发智能客服系统时,传统的开发方法需要大量的时间和资源来实现基础的对话逻辑和意图识别。然而,借助AI时代的Agent框架,开发者可以直接调用现成的自然语言处理组件和对话管理模块,从而显著缩短开发周期,加快产品上市速度。

2025-03-17 14:19:30 658

原创 DeepSeek-V3 核心架构源码讲解

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。MLA 的 forward 流程整体比较复杂,核心原理在前面章节有说明,为了防止陷入细节,我们只需要知道先执行 MLA 的前向传播,然后在执行 ffn。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

2025-03-15 07:30:00 889

原创 大模型兴起:五大核心岗位需求攀升

大模型技术落地应用一年来,尽管尚未引发全面颠覆性的行业变革,但其已稳步渗透至各类业务场景中。海外科技巨头如谷歌与微软率先布局,推出的AI Agent应用正迅速在各行各业中铺展开来,展现出强大的应用潜力。国内市场,京东凭借言犀大模型打造的AI Agent同样表现出色,它已深度融入业务全流程。这一系列实践标志着大型模型技术已迈入一个全新的发展阶段。与此同时,大模型技术的蓬勃发展催生了该领域对一系列专业职位的强烈需求。以下是当前大模型领域内最为热门的五大职位,它们在推动该领域持续进步中扮演着至关重要的角色。

2025-03-15 07:00:00 947

原创 2025年最火IT岗——AI大模型全栈工程师,月薪15k都算低的

AI大模型全栈工程师是一种拥有广泛技能的职业,他们在从模型设计和训练到部署和优化的完整AI技术栈中发挥作用。他们不仅熟练掌握各类编程语言和工具,还能完整参与从数据收集、预处理、模型训练到应用部署的整个AI项目开发流程。此外,AI模型全栈工程师还需具备出色的沟通能力和团队合作精神,以便与其他领域专家紧密合作,共同推动AI应用的实际应用。

2025-03-14 14:02:44 676

原创 LangGraph实战三部曲之1:创建有状态的多智能体应用

到目前为止,一切顺利。与传统的基于Actor的模型相比,LangGraph引入了共享状态机制,从而增强了智能体间的协作和控制能力,打破了信息孤岛的局面。最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

2025-03-14 13:59:42 647

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除