自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 资源 (3)
  • 收藏
  • 关注

原创 混合专家模型(MoE):助力大模型实现高效计算

引言近年来,大模型的参数规模不断攀升,如何在保证性能的前提下降低计算成本和显存消耗,成为业界关注的重点问题。混合专家模型(Mixture of Experts, MoE)应运而生,通过“分而治之”的设计理念,利用条件计算实现部分参数激活,从而在大容量模型中实现高效推理。本文将详细介绍MoE的核心原理、技术演进、实现细节,并通过一个通俗易懂的智能翻译系统案例,展示其在实际应用中的优势。

2025-04-04 07:00:00 340

原创 深度解析:思维链(CoT)技术及其在垂直应用中的实践评估

思维链(CoT)技术通过显式展示推理过程,有效解决了大模型在处理复杂任务时的可解释性和错误率问题。从基础提示工程到多层次推理架构,再到垂直领域应用,CoT 正在为构建高效、透明和可控的 AI 系统铺平道路。与此同时,针对微调 DeepSeek-R1 构建 DeepDoctor 的实践案例表明,在开源模型垂直应用中,数据质量、评估体系和风险控制依然是亟待解决的关键问题。

2025-04-03 07:00:00 462

原创 Cursor:AI 赋能的智能编程工具

Cursor 是一款专为现代开发需求而生的 AI 驱动代码编辑器,基于 Visual Studio Code 打造。它继承了 VS Code 的强大功能和丰富扩展生态,同时通过集成先进的 AI 模型,实现了智能代码补全、代码解释与优化、多文件编辑等功能。无论你是刚入门的新手还是经验丰富的资深开发者,Cursor 都能成为你在编程道路上的得力助手。配置文件:创建文件,声明项目框架、TS 语法规范、JSDoc 注释要求等,帮助 AI 更准确地生成符合团队规范的代码。

2025-04-02 07:00:00 1348

原创 One API:LLM API 管理 & 分发系统,github 24.2K Star!

One API 是一个开源的 AI 大模型 API 管理与分发系统,致力于解决多模型接入过程中面临的繁杂协议、密钥管理、流量分配等问题。它通过标准化接口(基于 OpenAI 格式)实现了不同大模型的无缝衔接。无论是 OpenAI、Google Gemini,还是国内的文心一言、讯飞星火等平台,开发者只需简单配置即可实现切换,旧代码无需大幅重构。

2025-04-01 07:00:00 940

原创 百度EasyDL:零代码AI开发全指南—— 从入门到行业实战深度解析

EasyDL平台旨在为企业和开发者提供一个无需深厚算法背景的AI开发解决方案。零算法基础:用户无需掌握复杂的CNN、RNN等深度学习原理,通过图形化界面即可完成从数据准备到模型部署的全流程操作。高效开发:从数据标注、模型训练到上线部署,用户可以在5-10分钟内快速实现AI应用。这样一来,即便是初学者也能通过简单操作完成较为复杂的任务。灵活部署:平台支持多种部署方式——公有云API、设备端SDK、私有化服务器以及软硬件一体化方案,满足不同场景下对延迟、成本和硬件环境的多重要求。

2025-03-17 07:30:00 769

原创 DeepSeek 核心技术 GRPO 详解

GRPO(Group Relative Policy Optimization)是 DeepSeink 团队提出的创新型强化学习算法,专为解决大语言模型(LLM)在推理任务中的训练效率与稳定性问题而设计。相较于传统 PPO 算法,GRPO 通过组内相对评估机制替代独立价值模型(Critic),显存占用减少 50%,训练速度提升 30%,同时在数学推理、代码生成等任务中实现性能突破(如 MATH 基准准确率 51.7)。GRPO 通过组内相对评估与动态基线机制,实现了大模型强化学习训练的效率革命。

2025-03-16 15:30:00 805

原创 模型预测控制(MPC):原理、应用与实践

*模型预测控制(MPC)**凭借其多变量优化、约束处理和高精度控制能力,已成为复杂系统中的首选控制策略。尽管其计算复杂性和模型依赖性带来一定挑战,但随着计算能力提升和工具(如MATLAB、Python)的普及,MPC的应用前景愈发广阔。建议您尝试使用MATLAB的MPC工具箱或Python的CVXPY库实现一个简单案例,深入探索其潜力。

2025-03-09 07:00:00 1587

原创 Grok 3 大模型与 DeepSearch 的深度解析

Grok 3是一款先进的大语言模型,旨在提供智能对话和复杂问题解决能力。而DeepSearch则是其一大亮点功能,它不仅能实时搜索互联网和 X 平台的数据,还能整合多源信息并生成结构化报告。想象它是一个超级聪明的助手,既能帮你找资料,还能替你分析和整理——这一切都发生在几秒到几分钟之内!

2025-03-08 07:30:00 1791

原创 DeepSeek + Kimi:AI双引擎驱动,5分钟打造专业级PPT的技术实现解析

在职场与学术场景中,PPT制作的核心痛点始终围绕“内容质量”与“设计效率”两大维度。传统流程需耗费数小时完成资料整理、逻辑梳理、排版设计,而DeepSeek与Kimi的协同工作流通过AI技术实现了全流程自动化,将时间压缩至5分钟内。本文将从技术架构、操作逻辑、核心优势三个层面,解析这一组合如何革新PPT创作方式。

2025-03-05 07:30:00 848

原创 深度解码:AlphaStar背后的原理详解

1 AlphaStar及背景简介相比于之前的深蓝和AlphaGo,对于《星际争霸Ⅱ》等策略对战型游戏,使用AI与人类对战的难度更大。比如在《星际争霸Ⅱ》中,要想在玩家对战玩家的模式中击败对方,就要学会各种战术,各种微操和掌握时机。在游戏中玩家还需要对对方阵容的更新实时地做出正确判断以及行动,甚至要欺骗对方以达到战术目的。总而言之,想要让AI上手这款游戏是非常困难的。但是DeepMind做到了。

2025-03-04 07:30:00 1811

原创 快速搭建私有化大模型:Ollama、DeepSeek与ChatBox的本地部署教程

未来,随着模型轻量化技术的进步,本地化部署将成为AI普惠应用的重要方向。本文将指导您在3分钟内,通过Ollama、DeepSeek和ChatBox,完成从模型下载到可视化交互的全流程,实现完全离线的AI助手部署。DeepSeek提供不同参数量级的模型,如1.5B(低配设备)、7B(均衡性能)、32B(高性能需求)、70B或671B(科研)。打开ChatBox,进入“设置” → “模型提供方”,选择“Ollama API”。:在使用Ollama下载DeepSeek模型时,下载速度缓慢,甚至出现连接错误。

2025-02-25 07:00:00 840

原创 本地部署大模型: LM Studio、Open WebUI 与 Chatbox 全面对比以及选型指南

基于Web的轻量化界面,支持与Ollama、LM Studio等后端工具集成,提供类ChatGPT的交互体验。:专注于本地化大模型实验与推理的桌面工具,支持多模型并行、Hugging Face集成及离线运行。:通过Docker或Python安装,需配置后端服务(如Ollama)。:输入卡顿、交互体验待优化,缺乏高级功能(如RAG、多模型管理)。:开源本地GPT客户端,主打轻量化与易用性,但功能较为基础。:轻量级客户端,但需依赖外部模型服务,本地化能力弱。:直接下载桌面应用,无需安装依赖,适合小白用户。

2025-02-24 07:30:00 2260

原创 基于LM Studio的DeepSeek 本地部署

DeepSeek R1 是一款开源的AI模型,支持在本地上硬件离线运行。:在命令行中执行nvidia-smi指令,确认 CUDA 驱动版本是否满足最低要求(≥11.8)。:若版本低于 11.8,需更新 NVIDIA 驱动或安装适配的 CUDA Toolkit。:显存需求 ≈ 模型参数量(B) × 参数精度(bytes) × 1.2(额外开销系数)例如:14B 模型在 4-bit 量化(0.5 bytes/参数)下需求约为,与用户描述的 8GB 接近9。:对于显存有限的设备,建议选择。

2025-02-23 07:30:00 913

原创 Chatbox部署硅基流动的云端大模型

在模型选择中,找到并选择“SILICONFLOW API”。点击“API 密钥”选项,选择“新建 API 密钥”。完成下载后,按照提示安装 Chatbox 应用程序。将复制的 API 密钥粘贴到相应输入框中,完成配置。打开 Chatbox 应用,进入设置界面。配置完成后,即可开始使用,运行速度极快!生成密钥后,点击复制以保存密钥内容。下载 Chatbox 应用程序。注册完成后,登录硅基流动站。

2025-02-22 17:00:00 339

原创 通过Ollama、Page Assist完成DeepSeek-R1的本地部署、联网搜索、知识库管理

的本地部署,启用联网搜索和构建自己的知识库。回到聊天窗口,右下方将出现刚刚添加的知识库,您可以在提问时选择相关知识库,获得准确的答案。,通过这些简单的步骤,将能够为自己的项目构建强大的 AI 模型应用。通过简单的几步,您的模型将能够处理并检索本地文档。是一款大型预训练语言模型,本文将带您完成从安装。插件可以为您的本地 AI 模型提供一个方便的。在本地部署 AI 模型的同时,您还可以通过。强大的推理能力来解决实际问题。,将文本嵌入模型设置为。的结合,可以轻松完成。

2025-02-18 07:00:00 1314

原创 DeepSeek-R1 本地部署和知识库管理指南(Ollama+AnythingLLM)

AnythingLLM 是一款支持本地知识库管理和联网搜索的工具。安装后可以帮助您实现 DeepSeek-R1 模型的本地部署,并结合联网搜索进行增强。Ollama 是支持多种大模型管理和运行的工具,首先需要下载安装 Ollama 客户端。执行命令后,进度条出现并显示“success”表示安装成功。模型版本选择不当可能会影响运行性能。根据您的电脑配置选择合适的。完成模型部署后,接下来配置。

2025-02-17 07:45:00 1073

原创 基于 KTransformers的DeepSeek-R1 本地部署方案,成本骤降32倍!

KTransformr:54.21(32核)→74.362(双插槽,2×32核)>255.26(基于AMX的优化MoE内核,仅V0.3)→ 286.55 (有选择地使用6位专家,仅V0.3)与2×32核的llama.cpp中的10.31个令牌/秒相比,:KTransformr:8.73(32个内核)→11.26(双插槽,2×32核)→13.69(选择性使用6个专家,仅V0.3)与2×32内核的llama.cpp中的4.51令牌/秒相比,,通过动态选择性激活专家模块,降低计算复杂度,提升计算资源的利用率。

2025-02-16 07:30:00 7779

原创 DeepSeek-R1的使用及图解

大型语言模型(LLM)在架构上依赖于 2017 年 Google 提出的 Transformer 模型。与传统的递归神经网络(RNN)和长短时记忆网络(LSTM)相比,Transformer 提供了更高的训练效率和更强的长距离依赖建模能力。自注意力机制(Self-Attention)自注意力机制允许模型在处理文本时自动关注句子中的重要单词,并且能够理解不同词语之间的相互联系。通过这种机制,模型能够根据上下文动态地调整对各个词语的关注程度。多头注意力(Multi-Head Attention)

2025-02-15 13:47:33 1069

原创 知识蒸馏技术讲解

1 知识蒸馏的预先知识。

2025-02-05 08:30:00 1692

原创 强化学习的产业界探索

sim2real的方式依赖于精准的仿真,而很多仿真都仿不真,真能仿的真的仿真也造价高昂,并依赖大量的CPU算力去做并行,所以可能不是一种很好的落地方式。这里回到工业场景的案例,最开始,RL+行业,这个行业一定要传统控制很难控的领域,比如说PID、MPC或者APC都控制不好的场景,一定有不少,聚焦发力于这些场景。这里,很多工业场景正好完美的符合这一点。行业智能化改造意愿低,是因为不是刚需,以及原始供应商的把控和强化模型现在是不是在所在行业的效果是颠覆性的,显然在很多的行业人家传统控制已经做的很好了。

2024-12-19 23:21:25 414

原创 强化学习中同策略和异策略的定义和区分

因为在更新策略的时候,会从经验回放中取出数据来对现在的策略进行更新,而这些数据是先前的策略生成的,也就是说,生成数据的策略和当前要更新的策略是不同的策略,即off-policy。因为在 on-policy 设定中,更新过程依赖于当前策略生成的数据,而实践中的批量更新技术能够有效地兼顾效率与策略更新的有效性。On-policy定义:在on-policy方法中,智能体从当前策略中学习,并根据从该策略中采样的数据更新策略。- 策略一致性:由于学习过程中使用的是和执行相同的策略,因此策略的评估更加准确。

2024-08-28 08:50:03 825

原创 强化学习中有模型和无模型的理解与应用

总之, MFRL 提供了在各种数据条件下的灵活性,特别是在仿真环境中,直接利用仿真数据进行策略学习通常更加高效和可靠。它可以适用于有仿真的情况以及仅有历史数据的情况。基于模型的强化学习(MBRL) 和 无模型强化学习(MFRL) 在不同的应用场景下有各自的优势和适用性。MBRL侧重于学习环境的模型,并利用环境模型进行决策;强化学习(RL)中的两大类方法是基于模型的强化学习(MBRL)和无模型强化学习(MFRL)。,即使在数据有限的情况下也能够有效利用已有的数据。模型的准确性和策略的效果。

2024-08-28 08:43:49 902

原创 北冥坞“学件”系统

学件由周志华教授在 2016 年提出 [1, 2]。在学件范式下,世界各地的开发者可分享模型至学件基座系统,系统通过有效查搜和复用学件帮助用户高效解决机器学习任务,而无需从零开始构建机器学习模型。北冥坞是学件的第一个系统性开源实现,为学件相关研究提供了一个初步科研平台。有分享意愿的开发者可自由提交模型,学件坞协助产生规约形成学件存放在学件坞中,开发者在这个过程中无需向学件坞泄露自己的训练数据。

2024-08-28 08:32:28 968

原创 投标书制作

对于没有结论或者困惑争议的地方,不要指望能够糊弄过去,如实地分析甚至放在重要的地方重点把可能的困难和解决方案以及选择的过程描述出来,往往会增加胜算。往往评分标准中都有这一条,因此,应该仔细描述自己公司的项目管理、售后服务和培训体系,要符合用户的标书要求,还要符合主流的国际、国内标准。需要提醒的是,评标专家在现场进行评标,需要阅读大量的文字,这个时候一定要严格按照邀标书的格式进行,必要的时候要专门以不同纸张或者标签的形式进行部分区分,以便于专家在不同服务商之间进行对比。要突出团队成员类似项目的成功经验。

2024-06-27 23:21:02 932

原创 虚拟淘宝-Virtual-Taobao论文解读(AAAI2019)

1 论文简介南京大学LAMDA团队的侍竞成、俞扬等人在AAAI 2019发表了一篇论文,介绍了在淘宝这个大型在线零售平台上利用强化学习进行商品搜索的项目。论文题为“Virtual-Taobao: Virtualizing Real-World Online Retail Environment for Reinforcement Learning”,详细描述了该项目的实施过程。

2024-06-15 02:16:01 1392

原创 对抗式生成模仿学习(GAIL)

1 预先基础知识。

2024-06-15 02:00:28 4005

原创 基于强化学习的控制率参数自主寻优

算法将控制参数矢量 X作为智能体的动作,控制系统的响应结果作为状态,引入动态性能指标计算奖励函数,通过在线学习周期性阶跃响应数据、梯度更新控制器参数的方式改变控制器的控制策略,直至满足优化目标,实现参数的自整定及优化。面向复杂系统的控制建模与控制律设计研发场景,适用于需要频繁进行控制律设计、控制律调整、控制参数调整的研发场景,包括各类机器人设计(机械臂、机械狗、特殊结构如水上水下机器人、拟人机器人等)、各类飞行器设计(固定翼、四旋翼、航天器等)、其他机械设施(汽车、发动机等)。利用梯度下降法更新参数;

2024-05-31 20:54:48 1129

原创 PID原理介绍

PID参数的设置的大小,一方面是要根据控制对象的具体情况而定;P是解决幅值震荡,P大了会出现幅值震荡的幅度大,但震荡频率小,系统达到稳定时间长;I是解决动作响应的速度快慢的,I大了响应速度慢,反之则快;PID,就是“比例(proportional)、积分(integral)、微分(derivative)”,是一种很常见的控制算法。kP:让偏差(目标减去当前)与调节装置的“调节力度”,建立一个一次函数的关系;kD:让被控制的物理量的“变化速度”趋于0,即类似于“阻尼”的作用;曲线波动周期长,积分时间再加长;

2024-05-30 21:25:28 340

原创 决策控制类软件项目的团队配置

决策控制类软件项目的团队配置怎样才是最合适的?目的就是实现高效的项目协作以及为企业降本增效。软件项目的主要费用来源是研发人员的开支以及差旅费用。下面的思维导图从项目与产品的关系、团队架构、项目成员配置这几点进行说明如何组织人力更好完成项目协作。

2024-05-26 10:34:39 282

原创 离线强化学习基础知识之offline MBRL和MFRL

1 离线强化学习介绍1 离线强化学习介绍离线强化学习(也称为批量强化学习或完全脱策略强化学习)仅依赖于先前收集的数据集,无需进一步交互。它提供了一种利用先前收集的数据集的方法以自动学习决策策略。离线强化学习可以被定义为 data-driven 形式的强化学习问题,即在智能体不和环境交互的情况下,来从获取的轨迹中学习经验知识,达到使目标最大化,其和Online的区别如图所示:图 在线和离线强化学习的区别对于训练集采用不同的离线强化学习算法进行训练,得到多样策略组。

2024-05-21 23:21:10 509

原创 售前(解决方案)工程师的岗位需求和发展

请注意先后关系,人的一生,大部分人都有一个很长职业生涯,那么找到你的优势,你就可以更舒服和从容,也会更容易做的好,如果没有找到自己的优势,你一直在你没办法做到拔尖水平的事上,你自己也会很痛苦。将公司有的技术,进行组合,支持为客户提供相应的解决方案。之后,跟客户交流,面向的客户不仅有业务老大,还有管理的领导,要求你不仅专业知识上能过硬,对于管理型领导,还要能把方案讲的深入浅出。总之,售前是一个很综合的岗位,要你有过硬的专业知识,也需要你有好的口才,更需要你具备一定的情商,能够拉进客户关系,赢得他的信任。

2024-05-21 23:01:03 1903

原创 强化学习并行算法:决策速度提升

在线交互采集样本是个比较耗时的过程。多个环境同时并行采集数据,会加速训练。强化学习在采集样本侧,也就是和仿真环境进行交互部分,需要的更多的是cpu资源,而在训练模型侧,可以利用GPU加速训练,提高训练速度。

2024-02-22 13:30:00 1984

原创 强化学习平台:智能决策产品的通用范式

强化学习作AI决策,工业界会怎么做?整个产品思路是怎么样的?为了方便决策模型的构建,一般会开发一个强化学习训练平台。有这个平台之后,就能通过平台对公司内部服务器集群的cpu、gpu的资源进行调度,并且支持对接仿真,选择强化学习算法进行训练,以及训练后的效果展示。我这里从两个方面进行梳理。第一是在线强化学习平台框架,第二是离线强化学习平台框架。当然,可以把这两个合为一个产品。不过按照这样划分,对于理解不同场景下用在线或者离线RL会更清晰。

2024-02-21 22:50:26 1056

原创 强化学习的实际应用及思考

1 强化学习用在哪些领域在人类世界中,决策无处不在,每天都要决定很多小事,每年也大多有些重要的事情要决策。目前,强化学习在深度学习大热之后,也迎来了一波高峰,深度网络的加持下,决策也变得更加智能,能应对更加复杂的场景。研究在各行业遍地开花,但是目前强化学习真正能够实现落地的公司少之又少,通常在游戏的场景,才是强化学习的主战场。当然,除了游戏之外,在量化交易、无人机控制、国防、化工、水务、出行、运筹优化、医药等行业都有相关的研究工作,所以强化学习称得上是各行各业都可以使用的技术。

2024-02-18 15:06:56 1250

原创 分层强化学习

2 分层强化学习算法1 分层强化学习简介分层强化算是强化学习领域比较流行的研究方向。当环境较为复杂或者任务较为困难时,智能体的状态和动作空间过大,会导致强化学习难以取得理想的效果。应对这种状况,分层强化学习应运而生,主要解决稀疏reward以及状态动作空间过大导致难以训练的问题。人类在解决一个复杂问题时,往往会将其分解为若干个容易解决的子问题,分而治之,分层的思想正是来源于此。

2024-02-08 15:20:35 4457 2

原创 Value-based RL和Policy-based RL介绍和区别

根据上面的内容,Value-based和Policy-based的概率应该大体有些了解了,另外对于不确定性和确定性策略应该也能区分了,这几个概念是刚学习强化学习绕不过去的。

2024-02-05 15:48:21 1309

原创 如何快速修改多篇文档合并后的标题格式

在word中进行两篇文档合并,遇到两篇文章的标题合并起来之后各有各的格式。

2023-12-15 13:45:10 314

原创 OfflineRL的重要环节-离线策略评估介绍

离线策略评估是强化学习中一种重要的技术,用于评估一个策略在某个环境中的性能,而不需要与环境进行实际交互。离线策略评估主要用于以下场景:当前策略不适用于实际环境中的交互,但希望评估其性能。通过已有一些历史数据,利用这些数据来评估策略的性能。

2023-11-10 18:30:22 914

原创 模仿学习入门

为了达到模仿学习的目的,目前主要有2种方法,一是Behavior cloning,即行为克隆方法;二是Inverse Reinforcement Learning(IRL),即逆向强化学习方法。

2023-11-10 18:08:25 809

原创 迁移学习入门

迁移学习按学习方法分类,可以分为四个大类:基于样本的迁移学习方法、基于特征的迁移学习方法、基于模型的迁移学习方法、基于关系的迁移学习方法。

2023-11-10 17:45:02 697

迁移学习代码(python+tf2.1.0)+猫狗识别的数据集

迁移学习代码(python+tf2.1.0)+猫狗识别的数据集

2022-03-07

温度预测数据集+简单全连接代码实现

温度预测数据集+简单全连接代码实现

2022-03-06

基于模板匹配的车牌识别

基于模板匹配的车牌识别,这里面有代码解释,还有字符模板库,车牌图片,将word转换成m文件,然后另外两个压缩包解压放在与m文件同一个文件夹下,运行即可以出结果。记住一定放在同一个文件夹下。

2017-12-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除