自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 资源 (3)
  • 收藏
  • 关注

原创 基于世界模型的通用强化学习范式:DeepMind DreamerV3技术解析

DeepMind此项突破不仅解决了RL的"脆性"问题,更揭示了通向通用人工智能的可能路径。​​模型驱动 > 数据驱动​​:通过构建可解释的世界模型,降低对试错数据的依赖​​归一化即泛化​​:跨领域稳定的关键在于动态适应不同信号尺度​​规模定律延续​​:大模型+多梯度更新仍是提升性能的有效路径随着计算资源的持续增长,这种基于世界模型的通用学习框架,或将成为打开AGI之门的核心钥匙。对于AI从业者而言,理解Dreamer的架构思想,将有助于把握下一代RL技术的发展脉搏。​​论文信息​​。

2025-05-12 07:15:00 1057

原创 通用智能体 Suna 技术解析——从浏览器自动化到全栈任务执行

​ 以「完全开源、对标商业标杆 Manus」的定位引爆开发者社区。给他抛出一个更加复杂的问题,直接停在一半。而且几乎不支持中文生成。如下是让他制作一个 Excel 电子表格,写明五天洛杉矶的天气。结果是有,但是最终的表格没有输出。用户通过对话描述需求,即可驱动智能体完成从数据抓取、文档生成到系统运维的完整工作流。注:在GAIA基准测试中,Suna复杂任务完成率达83%,较Manus低9个百分点。"筛选5年经验+TensorFlow技能的AI工程师,优先考虑顶会论文作者"Suna 的核心理念是 ​。

2025-05-11 07:45:00 620

原创 RunningHub:AIGC创作平台深度解析

将设计、视频制作、数字内容生成等复杂流程转化为"搭积木式"操作。平台已覆盖全球144个国家用户,日均处理超百万次创作请求,彻底重构了传统内容生产模式。将专业级创作能力赋予普通用户,无需PS/Sketch/AE等软件基础,通过7000+功能节点自由组合即可生成商业级作品。将传统设计中的人力成本(约200-500元/张图)转化为算力成本(0.5-3元/次),降幅达99%。支持开发者上传节点/工作流并获取收益,形成"创意-开发-复用-变现"的可持续经济模型。:注册即赠100RH算力币(价值100元)

2025-05-10 07:45:00 1066

原创 Dify —— 开源大语言模型应用开发平台全解析​

Dify 是一款开源的大语言模型(LLM)应用开发平台,融合 ​​ 与 ​​ 理念,为开发者提供从原型设计到生产部署的全生命周期支持。通过模块化架构、可视化编排及多模型兼容性,Dify 显著降低了生成式 AI 应用的开发门槛。以下从技术架构、核心功能、部署实践及未来演进等维度展开解析。

2025-04-11 07:00:00 2182

原创 Coze平台深度技术解析:构建智能化AI应用的全链路解决方案

Coze平台通过​​模块化设计​​与​​企业级扩展能力​​,正在重塑AI应用开发范式。从电商客服到医疗影像分析,开发者可通过可视化编排快速构建工业级智能系统。随着多模态技术的深化与生态体系的完善,Coze将持续推动AI技术在各垂直领域的落地应用,为企业数字化转型提供核心引擎。

2025-04-10 07:15:00 859

原创 模型的参数和量化

随着深度学习模型规模不断扩大,大型模型(如GPT、BERT等)的参数数量已经达到几十亿甚至上百亿级别。模型参数不仅代表了模型的学习容量,同时也直接决定了模型在训练和推理过程中对计算资源(特别是显存)的需求。本文将详细解析大模型参数量化的原理、方法。

2025-04-09 07:00:00 793

原创 OpenManus技术解析:大模型时代的Agent集成框架

OpenManus 是一个先进的 AI 代理框架,旨在通过模块化设计实现大模型(如 GPT-4o、Claude-3.5)和智能体的深度协作。它的目标是自动化复杂任务,如金融报告生成和软件开发全流程。

2025-04-08 07:00:00 967

原创 混合专家模型(MoE):助力大模型实现高效计算

引言近年来,大模型的参数规模不断攀升,如何在保证性能的前提下降低计算成本和显存消耗,成为业界关注的重点问题。混合专家模型(Mixture of Experts, MoE)应运而生,通过“分而治之”的设计理念,利用条件计算实现部分参数激活,从而在大容量模型中实现高效推理。本文将详细介绍MoE的核心原理、技术演进、实现细节,并通过一个通俗易懂的智能翻译系统案例,展示其在实际应用中的优势。

2025-04-04 07:00:00 1257

原创 深度解析:思维链(CoT)技术及其在垂直应用中的实践评估

思维链(CoT)技术通过显式展示推理过程,有效解决了大模型在处理复杂任务时的可解释性和错误率问题。从基础提示工程到多层次推理架构,再到垂直领域应用,CoT 正在为构建高效、透明和可控的 AI 系统铺平道路。与此同时,针对微调 DeepSeek-R1 构建 DeepDoctor 的实践案例表明,在开源模型垂直应用中,数据质量、评估体系和风险控制依然是亟待解决的关键问题。

2025-04-03 07:00:00 975

原创 Cursor:AI 赋能的智能编程工具

Cursor 是一款专为现代开发需求而生的 AI 驱动代码编辑器,基于 Visual Studio Code 打造。它继承了 VS Code 的强大功能和丰富扩展生态,同时通过集成先进的 AI 模型,实现了智能代码补全、代码解释与优化、多文件编辑等功能。无论你是刚入门的新手还是经验丰富的资深开发者,Cursor 都能成为你在编程道路上的得力助手。配置文件:创建文件,声明项目框架、TS 语法规范、JSDoc 注释要求等,帮助 AI 更准确地生成符合团队规范的代码。

2025-04-02 07:00:00 4972

原创 One API:LLM API 管理 & 分发系统,github 24.2K Star!

One API 是一个开源的 AI 大模型 API 管理与分发系统,致力于解决多模型接入过程中面临的繁杂协议、密钥管理、流量分配等问题。它通过标准化接口(基于 OpenAI 格式)实现了不同大模型的无缝衔接。无论是 OpenAI、Google Gemini,还是国内的文心一言、讯飞星火等平台,开发者只需简单配置即可实现切换,旧代码无需大幅重构。

2025-04-01 07:00:00 1338

原创 百度EasyDL:零代码AI开发全指南—— 从入门到行业实战深度解析

EasyDL平台旨在为企业和开发者提供一个无需深厚算法背景的AI开发解决方案。零算法基础:用户无需掌握复杂的CNN、RNN等深度学习原理,通过图形化界面即可完成从数据准备到模型部署的全流程操作。高效开发:从数据标注、模型训练到上线部署,用户可以在5-10分钟内快速实现AI应用。这样一来,即便是初学者也能通过简单操作完成较为复杂的任务。灵活部署:平台支持多种部署方式——公有云API、设备端SDK、私有化服务器以及软硬件一体化方案,满足不同场景下对延迟、成本和硬件环境的多重要求。

2025-03-17 07:30:00 1022

原创 DeepSeek 核心技术 GRPO 详解

GRPO(Group Relative Policy Optimization)是 DeepSeink 团队提出的创新型强化学习算法,专为解决大语言模型(LLM)在推理任务中的训练效率与稳定性问题而设计。相较于传统 PPO 算法,GRPO 通过组内相对评估机制替代独立价值模型(Critic),显存占用减少 50%,训练速度提升 30%,同时在数学推理、代码生成等任务中实现性能突破(如 MATH 基准准确率 51.7)。GRPO 通过组内相对评估与动态基线机制,实现了大模型强化学习训练的效率革命。

2025-03-16 15:30:00 1158

原创 模型预测控制(MPC):原理、应用与实践

*模型预测控制(MPC)**凭借其多变量优化、约束处理和高精度控制能力,已成为复杂系统中的首选控制策略。尽管其计算复杂性和模型依赖性带来一定挑战,但随着计算能力提升和工具(如MATLAB、Python)的普及,MPC的应用前景愈发广阔。建议您尝试使用MATLAB的MPC工具箱或Python的CVXPY库实现一个简单案例,深入探索其潜力。

2025-03-09 07:00:00 5194

原创 Grok 3 大模型与 DeepSearch 的深度解析

Grok 3是一款先进的大语言模型,旨在提供智能对话和复杂问题解决能力。而DeepSearch则是其一大亮点功能,它不仅能实时搜索互联网和 X 平台的数据,还能整合多源信息并生成结构化报告。想象它是一个超级聪明的助手,既能帮你找资料,还能替你分析和整理——这一切都发生在几秒到几分钟之内!

2025-03-08 07:30:00 2338

原创 DeepSeek + Kimi:AI双引擎驱动,5分钟打造专业级PPT的技术实现解析

在职场与学术场景中,PPT制作的核心痛点始终围绕“内容质量”与“设计效率”两大维度。传统流程需耗费数小时完成资料整理、逻辑梳理、排版设计,而DeepSeek与Kimi的协同工作流通过AI技术实现了全流程自动化,将时间压缩至5分钟内。本文将从技术架构、操作逻辑、核心优势三个层面,解析这一组合如何革新PPT创作方式。

2025-03-05 07:30:00 1163

原创 深度解码:AlphaStar背后的原理详解

1 AlphaStar及背景简介相比于之前的深蓝和AlphaGo,对于《星际争霸Ⅱ》等策略对战型游戏,使用AI与人类对战的难度更大。比如在《星际争霸Ⅱ》中,要想在玩家对战玩家的模式中击败对方,就要学会各种战术,各种微操和掌握时机。在游戏中玩家还需要对对方阵容的更新实时地做出正确判断以及行动,甚至要欺骗对方以达到战术目的。总而言之,想要让AI上手这款游戏是非常困难的。但是DeepMind做到了。

2025-03-04 07:30:00 2054

原创 快速搭建私有化大模型:Ollama、DeepSeek与ChatBox的本地部署教程

未来,随着模型轻量化技术的进步,本地化部署将成为AI普惠应用的重要方向。本文将指导您在3分钟内,通过Ollama、DeepSeek和ChatBox,完成从模型下载到可视化交互的全流程,实现完全离线的AI助手部署。DeepSeek提供不同参数量级的模型,如1.5B(低配设备)、7B(均衡性能)、32B(高性能需求)、70B或671B(科研)。打开ChatBox,进入“设置” → “模型提供方”,选择“Ollama API”。:在使用Ollama下载DeepSeek模型时,下载速度缓慢,甚至出现连接错误。

2025-02-25 07:00:00 1035

原创 本地部署大模型: LM Studio、Open WebUI 与 Chatbox 全面对比以及选型指南

基于Web的轻量化界面,支持与Ollama、LM Studio等后端工具集成,提供类ChatGPT的交互体验。:专注于本地化大模型实验与推理的桌面工具,支持多模型并行、Hugging Face集成及离线运行。:通过Docker或Python安装,需配置后端服务(如Ollama)。:输入卡顿、交互体验待优化,缺乏高级功能(如RAG、多模型管理)。:开源本地GPT客户端,主打轻量化与易用性,但功能较为基础。:轻量级客户端,但需依赖外部模型服务,本地化能力弱。:直接下载桌面应用,无需安装依赖,适合小白用户。

2025-02-24 07:30:00 3067

原创 基于LM Studio的DeepSeek 本地部署

DeepSeek R1 是一款开源的AI模型,支持在本地上硬件离线运行。:在命令行中执行nvidia-smi指令,确认 CUDA 驱动版本是否满足最低要求(≥11.8)。:若版本低于 11.8,需更新 NVIDIA 驱动或安装适配的 CUDA Toolkit。:显存需求 ≈ 模型参数量(B) × 参数精度(bytes) × 1.2(额外开销系数)例如:14B 模型在 4-bit 量化(0.5 bytes/参数)下需求约为,与用户描述的 8GB 接近9。:对于显存有限的设备,建议选择。

2025-02-23 07:30:00 1312

原创 Chatbox部署硅基流动的云端大模型

在模型选择中,找到并选择“SILICONFLOW API”。点击“API 密钥”选项,选择“新建 API 密钥”。完成下载后,按照提示安装 Chatbox 应用程序。将复制的 API 密钥粘贴到相应输入框中,完成配置。打开 Chatbox 应用,进入设置界面。配置完成后,即可开始使用,运行速度极快!生成密钥后,点击复制以保存密钥内容。下载 Chatbox 应用程序。注册完成后,登录硅基流动站。

2025-02-22 17:00:00 411

原创 通过Ollama、Page Assist完成DeepSeek-R1的本地部署、联网搜索、知识库管理

的本地部署,启用联网搜索和构建自己的知识库。回到聊天窗口,右下方将出现刚刚添加的知识库,您可以在提问时选择相关知识库,获得准确的答案。,通过这些简单的步骤,将能够为自己的项目构建强大的 AI 模型应用。通过简单的几步,您的模型将能够处理并检索本地文档。是一款大型预训练语言模型,本文将带您完成从安装。插件可以为您的本地 AI 模型提供一个方便的。在本地部署 AI 模型的同时,您还可以通过。强大的推理能力来解决实际问题。,将文本嵌入模型设置为。的结合,可以轻松完成。

2025-02-18 07:00:00 1540

原创 DeepSeek-R1 本地部署和知识库管理指南(Ollama+AnythingLLM)

AnythingLLM 是一款支持本地知识库管理和联网搜索的工具。安装后可以帮助您实现 DeepSeek-R1 模型的本地部署,并结合联网搜索进行增强。Ollama 是支持多种大模型管理和运行的工具,首先需要下载安装 Ollama 客户端。执行命令后,进度条出现并显示“success”表示安装成功。模型版本选择不当可能会影响运行性能。根据您的电脑配置选择合适的。完成模型部署后,接下来配置。

2025-02-17 07:45:00 1175

原创 基于 KTransformers的DeepSeek-R1 本地部署方案,成本骤降32倍!

KTransformr:54.21(32核)→74.362(双插槽,2×32核)>255.26(基于AMX的优化MoE内核,仅V0.3)→ 286.55 (有选择地使用6位专家,仅V0.3)与2×32核的llama.cpp中的10.31个令牌/秒相比,:KTransformr:8.73(32个内核)→11.26(双插槽,2×32核)→13.69(选择性使用6个专家,仅V0.3)与2×32内核的llama.cpp中的4.51令牌/秒相比,,通过动态选择性激活专家模块,降低计算复杂度,提升计算资源的利用率。

2025-02-16 07:30:00 8554

原创 DeepSeek-R1的使用及图解

大型语言模型(LLM)在架构上依赖于 2017 年 Google 提出的 Transformer 模型。与传统的递归神经网络(RNN)和长短时记忆网络(LSTM)相比,Transformer 提供了更高的训练效率和更强的长距离依赖建模能力。自注意力机制(Self-Attention)自注意力机制允许模型在处理文本时自动关注句子中的重要单词,并且能够理解不同词语之间的相互联系。通过这种机制,模型能够根据上下文动态地调整对各个词语的关注程度。多头注意力(Multi-Head Attention)

2025-02-15 13:47:33 1175

原创 知识蒸馏技术讲解

1 知识蒸馏的预先知识。

2025-02-05 08:30:00 1792

原创 强化学习的产业界探索

sim2real的方式依赖于精准的仿真,而很多仿真都仿不真,真能仿的真的仿真也造价高昂,并依赖大量的CPU算力去做并行,所以可能不是一种很好的落地方式。这里回到工业场景的案例,最开始,RL+行业,这个行业一定要传统控制很难控的领域,比如说PID、MPC或者APC都控制不好的场景,一定有不少,聚焦发力于这些场景。这里,很多工业场景正好完美的符合这一点。行业智能化改造意愿低,是因为不是刚需,以及原始供应商的把控和强化模型现在是不是在所在行业的效果是颠覆性的,显然在很多的行业人家传统控制已经做的很好了。

2024-12-19 23:21:25 443

原创 强化学习中同策略和异策略的定义和区分

因为在更新策略的时候,会从经验回放中取出数据来对现在的策略进行更新,而这些数据是先前的策略生成的,也就是说,生成数据的策略和当前要更新的策略是不同的策略,即off-policy。因为在 on-policy 设定中,更新过程依赖于当前策略生成的数据,而实践中的批量更新技术能够有效地兼顾效率与策略更新的有效性。On-policy定义:在on-policy方法中,智能体从当前策略中学习,并根据从该策略中采样的数据更新策略。- 策略一致性:由于学习过程中使用的是和执行相同的策略,因此策略的评估更加准确。

2024-08-28 08:50:03 992

原创 强化学习中有模型和无模型的理解与应用

总之, MFRL 提供了在各种数据条件下的灵活性,特别是在仿真环境中,直接利用仿真数据进行策略学习通常更加高效和可靠。它可以适用于有仿真的情况以及仅有历史数据的情况。基于模型的强化学习(MBRL) 和 无模型强化学习(MFRL) 在不同的应用场景下有各自的优势和适用性。MBRL侧重于学习环境的模型,并利用环境模型进行决策;强化学习(RL)中的两大类方法是基于模型的强化学习(MBRL)和无模型强化学习(MFRL)。,即使在数据有限的情况下也能够有效利用已有的数据。模型的准确性和策略的效果。

2024-08-28 08:43:49 1024

原创 北冥坞“学件”系统

学件由周志华教授在 2016 年提出 [1, 2]。在学件范式下,世界各地的开发者可分享模型至学件基座系统,系统通过有效查搜和复用学件帮助用户高效解决机器学习任务,而无需从零开始构建机器学习模型。北冥坞是学件的第一个系统性开源实现,为学件相关研究提供了一个初步科研平台。有分享意愿的开发者可自由提交模型,学件坞协助产生规约形成学件存放在学件坞中,开发者在这个过程中无需向学件坞泄露自己的训练数据。

2024-08-28 08:32:28 1051

原创 投标书制作

对于没有结论或者困惑争议的地方,不要指望能够糊弄过去,如实地分析甚至放在重要的地方重点把可能的困难和解决方案以及选择的过程描述出来,往往会增加胜算。往往评分标准中都有这一条,因此,应该仔细描述自己公司的项目管理、售后服务和培训体系,要符合用户的标书要求,还要符合主流的国际、国内标准。需要提醒的是,评标专家在现场进行评标,需要阅读大量的文字,这个时候一定要严格按照邀标书的格式进行,必要的时候要专门以不同纸张或者标签的形式进行部分区分,以便于专家在不同服务商之间进行对比。要突出团队成员类似项目的成功经验。

2024-06-27 23:21:02 1006

原创 虚拟淘宝-Virtual-Taobao论文解读(AAAI2019)

1 论文简介南京大学LAMDA团队的侍竞成、俞扬等人在AAAI 2019发表了一篇论文,介绍了在淘宝这个大型在线零售平台上利用强化学习进行商品搜索的项目。论文题为“Virtual-Taobao: Virtualizing Real-World Online Retail Environment for Reinforcement Learning”,详细描述了该项目的实施过程。

2024-06-15 02:16:01 1473

原创 对抗式生成模仿学习(GAIL)

1 预先基础知识。

2024-06-15 02:00:28 5060

原创 基于强化学习的控制率参数自主寻优

算法将控制参数矢量 X作为智能体的动作,控制系统的响应结果作为状态,引入动态性能指标计算奖励函数,通过在线学习周期性阶跃响应数据、梯度更新控制器参数的方式改变控制器的控制策略,直至满足优化目标,实现参数的自整定及优化。面向复杂系统的控制建模与控制律设计研发场景,适用于需要频繁进行控制律设计、控制律调整、控制参数调整的研发场景,包括各类机器人设计(机械臂、机械狗、特殊结构如水上水下机器人、拟人机器人等)、各类飞行器设计(固定翼、四旋翼、航天器等)、其他机械设施(汽车、发动机等)。利用梯度下降法更新参数;

2024-05-31 20:54:48 1426

原创 PID原理介绍

PID参数的设置的大小,一方面是要根据控制对象的具体情况而定;P是解决幅值震荡,P大了会出现幅值震荡的幅度大,但震荡频率小,系统达到稳定时间长;I是解决动作响应的速度快慢的,I大了响应速度慢,反之则快;PID,就是“比例(proportional)、积分(integral)、微分(derivative)”,是一种很常见的控制算法。kP:让偏差(目标减去当前)与调节装置的“调节力度”,建立一个一次函数的关系;kD:让被控制的物理量的“变化速度”趋于0,即类似于“阻尼”的作用;曲线波动周期长,积分时间再加长;

2024-05-30 21:25:28 354

原创 决策控制类软件项目的团队配置

决策控制类软件项目的团队配置怎样才是最合适的?目的就是实现高效的项目协作以及为企业降本增效。软件项目的主要费用来源是研发人员的开支以及差旅费用。下面的思维导图从项目与产品的关系、团队架构、项目成员配置这几点进行说明如何组织人力更好完成项目协作。

2024-05-26 10:34:39 305

原创 离线强化学习基础知识之offline MBRL和MFRL

1 离线强化学习介绍1 离线强化学习介绍离线强化学习(也称为批量强化学习或完全脱策略强化学习)仅依赖于先前收集的数据集,无需进一步交互。它提供了一种利用先前收集的数据集的方法以自动学习决策策略。离线强化学习可以被定义为 data-driven 形式的强化学习问题,即在智能体不和环境交互的情况下,来从获取的轨迹中学习经验知识,达到使目标最大化,其和Online的区别如图所示:图 在线和离线强化学习的区别对于训练集采用不同的离线强化学习算法进行训练,得到多样策略组。

2024-05-21 23:21:10 606

原创 售前(解决方案)工程师的岗位需求和发展

请注意先后关系,人的一生,大部分人都有一个很长职业生涯,那么找到你的优势,你就可以更舒服和从容,也会更容易做的好,如果没有找到自己的优势,你一直在你没办法做到拔尖水平的事上,你自己也会很痛苦。将公司有的技术,进行组合,支持为客户提供相应的解决方案。之后,跟客户交流,面向的客户不仅有业务老大,还有管理的领导,要求你不仅专业知识上能过硬,对于管理型领导,还要能把方案讲的深入浅出。总之,售前是一个很综合的岗位,要你有过硬的专业知识,也需要你有好的口才,更需要你具备一定的情商,能够拉进客户关系,赢得他的信任。

2024-05-21 23:01:03 2301

原创 强化学习并行算法:决策速度提升

在线交互采集样本是个比较耗时的过程。多个环境同时并行采集数据,会加速训练。强化学习在采集样本侧,也就是和仿真环境进行交互部分,需要的更多的是cpu资源,而在训练模型侧,可以利用GPU加速训练,提高训练速度。

2024-02-22 13:30:00 2184

原创 强化学习平台:智能决策产品的通用范式

强化学习作AI决策,工业界会怎么做?整个产品思路是怎么样的?为了方便决策模型的构建,一般会开发一个强化学习训练平台。有这个平台之后,就能通过平台对公司内部服务器集群的cpu、gpu的资源进行调度,并且支持对接仿真,选择强化学习算法进行训练,以及训练后的效果展示。我这里从两个方面进行梳理。第一是在线强化学习平台框架,第二是离线强化学习平台框架。当然,可以把这两个合为一个产品。不过按照这样划分,对于理解不同场景下用在线或者离线RL会更清晰。

2024-02-21 22:50:26 1080

温度预测数据集+简单全连接代码实现

温度预测数据集+简单全连接代码实现

2022-03-06

迁移学习代码(python+tf2.1.0)+猫狗识别的数据集

迁移学习代码(python+tf2.1.0)+猫狗识别的数据集

2022-03-07

基于模板匹配的车牌识别

基于模板匹配的车牌识别,这里面有代码解释,还有字符模板库,车牌图片,将word转换成m文件,然后另外两个压缩包解压放在与m文件同一个文件夹下,运行即可以出结果。记住一定放在同一个文件夹下。

2017-12-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除