- 博客(768)
- 资源 (35)
- 收藏
- 关注
原创 vscode的安装并配置c语言环境
Visual Studio Code的下载和安装没有任何难度,直接找到官网https://code.visualstudio.com/进行下载安装即可。比较有难度的是搭建C语言的开发环境,网上有一大堆的教程,但是对于初学者来说确实还是很有难度,经常会出现很多莫名其妙的错误。无论安装什么软件,官方给出的官方文档都是最有说服力的https://code.visualstudio.com/docs/cpp/config-mingw,在这里很多问题都可以找到答案,但是阅读官方文档也有比较大的难度,因此在优快云、
2020-09-20 21:23:01
5147
原创 字节deer-flow项目模块详解
DeerFlow是由字节跳动开发的开源AI自动化框架,旨在通过集成语言模型与网络搜索、爬虫、代码执行等工具,为深度研究任务提供高效解决方案。该框架支持多语言交互、文本转语音及灵活部署,采用Python 3.12+和FastAPI构建后端,Next.js实现前端。核心功能包括自动化信息收集、数据分析与结构化报告生成,适用于GitHub趋势分析、主题内容创作等场景。技术架构涵盖代理逻辑、多模型适配、工具集成和工作流管理模块,强调"开源共享"理念,支持本地与云端部署。
2025-11-07 13:22:39
57
原创 字节deer-flow本地前后端部署全流程
DeerFlow是一个社区驱动的深度研究框架,集成了语言模型与专业工具(网络搜索、爬虫、Python代码执行等)。目前已入驻火山引擎FaaS应用中心,支持在线体验和快速部署。框架采用Python开发,配合Node.js编写的Web UI,推荐使用uv、nvm和pnpm等工具简化环境配置。内置多种API支持(如Tavily搜索、Brave搜索)和文本转语音功能,可通过配置文件自定义模型参数。项目提供丰富示例演示,包括建筑高度对比、GitHub热门仓库分析等,并支持生成图文报告和播客音频。安装过程包含依赖管理、
2025-11-05 17:53:04
424
原创 自动化深度研究智能体-deep research实战
本文介绍了一个知识密集型应用的深度研究助手系统架构设计。该系统通过智能体技术实现自动化深度研究任务,具备问题拆解、多轮信息采集和反思总结三大核心能力。采用前后端分离架构,包含前端层(Vue3)、后端层(FastAPI)、智能体层(规划/总结/报告Agent)和外部服务层(搜索引擎+LLM)。文章详细说明了系统的四层架构设计、数据流转过程以及5分钟快速启动项目的具体步骤,最终能自动生成结构化研究报告并实时显示研究进度。该系统可有效解决信息过载、缺乏结构和重复劳动等研究痛点。
2025-11-05 11:51:25
471
原创 LLM推理常见参数temperature、top_k和top_p
本文介绍了大型语言模型(LLM)推理过程中的常见参数及方法。首先阐述了LLM基于Transformer Decoder的工作原理,即通过Token Embedding生成新Token。然后详细讲解了两种常见推理方法:Greedy Search(每次选择得分最高的Token)和Beam Search(保留多个候选序列)。其中,Greedy Search输出稳定但缺乏多样性;Beam Search通过保留beam_size个候选序列来改善效果。文章还提到了top_k、top_p、temperature等关键参数
2025-11-04 22:48:42
207
原创 LLM结构化输出:约束解码、CFG和response_format
摘要:LLM结构化输出主要有三类方法:基于Prompt的Kor、厂商提供的function calling,以及基于constrained decoding的开源方案。constrained decoding通过预计算合法token范围并屏蔽无效输出,确保结果符合schema,同时跳过固定内容生成提升效率。实现方式包括基于有限状态机(FSM)的outlines、优化FSM的SGLang,以及处理复杂结构的CFG方法(如OpenAI方案)。相比非结构化输出,这种方法可能提升生成速度和质量,但仍需优质微调模型支
2025-11-04 21:41:34
446
原创 Python类型注解和FastAPI数据校验
FastAPI通过主动解析Python类型注解并结合Pydantic实现运行时数据校验,将原本仅作为文档提示的类型注解转化为强制校验规则。它在启动时通过inspect模块获取参数类型定义,使用Pydantic对输入数据进行严格验证,若类型不符则返回422错误。这种机制使FastAPI能够实现Python原生不提供的运行时类型检查,体现了类型驱动开发的特点,既保持Python动态灵活性,又确保了API数据的合法性。
2025-11-01 22:43:35
328
原创 python进阶教程16:单例模式、工厂模式和适配器模式
本文介绍了Python中三种常见的设计模式:单例模式、简单工厂模式和工厂方法模式。单例模式通过模块导入或元类实现确保类只有一个实例,适用于资源访问限制场景。简单工厂模式通过工厂类根据参数返回不同产品实例,但新增产品需修改工厂代码。工厂方法模式通过抽象工厂和多个具体工厂解耦产品创建,符合开闭原则,适合产品种类频繁增加的场景。设计模式的核心价值在于提供标准化的解决方案,提升代码的可维护性和扩展性。
2025-11-01 14:43:28
114
原创 python进阶教程15:多进程、写时复制和协程
摘要: 本文介绍了Python中multiprocessing模块的多进程编程方法。首先讲解了Process类的基本使用,包括创建子进程、获取进程ID以及不同操作系统下的进程启动方式(spawn/fork/forkserver)。其次展示了通过继承Process类创建子进程的面向对象方式。第三部分详细说明进程池(Pool)的使用,包括apply_async异步方法和map/map_async批量处理方法。最后简要提及操作系统层面的fork机制,说明父子进程的内存关系采用写时复制技术。文章通过具体代码示例演示
2025-11-01 13:53:19
36
原创 python进阶教程14:信号量Semaphore、事件Event和线程池
Python多线程同步技术摘要:本文介绍了Python多线程编程中的信号量(Semaphore)和事件(Event)两种同步技术。信号量通过内部计数器控制并发访问上限,适用于需要限制并发量的场景。事件(Event)则通过内部标识协调线程同步,适用于需要等待资源就绪的场景。文章还展示了concurrent.futures模块的线程池用法,它简化了线程管理,通过submit和map方法实现高效并发。示例代码演示了这些同步工具在实际场景中的应用,如爬虫并发控制、线程协调等,帮助开发者编写线程安全的并发程序。
2025-11-01 13:10:07
36
原创 python进阶教程13:多线程、GIL、锁和线程隔离
本文介绍了Python多线程的基础概念与实践方法。首先解释了GIL全局锁的限制,指出Python多线程在IO密集型任务中的实用价值。详细讲解了线程ID获取、线程启动方法(直接调用和继承Thread类)、参数传递、后台线程设置和使用join等待线程结束。重点分析了threading.local的线程隔离特性,说明其通过线程ID区分存储不同数据。最后通过实例揭示了多线程并发写操作不安全的原因:由于变量读写操作的三个步骤(读取到寄存器、寄存器计算、写回内存)可能被其他线程中断,导致最终结果不一致。文章提供了多线程
2025-11-01 11:59:09
174
原创 python进阶教程12:类的管理和dataclass
摘要: Python面向对象编程中,类属性与实例属性的存储方式存在差异。类属性存储在类的__dict__中,而实例属性存储在实例的__dict__中。当通过实例修改类属性时,实际上会在实例中创建新属性,不会影响其他实例。 dataclass装饰器为数据处理类提供了便捷功能: 自动生成__init__方法,简化属性声明 可选实现比较运算符重载(order=True) 通过frozen=True实现不可变对象 支持通过asdict()转换为字典 提供更清晰的数据展示 这些特性使dataclass特别适合处理结构
2025-11-01 11:28:36
27
原创 python进阶教程11:property、运算符重载和slots
本文介绍了Python面向对象编程中的property装饰器和运算符重载技术。property装饰器可以优雅地替代传统的getter和setter方法,使属性访问更简洁,同时保持对赋值的验证控制。通过示例展示了如何用@property重构类定义,将方法作为属性调用,保证代码兼容性。在运算符重载部分,以比较运算符为例,说明了如何通过重载__gt__等方法实现对象间的自定义比较逻辑,并以货币换算为例演示了实际应用。这些技术提高了代码的封装性和可读性,是Python面向对象编程的重要特性。
2025-11-01 11:04:18
27
原创 python进阶教程10:面向对象、super()和元类
本文主要探讨Python面向对象编程中的三个核心概念: 方法属于类,属性属于实例:实例属性依附于实例存在,而实例方法在类定义时就已创建。可通过类直接调用方法,但无法直接访问实例属性。 __new__和__init__的区别:__new__是真正的构造函数,负责创建实例;__init__是初始化方法,用于设置实例属性。对于不可变类型子类,需重写__new__方法。 super()的使用:super()用于解决多继承中的方法调用顺序问题,特别是菱形继承场景。通过MRO(方法解析顺序)确保父类方法只被调用一次,示
2025-10-31 20:42:03
51
原创 python进阶教程9:生成器和迭代器
本文介绍了Python中生成器和迭代器的核心概念与应用。生成器是一种特殊的迭代器,通过yield关键字实现惰性计算,提高内存效率。文章详细讲解了生成器的两种创建方式:生成器函数(包含yield的函数)和生成器表达式,并通过字典合并示例展示了生成器的优势。同时,指出了生成器的使用注意事项,如生成器只能遍历一次。此外,还讲解了可迭代对象的判断方法,使用collections.abc模块的Iterable和Iterator进行类型检查。这些特性共同构成了Python高效处理大数据集的重要机制。
2025-10-31 17:37:22
39
原创 python进阶教程8:网络编程http
本文通过三次系列讲解,深入浅出地解析了HTTP请求的全过程。第一部分从浏览器工作原理切入,对比了普通人、初级程序员和高级程序员对浏览器的不同认知层次。第二部分详细讲解了TCP连接的建立过程,包括三次握手机制及其必要性,并通过Python代码演示了TCP服务端与客户端的实现。第三部分聚焦DNS解析,阐述了域名与IP的关系,以及完整的DNS查询流程,从本地缓存到根域名服务器的逐级查找机制。全文以技术原理为核心,配合清晰的图表说明,系统性地呈现了从输入网址到页面呈现的技术实现细节。
2025-10-31 12:52:34
53
原创 python进阶教程7:网络编程 TCP/IP
本文介绍了Python中TCP服务器和客户端的创建与通信原理。服务器端涉及绑定IP/端口、监听、连接处理等核心步骤,重点分析了SO_REUSEADDR选项解决端口重用问题、0.0.0.0与127.0.0.1的区别、端口号范围限制、listen参数作用等细节。客户端部分阐述了connect、send/recv方法的注意事项,特别是send需要检查返回值确保完整发送。文章还深入探讨了TCP固有的分包与粘包问题,解释了1460字节的MTU限制导致的数据分割现象,以及小数据包合并发送的情况,强调了应用层需要自行处理
2025-10-31 11:40:57
45
原创 python进阶教程6:函数调用和尾递归
摘要 本文解析了函数调用背后的栈机制及递归调用的底层原理。通过示例代码展示了函数调用时栈如何保存调用信息(包括行号、局部变量等),并利用sys._getframe()获取调用链信息。文章重点分析了尾递归特性——当递归是最后一步操作时,可优化栈空间复用。通过装饰器实现尾递归优化,突破栈深度限制:在检测到连续两次相同调用时抛出异常,重新利用栈空间继续执行。这种机制使得递归函数能够处理超深调用而不会栈溢出。
2025-10-31 10:59:44
24
原创 python进阶教程5:变量作用域、装饰器
本文介绍了Python变量作用域和装饰器的原理与应用。变量作用域分为局部、嵌套、全局和内置四种,理解作用域是学习装饰器的基础。装饰器通过接收函数作为参数并返回函数来改变原函数行为,无需修改原函数代码。文中详细讲解了如何实现计时功能的装饰器,并解决了参数传递和自省信息丢失的问题。通过@语法糖简化装饰器使用,使其具备更好的通用性和可维护性。
2025-10-31 10:45:54
21
原创 python进阶教程4:深度讲解python垃圾回收机制
摘要:Python的垃圾回收机制采用引用计数为主,标记清除和分代回收为辅的方式。引用计数通过记录对象被引用的次数,简单高效地回收内存,但无法处理循环引用问题。标记清除通过构建有向图标记并清除不可达对象,解决了循环引用。分代回收则根据对象存活时间分为三代,以空间换时间优化回收效率。0代回收最频繁,2代回收最少,通过设置阈值可调整回收频率。三种机制相互配合,确保Python高效管理内存。
2025-10-31 00:07:29
337
原创 python进阶教程3:内存池、内存分配优化
摘要:Python通过多种内存优化技术提升性能。小整数对象池缓存常用整数[-5,257),避免频繁创建销毁;字符串驻留机制复用相同字符串,节省内存;空元组会被复用,而列表按需扩容(0,4,8,16...);字符串存储根据内容选择Latin-1(1字节)、UCS-2(2字节)或UCS-4(4字节)编码。这些优化减少了内存碎片和分配开销,显著提升Python运行效率。(149字)
2025-10-30 22:57:37
161
原创 python进阶教程2:python变量引用、深拷贝和浅拷贝
Python变量引用与对象拷贝机制 摘要:本文系统阐述了Python变量的引用机制及对象拷贝特性。首先指出Python变量必须绑定对象才能存在,变量实质是内存数据的引用标识。通过内存示意图详细解析了变量指向、多引用、引用计数变化等核心概念。其次区分了可变与不可变对象的本质差异:可变对象(如列表)内容可修改而内存地址不变,不可变对象(如数字)修改会创建新对象。最后剖析拷贝机制:浅拷贝仅复制外层可变对象结构,不复制内部元素;深拷贝则递归复制整个对象结构。文章通过id()函数、内存示意图等工具,直观展示了变量引用
2025-10-30 22:42:43
143
原创 python进阶教程1:枚举值和类型标注
Python 枚举(Enum)与类型标注摘要: 枚举模块enum: Python 3.x提供enum模块创建枚举类,继承Enum类实现 特点:枚举名称唯一,值可重复(别名);枚举值不可修改;不同枚举类不相等 枚举包含name(标签)和value(值)属性,需通过value获取实际值 应用场景: 适用于变量有固定取值的场景,增强代码可读性 比普通类属性更安全,防止枚举值被意外修改 类型标注(PEP 484): Python 3.5引入的类型提示系统 使用:指定变量/参数类型,->指定返回值类型 优势:提
2025-10-30 22:22:51
42
原创 大语言模型基础LLM:Transformer和大模型
本文介绍了语言模型从N-gram统计方法到神经网络模型的演进历程。N-gram模型通过统计词序列频率预测概率,但存在数据稀疏和泛化能力差的问题。神经网络语言模型引入词嵌入技术,将词语映射为连续向量,通过余弦相似度度量语义关系,从而更好地捕捉词语间的语义关联。这种转变使语言模型能够理解词语的深层语义特征,为后续Transformer架构奠定了基础。
2025-10-28 21:30:42
78
原创 集成学习汇总:GBDT、XGBoost、LightGBM
摘要 集成学习通过结合多个学习器完成任务,主要分为Bagging(如随机森林)和Boosting(如AdaBoost、GBDT、XGBoost)两类。梯度下降法利用负梯度方向进行迭代搜索,是优化目标函数的有效算法。提升树以决策树为基函数,采用加法模型和前向分步算法,通过拟合残差逐步构建强学习器,特别适用于回归问题。这两种方法都体现了机器学习中"集弱成强"的核心思想。
2025-10-28 00:30:03
345
原创 统计学知识汇总
大数定律和中心极限定理是统计学两大核心理论。大数定律指出,随着样本量增大,样本均值会趋近总体真实均值,为抽样调查和机器学习提供理论依据。中心极限定理则表明,无论总体分布如何,样本均值的分布都会趋近正态分布(均值=总体均值,方差=总体方差/样本量),这为A/B测试、风险评估等提供了概率计算基础。两个定理共同构成了用样本推断总体的方法论支柱,前者解决均值收敛问题,后者解决分布形态问题。
2025-10-27 01:07:08
34
原创 数据分析:指标拆解、异动归因类题目
滴滴乘客急剧下降分析框架:首先确认数据真实性,排除统计误差;其次从外部环境(政策、竞品)、平台问题(技术、运营)、用户需求变化三大维度拆解原因。通过数据拆解定位核心下降点(如特定时段/区域),结合客服反馈、用户调研验证假设。优先解决紧急问题(如技术故障),再应对长期挑战(如补贴策略调整)。最终形成数据驱动、快速验证的解决方案。
2025-10-26 20:43:09
104
原创 决策树(ID3、C4.5与CART)——从信息增益、信息增益率到基尼系数
决策树与集成学习算法解析 决策树算法对比: ID3、C4.5和CART是三大经典决策树算法。ID3采用信息增益但易过拟合;C4.5引入信息增益比并支持连续值;CART使用Gini系数/平方误差,支持分类回归任务,结构更简洁。C4.5和CART还具备缺失值处理能力。 纯度度量指标: 信息熵和基尼系数是评估节点纯度的核心指标。信息熵对纯度变化更敏感但计算较慢,基尼系数计算高效且稳定。CART选用基尼系数以提升计算效率。 集成学习三巨头: 随机森林(RF):通过Bagging和特征随机选择降低方差,并行训练多棵树
2025-10-26 20:13:40
76
原创 智能旅行助手Agent实战:前后端分离的多Agent系统
本文介绍了智能旅行助手项目的整体架构与核心功能。该系统采用前后端分离架构,包含行程智能规划、地图可视化、预算计算、行程编辑和导出五大功能模块。技术栈包括Vue3+TypeScript前端、FastAPI后端和基于HelloAgents的智能体系统,整合了高德地图API、Unsplash API等外部服务。文章详细阐述了项目背景、技术架构、快速部署方法以及数据模型设计思路,重点说明了如何通过Pydantic解决数据格式统一问题。该项目通过AI技术实现了旅行规划流程的自动化和个性化,有效解决了传统旅行规划中的信
2025-10-26 11:41:06
391
原创 Agentic RL: 大模型后训练 SFT、PPO和GRPO
本文介绍了从LLM训练到Agentic RL的发展过程。传统LLM训练包括预训练和后训练两个阶段,其中后训练通过监督微调、奖励建模和强化学习等技术优化模型表现。针对智能体在复杂任务中的不足,提出了Agentic RL新范式,将LLM嵌入强化学习框架,通过多步交互、工具使用和环境反馈来优化长期目标。相比传统单轮对话优化(PBRFT),Agentic RL具有状态包含历史上下文、行动类型多样、动态状态转移等特点,更适合解决需要多步推理和规划的任务。这种新方法为开发更强大的智能体系统提供了可能。
2025-10-25 20:48:14
482
原创 智能体通信协议详解:MCP/A2A/ANP
摘要 本章介绍HelloAgents框架的三种通信协议:MCP(智能体与工具标准化通信)、A2A(智能体间点对点协作)和ANP(大规模智能体网络构建)。通过分层架构设计,协议实现层封装为统一工具接口,使智能体无需关心底层细节。MCP解决服务访问标准化问题,A2A实现智能体协作,ANP提供服务发现机制。三种协议分别针对不同场景,共同构成智能体通信基础设施,显著提升系统扩展性和互操作性,解决了传统工具集成中的重复编码、维护困难和扩展受限等问题。
2025-10-25 16:20:25
58
原创 Agent 上下文工程:Context engineering
摘要 本文介绍上下文工程(Context Engineering)的概念与实践,探讨如何通过优化输入上下文提升大语言模型性能。上下文工程关注在有限token预算下,通过系统提示、工具设计和示例选择等策略,构建高效、可复用的上下文配置。文章提出GSSC流水线(Gather-Select-Structure-Compress)作为核心方法,并介绍配套工具NoteTool和TerminalTool,支持智能体的持久化记忆管理和即时检索。针对长时程任务,提出压缩整合、结构化笔记和子代理架构等解决方案,以解决上下文窗
2025-10-25 15:40:15
87
1
原创 Agent框架:Memory 记忆与 Retrieval检索
本章为HelloAgents智能体系统增加了记忆系统(Memory System)和检索增强生成(RAG)两大核心能力。借鉴人类记忆的多层次结构,设计了包含工作记忆、情景记忆和语义记忆的智能体记忆系统架构,并采用向量数据库(Qdrant)和图数据库(Neo4j)等存储方案。同时,构建了RAG系统来处理外部知识获取,通过多策略检索和上下文构建来解决LLM的知识局限问题。系统采用分层架构设计,实现了记忆管理与知识检索的协同工作,显著提升了智能体的对话持续性和知识准确性。
2025-10-25 15:08:21
71
原创 从零构建Agent框架实战-core/agents/tools
本文介绍了自建Agent框架HelloAgents的设计理念与实现方法。主要内容包括:1)分析现有框架的局限性,提出自建框架的必要性,强调深度掌握和定制化需求;2)阐述HelloAgents"分层解耦、职责单一、接口统一"的设计原则,展示其模块化架构;3)详细介绍HelloAgentsLLM的多提供商支持、本地模型集成和自动检测机制等扩展功能。该框架采用轻量级设计,将各类功能统一抽象为"工具",简化学习曲线,同时提供灵活扩展能力,适合教学与生产环境使用。
2025-10-25 11:57:35
42
原创 Agent常见范式:React、PlanSolve和Reflection代码实战
摘要:智能体的核心能力与实现范式 现代智能体通过结合大语言模型的推理能力与外部工具(如代码解释器、搜索引擎等)实现任务自动化。然而,它们面临幻觉问题、推理循环和工具误用等挑战。本章介绍三种典型架构范式:ReAct(边思考边行动)、Plan-and-Solve(先计划后执行)和Reflection(通过反思优化)。为实现这些范式,需搭建开发环境,封装LLM基础调用功能,其中ReAct范式通过"思考-行动-观察"循环协同工作,将推理与行动紧密结合,形成动态调整的闭环系统。
2025-10-25 01:21:52
174
原创 聚类算法详解:k-means、层次聚类和DBSCAN
摘要:本文系统介绍了三种主流聚类算法。K-means通过迭代划分最小化簇内平方和,改进版K-means++优化初始中心选择,肘部法则辅助确定K值。层次聚类(AGNES/DIANA)通过自下而上聚合或自上而下分裂构建树状图,适用于小规模数据和层级关系分析。DBSCAN基于密度聚类,自动识别噪声,通过核心点扩展形成任意形状簇。三种算法各具特点:K-means计算高效但对初始值敏感,层次聚类可解释性强但复杂度高,DBSCAN能处理噪声和非球形簇但参数敏感。实际应用中需根据数据规模、形状特征和业务需求选择合适算法。
2025-10-15 12:18:28
243
原创 强化学习:直接偏好优化 DPO
本文提出直接偏好优化(DPO)算法,简化了基于人类反馈的强化学习(RLHF)流程。DPO无需训练奖励模型或使用强化学习,直接利用偏好数据优化语言模型,显著降低了计算成本。实验表明,DPO在保持较小KL散度的同时能最大化奖励,在情感控制、文本摘要等任务上表现优于RLHF,且对不同采样温度具有更好鲁棒性。该方法通过简化实现和训练过程,为语言模型对齐人类偏好提供了更高效的解决方案。
2025-10-14 15:11:47
84
原创 大模型RLHF:PPO原理与源码解读
摘要: 本文深入解析大模型RLHF中的PPO算法原理与实现细节。第一部分介绍强化学习基本框架,包括智能体与环境交互、价值函数设计及其在NLP任务中的映射。第二部分聚焦RLHF-PPO阶段的四个关键模型:1)可训练的Actor模型(目标语言模型);2)Critic模型(用于预估总收益);3)冻结的Reward模型(计算即时收益);4)Reference模型(防止模型偏离SFT基准)。文章重点阐述了这些模型如何协同工作,包括通过KL散度约束Actor与Reference模型的输出分布相似性,以及如何构建完整的奖
2025-10-14 14:37:14
100
原创 强化学习:近端策略优化(ppo)
文章摘要:近端策略优化(PPO)简介 PPO是一种改进的策略梯度算法,通过将同策略(on-policy)转为异策略(off-policy)来提高采样效率。传统策略梯度算法需要新策略重新采样数据,效率低下。PPO引入重要性采样技术,使用旧策略θ'与环境互动采样数据,通过重要性权重pθ/pθ'修正分布差异,使同一批数据可多次用于更新新策略θ。关键点在于:1)利用重要性采样解决异策略问题;2)假设状态概率相同,简化计算;3)通过优势函数评估动作价值。PPO在保持算法稳定性的同时显著提高了数据利用效率。
2025-10-14 13:53:00
249
原创 强化学习:策略梯度(pg)
策略梯度(PG)算法是一种基于策略的强化学习方法,通过直接优化策略网络参数来最大化期望奖励。与基于价值的方法(如Q-learning)不同,PG能够处理连续动作空间和随机策略问题。其核心思想是使用蒙特卡罗采样获得轨迹,通过梯度上升更新策略参数θ,使得目标函数(期望奖励)最大化。具体实现中,PG利用轨迹概率的梯度加权奖励值来调整策略,近似计算期望梯度。该算法结合了神经网络与强化学习,适用于复杂环境下的策略优化任务。
2025-10-14 13:25:39
39
ChromeSetup .exe
2020-10-15
50部TED精选合集.docx
2020-09-11
2020全国大学生数学建模竞赛.rar
2020-09-10
ARCTIME_PRO_2.4_WIN64.zip
2020-09-01
四六级真题链接.docx
2020-09-11
Anaconda3.zip
2020-08-19
npp.7.9.portable.x64.zip
2020-10-15
新媒体管家_7_4_8__3.crx
2020-10-15
【微信下载】2019软科中国最好学科排名.xlsx
2020-10-06
Dev-Cpp 5.11 TDM-GCC 4.9.2 Setup.zip
2020-09-01
codeblocks-20.03-setup.zip
2020-09-01
HBuilderX.2.8.3.20200728.zip
2020-08-31
typora.zip
2020-08-31
eclipse.zip
2020-08-31
Microsoft VS Code.zip
2020-08-31
全国CO2分析可视化资料
2022-11-26
Zotero-5.0.96_setup.exe
2021-03-31
RStudio-1.4.1106.exe
2021-03-03
卷积神经网络vgg19.npy
2020-12-13
rapidminer-studio-9.9.0-win64-install.exe
2021-06-02
mathpixsnippingtool.rar
2021-04-30
Image-Caption-Generator-master.zip_Ticketmaster
2020-12-30
Texture-Synthesis-Using-Convolutional-Neural-Networks-master.zip
2021-01-16
GeoGebraGeometry-Windows-Installer-6-0-609-0.exe
2020-12-07
vgg16. neural network
2020-12-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅