自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(768)
  • 资源 (35)
  • 收藏
  • 关注

原创 vscode的安装并配置c语言环境

Visual Studio Code的下载和安装没有任何难度,直接找到官网https://code.visualstudio.com/进行下载安装即可。比较有难度的是搭建C语言的开发环境,网上有一大堆的教程,但是对于初学者来说确实还是很有难度,经常会出现很多莫名其妙的错误。无论安装什么软件,官方给出的官方文档都是最有说服力的https://code.visualstudio.com/docs/cpp/config-mingw,在这里很多问题都可以找到答案,但是阅读官方文档也有比较大的难度,因此在优快云、

2020-09-20 21:23:01 5147

原创 字节deer-flow项目模块详解

DeerFlow是由字节跳动开发的开源AI自动化框架,旨在通过集成语言模型与网络搜索、爬虫、代码执行等工具,为深度研究任务提供高效解决方案。该框架支持多语言交互、文本转语音及灵活部署,采用Python 3.12+和FastAPI构建后端,Next.js实现前端。核心功能包括自动化信息收集、数据分析与结构化报告生成,适用于GitHub趋势分析、主题内容创作等场景。技术架构涵盖代理逻辑、多模型适配、工具集成和工作流管理模块,强调"开源共享"理念,支持本地与云端部署。

2025-11-07 13:22:39 57

原创 字节deer-flow本地前后端部署全流程

DeerFlow是一个社区驱动的深度研究框架,集成了语言模型与专业工具(网络搜索、爬虫、Python代码执行等)。目前已入驻火山引擎FaaS应用中心,支持在线体验和快速部署。框架采用Python开发,配合Node.js编写的Web UI,推荐使用uv、nvm和pnpm等工具简化环境配置。内置多种API支持(如Tavily搜索、Brave搜索)和文本转语音功能,可通过配置文件自定义模型参数。项目提供丰富示例演示,包括建筑高度对比、GitHub热门仓库分析等,并支持生成图文报告和播客音频。安装过程包含依赖管理、

2025-11-05 17:53:04 424

原创 自动化深度研究智能体-deep research实战

本文介绍了一个知识密集型应用的深度研究助手系统架构设计。该系统通过智能体技术实现自动化深度研究任务,具备问题拆解、多轮信息采集和反思总结三大核心能力。采用前后端分离架构,包含前端层(Vue3)、后端层(FastAPI)、智能体层(规划/总结/报告Agent)和外部服务层(搜索引擎+LLM)。文章详细说明了系统的四层架构设计、数据流转过程以及5分钟快速启动项目的具体步骤,最终能自动生成结构化研究报告并实时显示研究进度。该系统可有效解决信息过载、缺乏结构和重复劳动等研究痛点。

2025-11-05 11:51:25 471

原创 LLM推理常见参数temperature、top_k和top_p

本文介绍了大型语言模型(LLM)推理过程中的常见参数及方法。首先阐述了LLM基于Transformer Decoder的工作原理,即通过Token Embedding生成新Token。然后详细讲解了两种常见推理方法:Greedy Search(每次选择得分最高的Token)和Beam Search(保留多个候选序列)。其中,Greedy Search输出稳定但缺乏多样性;Beam Search通过保留beam_size个候选序列来改善效果。文章还提到了top_k、top_p、temperature等关键参数

2025-11-04 22:48:42 207

原创 LLM结构化输出:约束解码、CFG和response_format

摘要:LLM结构化输出主要有三类方法:基于Prompt的Kor、厂商提供的function calling,以及基于constrained decoding的开源方案。constrained decoding通过预计算合法token范围并屏蔽无效输出,确保结果符合schema,同时跳过固定内容生成提升效率。实现方式包括基于有限状态机(FSM)的outlines、优化FSM的SGLang,以及处理复杂结构的CFG方法(如OpenAI方案)。相比非结构化输出,这种方法可能提升生成速度和质量,但仍需优质微调模型支

2025-11-04 21:41:34 446

原创 Python类型注解和FastAPI数据校验

FastAPI通过主动解析Python类型注解并结合Pydantic实现运行时数据校验,将原本仅作为文档提示的类型注解转化为强制校验规则。它在启动时通过inspect模块获取参数类型定义,使用Pydantic对输入数据进行严格验证,若类型不符则返回422错误。这种机制使FastAPI能够实现Python原生不提供的运行时类型检查,体现了类型驱动开发的特点,既保持Python动态灵活性,又确保了API数据的合法性。

2025-11-01 22:43:35 328

原创 python进阶教程16:单例模式、工厂模式和适配器模式

本文介绍了Python中三种常见的设计模式:单例模式、简单工厂模式和工厂方法模式。单例模式通过模块导入或元类实现确保类只有一个实例,适用于资源访问限制场景。简单工厂模式通过工厂类根据参数返回不同产品实例,但新增产品需修改工厂代码。工厂方法模式通过抽象工厂和多个具体工厂解耦产品创建,符合开闭原则,适合产品种类频繁增加的场景。设计模式的核心价值在于提供标准化的解决方案,提升代码的可维护性和扩展性。

2025-11-01 14:43:28 114

原创 python进阶教程15:多进程、写时复制和协程

摘要: 本文介绍了Python中multiprocessing模块的多进程编程方法。首先讲解了Process类的基本使用,包括创建子进程、获取进程ID以及不同操作系统下的进程启动方式(spawn/fork/forkserver)。其次展示了通过继承Process类创建子进程的面向对象方式。第三部分详细说明进程池(Pool)的使用,包括apply_async异步方法和map/map_async批量处理方法。最后简要提及操作系统层面的fork机制,说明父子进程的内存关系采用写时复制技术。文章通过具体代码示例演示

2025-11-01 13:53:19 36

原创 python进阶教程14:信号量Semaphore、事件Event和线程池

Python多线程同步技术摘要:本文介绍了Python多线程编程中的信号量(Semaphore)和事件(Event)两种同步技术。信号量通过内部计数器控制并发访问上限,适用于需要限制并发量的场景。事件(Event)则通过内部标识协调线程同步,适用于需要等待资源就绪的场景。文章还展示了concurrent.futures模块的线程池用法,它简化了线程管理,通过submit和map方法实现高效并发。示例代码演示了这些同步工具在实际场景中的应用,如爬虫并发控制、线程协调等,帮助开发者编写线程安全的并发程序。

2025-11-01 13:10:07 36

原创 python进阶教程13:多线程、GIL、锁和线程隔离

本文介绍了Python多线程的基础概念与实践方法。首先解释了GIL全局锁的限制,指出Python多线程在IO密集型任务中的实用价值。详细讲解了线程ID获取、线程启动方法(直接调用和继承Thread类)、参数传递、后台线程设置和使用join等待线程结束。重点分析了threading.local的线程隔离特性,说明其通过线程ID区分存储不同数据。最后通过实例揭示了多线程并发写操作不安全的原因:由于变量读写操作的三个步骤(读取到寄存器、寄存器计算、写回内存)可能被其他线程中断,导致最终结果不一致。文章提供了多线程

2025-11-01 11:59:09 174

原创 python进阶教程12:类的管理和dataclass

摘要: Python面向对象编程中,类属性与实例属性的存储方式存在差异。类属性存储在类的__dict__中,而实例属性存储在实例的__dict__中。当通过实例修改类属性时,实际上会在实例中创建新属性,不会影响其他实例。 dataclass装饰器为数据处理类提供了便捷功能: 自动生成__init__方法,简化属性声明 可选实现比较运算符重载(order=True) 通过frozen=True实现不可变对象 支持通过asdict()转换为字典 提供更清晰的数据展示 这些特性使dataclass特别适合处理结构

2025-11-01 11:28:36 27

原创 python进阶教程11:property、运算符重载和slots

本文介绍了Python面向对象编程中的property装饰器和运算符重载技术。property装饰器可以优雅地替代传统的getter和setter方法,使属性访问更简洁,同时保持对赋值的验证控制。通过示例展示了如何用@property重构类定义,将方法作为属性调用,保证代码兼容性。在运算符重载部分,以比较运算符为例,说明了如何通过重载__gt__等方法实现对象间的自定义比较逻辑,并以货币换算为例演示了实际应用。这些技术提高了代码的封装性和可读性,是Python面向对象编程的重要特性。

2025-11-01 11:04:18 27

原创 python进阶教程10:面向对象、super()和元类

本文主要探讨Python面向对象编程中的三个核心概念: 方法属于类,属性属于实例:实例属性依附于实例存在,而实例方法在类定义时就已创建。可通过类直接调用方法,但无法直接访问实例属性。 __new__和__init__的区别:__new__是真正的构造函数,负责创建实例;__init__是初始化方法,用于设置实例属性。对于不可变类型子类,需重写__new__方法。 super()的使用:super()用于解决多继承中的方法调用顺序问题,特别是菱形继承场景。通过MRO(方法解析顺序)确保父类方法只被调用一次,示

2025-10-31 20:42:03 51

原创 python进阶教程9:生成器和迭代器

本文介绍了Python中生成器和迭代器的核心概念与应用。生成器是一种特殊的迭代器,通过yield关键字实现惰性计算,提高内存效率。文章详细讲解了生成器的两种创建方式:生成器函数(包含yield的函数)和生成器表达式,并通过字典合并示例展示了生成器的优势。同时,指出了生成器的使用注意事项,如生成器只能遍历一次。此外,还讲解了可迭代对象的判断方法,使用collections.abc模块的Iterable和Iterator进行类型检查。这些特性共同构成了Python高效处理大数据集的重要机制。

2025-10-31 17:37:22 39

原创 python进阶教程8:网络编程http

本文通过三次系列讲解,深入浅出地解析了HTTP请求的全过程。第一部分从浏览器工作原理切入,对比了普通人、初级程序员和高级程序员对浏览器的不同认知层次。第二部分详细讲解了TCP连接的建立过程,包括三次握手机制及其必要性,并通过Python代码演示了TCP服务端与客户端的实现。第三部分聚焦DNS解析,阐述了域名与IP的关系,以及完整的DNS查询流程,从本地缓存到根域名服务器的逐级查找机制。全文以技术原理为核心,配合清晰的图表说明,系统性地呈现了从输入网址到页面呈现的技术实现细节。

2025-10-31 12:52:34 53

原创 python进阶教程7:网络编程 TCP/IP

本文介绍了Python中TCP服务器和客户端的创建与通信原理。服务器端涉及绑定IP/端口、监听、连接处理等核心步骤,重点分析了SO_REUSEADDR选项解决端口重用问题、0.0.0.0与127.0.0.1的区别、端口号范围限制、listen参数作用等细节。客户端部分阐述了connect、send/recv方法的注意事项,特别是send需要检查返回值确保完整发送。文章还深入探讨了TCP固有的分包与粘包问题,解释了1460字节的MTU限制导致的数据分割现象,以及小数据包合并发送的情况,强调了应用层需要自行处理

2025-10-31 11:40:57 45

原创 python进阶教程6:函数调用和尾递归

摘要 本文解析了函数调用背后的栈机制及递归调用的底层原理。通过示例代码展示了函数调用时栈如何保存调用信息(包括行号、局部变量等),并利用sys._getframe()获取调用链信息。文章重点分析了尾递归特性——当递归是最后一步操作时,可优化栈空间复用。通过装饰器实现尾递归优化,突破栈深度限制:在检测到连续两次相同调用时抛出异常,重新利用栈空间继续执行。这种机制使得递归函数能够处理超深调用而不会栈溢出。

2025-10-31 10:59:44 24

原创 python进阶教程5:变量作用域、装饰器

本文介绍了Python变量作用域和装饰器的原理与应用。变量作用域分为局部、嵌套、全局和内置四种,理解作用域是学习装饰器的基础。装饰器通过接收函数作为参数并返回函数来改变原函数行为,无需修改原函数代码。文中详细讲解了如何实现计时功能的装饰器,并解决了参数传递和自省信息丢失的问题。通过@语法糖简化装饰器使用,使其具备更好的通用性和可维护性。

2025-10-31 10:45:54 21

原创 python进阶教程4:深度讲解python垃圾回收机制

摘要:Python的垃圾回收机制采用引用计数为主,标记清除和分代回收为辅的方式。引用计数通过记录对象被引用的次数,简单高效地回收内存,但无法处理循环引用问题。标记清除通过构建有向图标记并清除不可达对象,解决了循环引用。分代回收则根据对象存活时间分为三代,以空间换时间优化回收效率。0代回收最频繁,2代回收最少,通过设置阈值可调整回收频率。三种机制相互配合,确保Python高效管理内存。

2025-10-31 00:07:29 337

原创 python进阶教程3:内存池、内存分配优化

摘要:Python通过多种内存优化技术提升性能。小整数对象池缓存常用整数[-5,257),避免频繁创建销毁;字符串驻留机制复用相同字符串,节省内存;空元组会被复用,而列表按需扩容(0,4,8,16...);字符串存储根据内容选择Latin-1(1字节)、UCS-2(2字节)或UCS-4(4字节)编码。这些优化减少了内存碎片和分配开销,显著提升Python运行效率。(149字)

2025-10-30 22:57:37 161

原创 python进阶教程2:python变量引用、深拷贝和浅拷贝

Python变量引用与对象拷贝机制 摘要:本文系统阐述了Python变量的引用机制及对象拷贝特性。首先指出Python变量必须绑定对象才能存在,变量实质是内存数据的引用标识。通过内存示意图详细解析了变量指向、多引用、引用计数变化等核心概念。其次区分了可变与不可变对象的本质差异:可变对象(如列表)内容可修改而内存地址不变,不可变对象(如数字)修改会创建新对象。最后剖析拷贝机制:浅拷贝仅复制外层可变对象结构,不复制内部元素;深拷贝则递归复制整个对象结构。文章通过id()函数、内存示意图等工具,直观展示了变量引用

2025-10-30 22:42:43 143

原创 python进阶教程1:枚举值和类型标注

Python 枚举(Enum)与类型标注摘要: 枚举模块enum: Python 3.x提供enum模块创建枚举类,继承Enum类实现 特点:枚举名称唯一,值可重复(别名);枚举值不可修改;不同枚举类不相等 枚举包含name(标签)和value(值)属性,需通过value获取实际值 应用场景: 适用于变量有固定取值的场景,增强代码可读性 比普通类属性更安全,防止枚举值被意外修改 类型标注(PEP 484): Python 3.5引入的类型提示系统 使用:指定变量/参数类型,->指定返回值类型 优势:提

2025-10-30 22:22:51 42

原创 大语言模型基础LLM:Transformer和大模型

本文介绍了语言模型从N-gram统计方法到神经网络模型的演进历程。N-gram模型通过统计词序列频率预测概率,但存在数据稀疏和泛化能力差的问题。神经网络语言模型引入词嵌入技术,将词语映射为连续向量,通过余弦相似度度量语义关系,从而更好地捕捉词语间的语义关联。这种转变使语言模型能够理解词语的深层语义特征,为后续Transformer架构奠定了基础。

2025-10-28 21:30:42 78

原创 集成学习汇总:GBDT、XGBoost、LightGBM

摘要 集成学习通过结合多个学习器完成任务,主要分为Bagging(如随机森林)和Boosting(如AdaBoost、GBDT、XGBoost)两类。梯度下降法利用负梯度方向进行迭代搜索,是优化目标函数的有效算法。提升树以决策树为基函数,采用加法模型和前向分步算法,通过拟合残差逐步构建强学习器,特别适用于回归问题。这两种方法都体现了机器学习中"集弱成强"的核心思想。

2025-10-28 00:30:03 345

原创 统计学知识汇总

大数定律和中心极限定理是统计学两大核心理论。大数定律指出,随着样本量增大,样本均值会趋近总体真实均值,为抽样调查和机器学习提供理论依据。中心极限定理则表明,无论总体分布如何,样本均值的分布都会趋近正态分布(均值=总体均值,方差=总体方差/样本量),这为A/B测试、风险评估等提供了概率计算基础。两个定理共同构成了用样本推断总体的方法论支柱,前者解决均值收敛问题,后者解决分布形态问题。

2025-10-27 01:07:08 34

原创 数据分析:指标拆解、异动归因类题目

滴滴乘客急剧下降分析框架:首先确认数据真实性,排除统计误差;其次从外部环境(政策、竞品)、平台问题(技术、运营)、用户需求变化三大维度拆解原因。通过数据拆解定位核心下降点(如特定时段/区域),结合客服反馈、用户调研验证假设。优先解决紧急问题(如技术故障),再应对长期挑战(如补贴策略调整)。最终形成数据驱动、快速验证的解决方案。

2025-10-26 20:43:09 104

原创 决策树(ID3、C4.5与CART)——从信息增益、信息增益率到基尼系数

决策树与集成学习算法解析 决策树算法对比: ID3、C4.5和CART是三大经典决策树算法。ID3采用信息增益但易过拟合;C4.5引入信息增益比并支持连续值;CART使用Gini系数/平方误差,支持分类回归任务,结构更简洁。C4.5和CART还具备缺失值处理能力。 纯度度量指标: 信息熵和基尼系数是评估节点纯度的核心指标。信息熵对纯度变化更敏感但计算较慢,基尼系数计算高效且稳定。CART选用基尼系数以提升计算效率。 集成学习三巨头: 随机森林(RF):通过Bagging和特征随机选择降低方差,并行训练多棵树

2025-10-26 20:13:40 76

原创 智能旅行助手Agent实战:前后端分离的多Agent系统

本文介绍了智能旅行助手项目的整体架构与核心功能。该系统采用前后端分离架构,包含行程智能规划、地图可视化、预算计算、行程编辑和导出五大功能模块。技术栈包括Vue3+TypeScript前端、FastAPI后端和基于HelloAgents的智能体系统,整合了高德地图API、Unsplash API等外部服务。文章详细阐述了项目背景、技术架构、快速部署方法以及数据模型设计思路,重点说明了如何通过Pydantic解决数据格式统一问题。该项目通过AI技术实现了旅行规划流程的自动化和个性化,有效解决了传统旅行规划中的信

2025-10-26 11:41:06 391

原创 Agentic RL: 大模型后训练 SFT、PPO和GRPO

本文介绍了从LLM训练到Agentic RL的发展过程。传统LLM训练包括预训练和后训练两个阶段,其中后训练通过监督微调、奖励建模和强化学习等技术优化模型表现。针对智能体在复杂任务中的不足,提出了Agentic RL新范式,将LLM嵌入强化学习框架,通过多步交互、工具使用和环境反馈来优化长期目标。相比传统单轮对话优化(PBRFT),Agentic RL具有状态包含历史上下文、行动类型多样、动态状态转移等特点,更适合解决需要多步推理和规划的任务。这种新方法为开发更强大的智能体系统提供了可能。

2025-10-25 20:48:14 482

原创 智能体通信协议详解:MCP/A2A/ANP

摘要 本章介绍HelloAgents框架的三种通信协议:MCP(智能体与工具标准化通信)、A2A(智能体间点对点协作)和ANP(大规模智能体网络构建)。通过分层架构设计,协议实现层封装为统一工具接口,使智能体无需关心底层细节。MCP解决服务访问标准化问题,A2A实现智能体协作,ANP提供服务发现机制。三种协议分别针对不同场景,共同构成智能体通信基础设施,显著提升系统扩展性和互操作性,解决了传统工具集成中的重复编码、维护困难和扩展受限等问题。

2025-10-25 16:20:25 58

原创 Agent 上下文工程:Context engineering

摘要 本文介绍上下文工程(Context Engineering)的概念与实践,探讨如何通过优化输入上下文提升大语言模型性能。上下文工程关注在有限token预算下,通过系统提示、工具设计和示例选择等策略,构建高效、可复用的上下文配置。文章提出GSSC流水线(Gather-Select-Structure-Compress)作为核心方法,并介绍配套工具NoteTool和TerminalTool,支持智能体的持久化记忆管理和即时检索。针对长时程任务,提出压缩整合、结构化笔记和子代理架构等解决方案,以解决上下文窗

2025-10-25 15:40:15 87 1

原创 Agent框架:Memory 记忆与 Retrieval检索

本章为HelloAgents智能体系统增加了记忆系统(Memory System)和检索增强生成(RAG)两大核心能力。借鉴人类记忆的多层次结构,设计了包含工作记忆、情景记忆和语义记忆的智能体记忆系统架构,并采用向量数据库(Qdrant)和图数据库(Neo4j)等存储方案。同时,构建了RAG系统来处理外部知识获取,通过多策略检索和上下文构建来解决LLM的知识局限问题。系统采用分层架构设计,实现了记忆管理与知识检索的协同工作,显著提升了智能体的对话持续性和知识准确性。

2025-10-25 15:08:21 71

原创 从零构建Agent框架实战-core/agents/tools

本文介绍了自建Agent框架HelloAgents的设计理念与实现方法。主要内容包括:1)分析现有框架的局限性,提出自建框架的必要性,强调深度掌握和定制化需求;2)阐述HelloAgents"分层解耦、职责单一、接口统一"的设计原则,展示其模块化架构;3)详细介绍HelloAgentsLLM的多提供商支持、本地模型集成和自动检测机制等扩展功能。该框架采用轻量级设计,将各类功能统一抽象为"工具",简化学习曲线,同时提供灵活扩展能力,适合教学与生产环境使用。

2025-10-25 11:57:35 42

原创 Agent常见范式:React、PlanSolve和Reflection代码实战

摘要:智能体的核心能力与实现范式 现代智能体通过结合大语言模型的推理能力与外部工具(如代码解释器、搜索引擎等)实现任务自动化。然而,它们面临幻觉问题、推理循环和工具误用等挑战。本章介绍三种典型架构范式:ReAct(边思考边行动)、Plan-and-Solve(先计划后执行)和Reflection(通过反思优化)。为实现这些范式,需搭建开发环境,封装LLM基础调用功能,其中ReAct范式通过"思考-行动-观察"循环协同工作,将推理与行动紧密结合,形成动态调整的闭环系统。

2025-10-25 01:21:52 174

原创 聚类算法详解:k-means、层次聚类和DBSCAN

摘要:本文系统介绍了三种主流聚类算法。K-means通过迭代划分最小化簇内平方和,改进版K-means++优化初始中心选择,肘部法则辅助确定K值。层次聚类(AGNES/DIANA)通过自下而上聚合或自上而下分裂构建树状图,适用于小规模数据和层级关系分析。DBSCAN基于密度聚类,自动识别噪声,通过核心点扩展形成任意形状簇。三种算法各具特点:K-means计算高效但对初始值敏感,层次聚类可解释性强但复杂度高,DBSCAN能处理噪声和非球形簇但参数敏感。实际应用中需根据数据规模、形状特征和业务需求选择合适算法。

2025-10-15 12:18:28 243

原创 强化学习:直接偏好优化 DPO

本文提出直接偏好优化(DPO)算法,简化了基于人类反馈的强化学习(RLHF)流程。DPO无需训练奖励模型或使用强化学习,直接利用偏好数据优化语言模型,显著降低了计算成本。实验表明,DPO在保持较小KL散度的同时能最大化奖励,在情感控制、文本摘要等任务上表现优于RLHF,且对不同采样温度具有更好鲁棒性。该方法通过简化实现和训练过程,为语言模型对齐人类偏好提供了更高效的解决方案。

2025-10-14 15:11:47 84

原创 大模型RLHF:PPO原理与源码解读

摘要: 本文深入解析大模型RLHF中的PPO算法原理与实现细节。第一部分介绍强化学习基本框架,包括智能体与环境交互、价值函数设计及其在NLP任务中的映射。第二部分聚焦RLHF-PPO阶段的四个关键模型:1)可训练的Actor模型(目标语言模型);2)Critic模型(用于预估总收益);3)冻结的Reward模型(计算即时收益);4)Reference模型(防止模型偏离SFT基准)。文章重点阐述了这些模型如何协同工作,包括通过KL散度约束Actor与Reference模型的输出分布相似性,以及如何构建完整的奖

2025-10-14 14:37:14 100

原创 强化学习:近端策略优化(ppo)

文章摘要:近端策略优化(PPO)简介 PPO是一种改进的策略梯度算法,通过将同策略(on-policy)转为异策略(off-policy)来提高采样效率。传统策略梯度算法需要新策略重新采样数据,效率低下。PPO引入重要性采样技术,使用旧策略θ'与环境互动采样数据,通过重要性权重pθ/pθ'修正分布差异,使同一批数据可多次用于更新新策略θ。关键点在于:1)利用重要性采样解决异策略问题;2)假设状态概率相同,简化计算;3)通过优势函数评估动作价值。PPO在保持算法稳定性的同时显著提高了数据利用效率。

2025-10-14 13:53:00 249

原创 强化学习:策略梯度(pg)

策略梯度(PG)算法是一种基于策略的强化学习方法,通过直接优化策略网络参数来最大化期望奖励。与基于价值的方法(如Q-learning)不同,PG能够处理连续动作空间和随机策略问题。其核心思想是使用蒙特卡罗采样获得轨迹,通过梯度上升更新策略参数θ,使得目标函数(期望奖励)最大化。具体实现中,PG利用轨迹概率的梯度加权奖励值来调整策略,近似计算期望梯度。该算法结合了神经网络与强化学习,适用于复杂环境下的策略优化任务。

2025-10-14 13:25:39 39

ChromeSetup .exe

用户每次上网,一般都有一定的目的。无论这目的是大是小,是工作还是娱乐,Chrome 所具备的智能工具和非凡速度都能让您在网络世界得心应手地操作、创作和探索。

2020-10-15

50部TED精选合集.docx

We can change climate change. Countdown is a global initiative to accelerate solutions to the climate crisis. The goal: to build a better future by cutting greenhouse gas emissions in half by 2030. It all starts on 10.10.2020. #JoinTheCountdown

2020-09-11

2020全国大学生数学建模竞赛.rar

该竞赛创办于1992年,每年一届,是首批列入“高校学科竞赛排行榜”的19项竞赛之一。2019年,来自全国及美国和马来西亚的1490所院校/校区、42992队(本科39293队、专科3699队)、近13万人报名参赛。 2020年赛题于竞赛开始时(2020年9月10日晚上6:00)发布在本站、中国知网、中国大学生在线、高等教育出版社、中国高校数学建模课程中心、中国数模等网站。报名参赛、论文提交请通过中国知网进行。

2020-09-10

ARCTIME_PRO_2.4_WIN64.zip

Arctime是一个全新理念的可视化字幕创作软件,可以运行在Mac、Windows、Linux上。 借助精准的音频波形图,可以快速创建和编辑时间轴,还可以高效的进行文本编辑、翻译。 支持SRT、ASS外挂字幕格式,并可以通过交换工程文件或与伙伴协同工作。 字幕编辑完成后,仅需单击“视频转码”按钮,即可轻松完成字幕压制工作。

2020-09-01

教务系统小程序.zip

它是一种不需要安装便可使用的应用,实现了随处可用、随处可见的想法。其中通过与公众号关联,实现了可以在小程序与公众号之间相互跳转。

2020-09-03

数学竞赛初赛试题及答案.zip

北京市多年来数学竞赛的真题,可以用于各个年级大学生备战大学生数学竞赛的初赛和复赛。希望大家可以好好利用哦。

2020-11-08

四六级真题链接.docx

英语四六级考试是教育部主管的一项全国性的英语考试,其目的是对大学生的实际英语能力进行客观、准确的测量,为大学英语教学提供测评服务。大学英语考试是一项大规模标准化考试,是一个“标准关联的常模参照测验”。大学英语四、六级考试作为一项全国性的教学考试由“国家教育部高教司”主办,分为四级考试(CET-4) 和六级考试(CET-6),每年各举行两次,分别在同一天的上午和下午进行。

2020-09-11

Anaconda3.zip

这里是anaconda软件的Windows安装包,直接下载解压之后就可以安装anaconda,anaconda是python的集成开发环境,对应的是spyder,并且可以直接安装python的其他丰富的第三方库。

2020-08-19

npp.7.9.portable.x64.zip

Notepad++ is a free (as in “free speech” and also as in “free beer”) source code editor and Notepad replacement that supports several languages. Running in the MS Windows environment, its use is governed by GNU General Public License.

2020-10-15

新媒体管家_7_4_8__3.crx

一个工具管理你的所有新媒体帐号(支持包括微信公众平台、今日头条、一点资讯、微博、知乎、网易媒体平台、搜狐开放平台、企鹅媒体平台、UC大鱼号、简书、百度百家等11家新媒 体平台)。

2020-10-15

【微信下载】2019软科中国最好学科排名.xlsx

软科中国大学排名的前身是中国最好大学排名。自2015年首次发布以来,以专业、客观、透明的优势赢得了高等教育领域和社会的广泛关注和认可,已经成为最具影响力和公信力的中国大学排名领先品牌。

2020-10-06

86套空灵风PPT.docx

PPT是office全家桶中的一个套件,风靡全球,主要是一个演示模板,在各种展示场合使用,十分方便快捷。

2020-09-11

Dev-Cpp 5.11 TDM-GCC 4.9.2 Setup.zip

Dev-C++是一个Windows环境下的一个适合于初学者使用的轻量级 C/C++ 集成开发环境(IDE)。它是一款自由软件,遵守GPL许可协议分发源代码。它集合了MinGW中的GCC编译器、GDB调试器和 AStyle格式整理器等众多自由软件。原开发公司 Bloodshed 在开发完 4.9.9.2 后停止开发,所以现在由 Orwell 公司继续更新开发,最新版本:5.12。

2020-09-01

codeblocks-20.03-setup.zip

Code::Blocks 是一个开放源码的全功能的跨平台C/C++集成开发环境。 Code::Blocks是开放源码软件。Code::Blocks由纯粹的C++语言开发完成,它使用了著名的图形界面库wxWidgets(3.x)版。对于追求完美的C++程序员,再也不必忍受Eclipse的缓慢。

2020-09-01

HBuilderX.2.8.3.20200728.zip

HBuilderX 简称 HX,HBuilder,H 是 HTML 的缩写,Builder 是建设者。是为前端开发者服务的通用 IDE,或者称为编辑器。与 vscode、sublime、webstorm 类似。

2020-08-31

typora.zip

typora就是一款可以不需要网络就可以进行书写博客的软件,跟我们平常的word文档一样只不过typora可以在有网络的情况下发布你想发布的内容到互联网上让更多的人看到你发的博文。

2020-08-31

eclipse.zip

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具。

2020-08-31

Microsoft VS Code.zip

VS Code的全称是Visual Studio Code,但这全名实在是太长了,很多用户喜欢叫它VS Code。说起VS Code,官方定义它是一个免费的、开源的跨平台编辑器。之所以强调“编辑器”,我想是因为 VS Code 并无意成为一个全尺寸的集成开发环境,也就是IDE。

2020-08-31

standard.pdf

史上最全的LaTeX的语法公式,帮助大家更加容易的使用LaTeX语法规范来进行文档书写、排版等等一系列的工作。

2020-08-18

计算机二级无忧考吧C语言做题软件

计算机二级无忧考吧C语言做题软件

2023-09-17

全国CO2分析可视化资料

本文的数据来源是1997-2015年的中国CO2排放量,其中具体包括30个省份的总数据和每个省份具体行业、具体燃料种类的数据。因为本次数据非常规整和齐全,所以可以进行非常丰富的可视化,这也是赵老师对我们的要求。所以这次我花时间实现了比较丰富的可视化。

2022-11-26

1985-2020年美赛真题.zip

1985-2020年美赛真题.zip1985-2020年美赛真题.zip1985-2020年美赛真题.zip

2021-03-03

Zotero-5.0.96_setup.exe

Collect with a click. Zotero is the only software that automatically senses research on the web. Need an article from JSTOR or a preprint from arXiv.org? A news story from the New York Times or a book from a library? Zotero has you covered, everywhere.

2021-03-31

danmu_and_video.zip

用python的各种知识可以用弹幕制作活动的视频

2021-02-01

丘成桐大学生数学竞赛资料.zip

丘成桐大学生数学竞赛资料.zip丘成桐大学生数学竞赛资料.zip丘成桐大学生数学竞赛资料.zip

2021-03-03

RStudio-1.4.1106.exe

RstudioR的维护工作由一个国际化的开发者团队负责。R软件的官方下载页面叫作The Comprehensive R Archive Network,即CRAN。

2021-03-03

卷积神经网络vgg19.npy

VGGNet是牛津大学计算机视觉组(VisualGeometry Group)和GoogleDeepMind公司的研究员一起研发的的深度卷积神经网络。VGGNet探索了卷积神经网络的深度与其性能之间的关系,通过反复堆叠3*3的小型卷积核和2*2的最大池化层,VGGNet成功地构筑了16~19层深的卷积神经网络。VGGNet相比之前state-of-the-art的网络结构,错误率大幅下降,并取得了ILSVRC 2014比赛分类项目的第2名和定位项目的第1名。同时VGGNet的拓展性很强,迁移到其他图片数据上的泛化性非常好。VGGNet的结构非常简洁,整个网络都使用了同样大小的卷积核尺寸(3*3

2020-12-13

WYKS2python.zip

计算机二级python题库

2021-02-06

rapidminer-studio-9.9.0-win64-install.exe

Depth for Data Scientists, Simplified for Everyone Else

2021-06-02

mathpixsnippingtool.rar

Mathpix Snip digitizes handwritten or printed text, and copies outputs to the clipboard that can be pasted into LaTeX editors like Overleaf, Markdown editors like Typora, Microsoft Word, and more. Stop using complicated math editors or typing out complex LaTeX code by hand. Download Snip and get more done.

2021-04-30

Image-Caption-Generator-master.zip_Ticketmaster

Being able to automatically describe the content of an image using properly formed English sentences is a very challenging task, but it could have great impact, for instance by helping visually impaired people better understand the content of images on the web. This task is significantly harder, for

2020-12-30

mpMath_v0.1.8.crx

mpmath是一个在微信公众号里面编辑数学公式的插件

2021-01-27

航空科普知识竞赛题.pdf

航空科普竞赛题航空科普竞赛题航空科普竞赛题

2021-01-27

bilibili-report-master.zip

bilibili用户分析报告

2021-01-27

Texture-Synthesis-Using-Convolutional-Neural-Networks-master.zip

Texture Synthesis Using Convolutional Neural Networks

2021-01-16

GeoGebraGeometry-Windows-Installer-6-0-609-0.exe

Geometry is a branch of mathematics that studies the , shapes, positions and dimensions of things. Flat like squares, circles, and triangles are a part of flat geometry and are called 2D shapes. These shapes have only , the length and the width.

2020-12-07

vgg16. neural network

VGG16 is a convolutional neural network model proposed by K. Simonyan and A. Zisserman from the University of Oxford in the paper “Very Deep Convolutional Networks for Large-Scale Image Recognition”. The model achieves 92.7% top-5 test accuracy in ImageNet, which is a dataset of over 14 million imag

2020-12-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除