- 博客(52)
- 资源 (1)
- 收藏
- 关注
原创 强化学习之PPO源码阅读
Stable-Baselines3 中的 PPO 通过裁剪目标函数(Clipping Objective)来稳定策略更新,并使用KL 散度早停(KL Divergence Early Stopping)机制避免策略崩溃。限制策略变化幅度,提高训练稳定性。优势估计(GAE-Lambda),减少方差,提高采样效率。熵奖励,鼓励探索,防止策略过早收敛。梯度裁剪,防止梯度爆炸,提高训练稳定性。在实践中,PPO 适用于大规模连续/离散动作空间任务,并且在机器人控制、游戏 AI、金融交易等场景中广泛应用。
2025-03-09 18:44:25
684
原创 强化学习之Q-learning 与 DQN
Q-learning 旨在学习一个最优策略,使得智能体在给定状态下选择最优动作,以获得最大的长期奖励。在 Q-learning 中,智能体维护一个 Q 值表Q(s, a),表示在状态s下执行动作a后所能获得的长期累积奖励。DQN 通过深度神经网络(DNN)近似 Q 值函数,解决了 Q-learning 在高维状态空间中存储 Q 值表的限制问题。在 DQN 中,我们使用神经网络Qsa;θQ(s, a;\theta)Qsa;θ来代替 Q 值表,并通过梯度下降进行参数更新。
2025-03-08 10:05:04
1024
原创 强化学习之Advantage优势函数
SSSAAAPs′∣saP(s'|s,a)Ps′∣saRsaR(s,a)Rsaγ\gammaγ状态值函数(Value Function)VπsEπ∑t0∞γtrt∣s0sVπsEπt0∑∞γtrt∣∣∣s0s该函数衡量在状态sss下,遵循策略π\piπ所能获得的期望累积回报。动作值函数(Q-Value Function)QπsaEπ∑t0∞γ。
2025-03-07 14:49:06
797
原创 强化学习之离散动作采样 vs 连续动作采样
为了解决这个问题,我们利用概率密度函数(PDF)来估计动作的发生概率。强化学习(Reinforcement Learning, RL)是一种训练智能体(agent)在环境中学习决策策略的方法。本文介绍强化学习中常见的离散和连续动作采样方法,并分析如何计算动作采样的对数概率(log probability, logp)(有了logp才能求导优化)。),使得采样过程变得可导,从而可以通过梯度下降优化策略。时,单位长度可能会被拉伸或压缩,因此密度需要乘以导数的绝对值进行调整,以确保总概率保持不变。
2025-03-06 10:51:25
862
原创 强化学习之On-Policy vs Off-Policy
On-Policy和Off-Policy算法各有优缺点。在实际应用中,如果任务允许高效的数据采样,且对学习的稳定性要求较高,On-Policy方法(如PPO、A2C)可能是更好的选择。如果数据采样成本较高,或希望充分利用历史经验,Off-Policy方法(如DQN、SAC)更具优势。
2025-03-05 14:47:42
808
原创 deepseek-r1技术报告解析
文章题目:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning。
2025-01-27 09:32:10
2148
原创 MuMath-Code: Combining Tool-Use Large Language Models with Multi-perspective Data Augmentation...
在kaggle比赛 Top1 的做法中提到了这个方法,阅读一下这篇论文。
2025-01-26 21:47:46
849
原创 KG-CoT:基于知识图谱的大语言模型问答的思维链提示
nnnmmmM∈01n×n×mM∈01n×n×mMijk1Mijk1则说明实体iii和实体jjj之间具有关系kkk。输入问题qqq:输入的问题初始实体表示向量e0∈01ne0∈01n,如果输入问题q中存在实体i,则ei01e^0_i = 1ei01。
2025-01-09 03:37:54
1260
1
原创 KMP算法
前缀和后缀的概念(以aabaa为例)所有的前缀和后缀如下下面是代码#include<iostream>#include<string>#include<vector>using namespace std; // next数组 next[i]表示p串的相同前后缀最大长度// next[j-1] 也可以看做是 p[j]和s[i]匹配不上,p下一个需要跳转的字符位置// 求next数组可以看成是一个动态规划的过程int main(int argc.
2021-09-16 12:38:54
322
原创 pytorch&numpy中与维度处理有关部分函数
前言此篇博客包含了很多常用的与数组维度处理有关函数,方便查阅numpynumpy中与维度处理有关函数个人感觉掌握下面这五个就足够用了np.concatente - 维度合并这个函数个人感觉是非常好用的,可以将多个数组按照某一维度进行合并。如下示例如上所示,可以对数组的axis维进行拼接,保证数组其他维度完全一样,否则会报错,多个数组也可以。np.tile - 数组重复堆叠利用np.tile可以对数组进行拓展,如下示例可以对数组某一维度进行堆叠,设第二个参数为args = (arg1,a
2021-09-02 02:15:05
1271
原创 【神经网络】正向传播和反向传播(结合具体例子)
神经网络神经网络结构如上,由三个层构成。X到H层使用relu激活函数,H到O层使用sigma激活函数。损失函数采用交叉熵。relu函数如下:relu=max(x,0)relu′=relu = max(x,0)relu' = relu=max(x,0)relu′=前向传播一上来写矩阵形式可能不太适合理解。我先针对单个神经元来写。X->H那么就是h1=relu()h_1 = relu()h1=relu()......
2021-08-20 02:46:07
2581
原创 【编译原理】部分题目+知识点
计算机语言分类机器语言与汇编语言更接近计算机硬件指令系统的工作高级语言更接近求解问题的表示方法命令语言控制系统的工作——以功能封装为特征
2021-06-08 14:01:52
5380
15
原创 【软件工程】各种概念-习题2
第一章:软件工程概论软件工程概论应用软件为满足特定应用领域、不同应用问题之需求的专用软件支撑软件软件系统的中间层,支撑各种软件的开发运行与维护的软件系统软件最靠近计算机硬件的一层软件——控制和协调计算机及外部设备,支持应用软件开发与运行的软件软件的四大特征——复杂性软件的四大特征——不可见性软件的四大特征——易变性软件的四大特征——一致性遗留系统仍在使用的软件系统,可满足客户需求,但很难以“优雅的”方式对其进行演变以适应新需求或新环境。软件危机计算机软件开发和维护的过程中所遇到
2021-06-02 14:48:34
13644
2
原创 【软件工程】部分题目
软件工程概论软件工程概念软件的分类应用软件满足特定功能的一类软件。支撑软件软件系统的中间层,支持各类软件的开发。系统软件最接近计算机硬件的软件,如操作系统,编译器等。软件的四个特性复杂性、易变性、不可见性、一致性。软件危机软件在开发和维护过程中所遇到的一系列问题。软件危机的表现程序不能满足用户需求程序缺乏合适的文档程序的可维护性差,不能适应外界的变化程序的性能不够程序在预计时间内不能完成,面临超期危险开发成本比重上升软件在开发生产速率赶不上计算机深入的趋势为
2021-06-01 20:53:41
273
1
原创 【汇编与接口】常用接口芯片总结
8255可编程并行接口内部结构(1)数据总线缓冲器(2)3个8位端口PA/PB/PC(3)A组和B组控制电路(4)读写控制逻辑四个端口:PA口,PB口,PC口,控制口。8255引脚功能比较简单这里就不浪费笔墨了8255工作方式方式0 基本输入输出每一个端口都定义为输入口或输出口端口C可作为两个独立的4位端口使用,并可定义为输入口或输出口方式1 选通输入输出端口A和端口B可工作在方式1,每一个端口都定义为输入口或输出口;端口C的某些引脚分别作为端口A和端口B的联络信号,有
2021-01-04 20:50:11
4336
3
原创 【数据库】总结
第一章概念模型(ER图)椭圆是属性矩形是实体菱形为联系概念模型到关系模型转化主码下面要加下划线1-m联系实体型->关系模式将1端主码连同联系属性放入n端属性中1-1联系实体型->关系模式任意一端主码连同联系属性放入到另外一端实体当中n-m联系实体型->关系模式产生一个新关系,关系名为联系名,将两端实体的主码连同关系属性数据库系统的三级模式结构概念数据库的三级模式结构是由外模式、模式、内模式三级构成。模式,也成逻辑模式,是数据库中全体数据的逻辑结构和特征
2021-01-03 21:13:11
3597
7
原创 【python】B站视频批量导出MP4格式
前言前段时间我买了一个平板,但是不得不说,实在是是太卡了(某多多平台购买)甚至连b站都打不开,上网太卡。尽管有个大屏幕。。。所以视频啥的只能下载观看。电脑下载b站视频没倒腾明白,不过肯定不能直接下载,然后我就用手机下载,然后导出为MP4,然后再传到平板上,本文将着重讲解后者。前期准备下载ffmpeg,windows下载地址戳我准备好python环境python 2 3 均可第一步 解压ffmpeg解压如下:然后,电脑连接手机(视频已经提前下载好),找到视频文件目录( 我的是内
2020-12-21 16:05:27
1328
4
原创 【NLP-笔记】中文分词技术
中文分词简介在汉语中,词是以字为单位的,但是一篇文章的语义表达却仍然是以词来作为划分的。因此,在处理中文文本时,需要进行分词处理,将句子转化成为词的表示。这个切片过程就是中文分词,通过计算机自动识别出句子的词。规则分词通过构建字典,在切分语句时,将语句中的每个字符串与字典中的词逐一比较,找到则切分,找不到则不切分。正向最大匹配法从头开始匹配逆向最大匹配法双向最大匹配法统计分词混合分词中文分词工具——jieba...
2020-12-10 11:41:13
494
原创 【汇编与接口】第三章汇编语言
汇编语句的类型在8086宏汇编MASM使用的语句可以分成3种类型:指令语句:这类指令能够产生目标代码,是CPU可以执行完成特定功能的语句。在汇编时一条指令语句被翻译成对应的机器码,实现特定的操作。伪指令语句:伪指令语句时为汇编程序和连接程序提供一些必要控制的管理性语句,它不产生目标代码,仅仅在汇编过程中告诉汇编程序应如何编译,并完成相应的伪操作。宏语句:宏指令语句是由编程者按照一定的规则来定义的一种较“宏大”的指令,可包括多条指令或伪指令。汇编语言语句的格式格式:[标识符] 操作项 操作数
2020-09-25 16:40:52
1063
原创 【汇编与接口】第二章8086微处理器
8086CPU的编程结构8086CPU有16根数据线,20根地址线。总线接口单元如上图右侧,CS为代码段寄存器;DS为数据段寄存器;SS为堆栈段寄存器;ES为附加段寄存器;IP存放下一条要取的指令的偏移地址,具有自动加1的功能。∑\sum∑为20位地址加法器,形成20位物理地址。指令队列用来存放待执行指令。执行单元如上图左侧,AX、BX、CX、DX为四个通用寄存器,都可作为16位寄存器或两个独立的8位寄存器使用。SP为堆栈指针寄存器;BP为基址指针寄存器;SI为源变址寄存器;DI为目的变址寄存器。
2020-09-23 20:31:23
2934
原创 【形式语言】第一章绪论
集合集合:一定范围内的、确定的、并且彼此可以区分的对象汇集在一起形成的整体叫做集合(set),简称为集(set)元素:集合的成员为该集合的元素(element)基数:集合中元素个数集合的描述形式有列举法和命题法两种集合的运算并(∪\cup∪)交(∩\cap∩)差(−-−)对称差(⊕\oplus⊕)笛卡尔积(×\times×)A×B={(a,b)∣a∈A&b∈B}A\times B =\{ (a,b) | a \in A \& b \in B\}A×B={(a,b)∣a
2020-09-17 11:20:16
493
2
原创 【数学建模】2018年B题
智能RGV的动态调度策略图1是一个智能加工系统的示意图,由8台计算机数控机床(Computer Number Controller,CNC)、1辆轨道式自动引导车(Rail Guide Vehicle,RGV)、1条RGV直线轨道、1条上料传送带、1条下料传送带等附属设备组成。RGV是一种无人驾驶、能在固定轨道上自由运行的智能车。它根据指令能自动控制移动方向和距离,并自带一个机械手臂、两只机械手爪和物料清洗槽,能够完成上下料及清洗物料等作业任务(参见附件1)。图1:智能加工系统示意图针对下面的三种具
2020-09-07 23:17:10
3602
4
原创 【数学建模】2017年B题
题目“拍照赚钱”的任务定价\quad\quad“拍照赚钱”是移动互联网下的一种自助式服务模式。用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。这种基于移动互联网的自助式劳务众包平台,为企业提供各种商业检查和信息搜集,相比传统的市场调查方式可以大大节省调查成本,而且有效地保证了调查数据真实性,缩短了调查的周期。因此APP成为该平台运行的核心,而APP中的任务定价又是其核心要素。如果定价不合理,有的任务就会无人问津,
2020-09-05 18:39:17
10602
1
原创 【算法】部分图论算法
最短路构造赋权图G(V,E,W)G(V,E,W)G(V,E,W),顶点集为V={v1,v2,...,vn}V = \{v_1,v_2,...,v_n\}V={v1,v2,...,vn},EEE为边的集合;WWW为顶点之间的距离(权值)矩阵,W(vivj)W(v_iv_j)W(vivj)表示顶点viv_ivi到顶点vjv_jvj的距离,若顶点viv_ivi与顶点vjv_jvj之间无路连接,则记W(vivj)=∞W(v_iv_j)=\inftyW(vivj)=∞;同时,记W(vivi)=
2020-09-03 16:29:29
459
原创 【数学建模】2016年B题
题目小区开放对道路通行的影响\quad\quad 2016年2月21日,国务院发布《关于进一步加强城市规划建设管理工作的若干意见》,其中第十六条关于推广街区制,原则上不再建设封闭住宅小区,已建成的住宅小区和单位大院要逐步开放等意见,引起了广泛的关注和讨论。\quad\quad除了开放小区可能引发的安保等问题外,议论的焦点之一是:开放小区能否达到优化路网结构,提高道路通行能力,改善交通状况的目的,以及改善效果如何。一种观点认为封闭式小区破坏了城市路网结构,堵塞了城市“毛细血管”,容易造成交通阻塞。小区开
2020-09-03 16:14:10
7433
1
原创 【NLP-笔记】NLP前置技术解析
搭建Python的开发环境略正则表达式(re库)正则表达式规则python中 记得正则表达式加r,转原生字符串。regex = r"test"字符含义.任何单个字符*前一个字符0次或无限次拓展(0即为没有前一个字符)+前一个字符1次或无限次拓展?前一个字符0次或1次拓展|左右表达式任意一个{m}拓展前一个字符m次{m,n}拓展前一个字符m-n次^匹配字符串开头 例:^abc$匹配字符串结尾 例:abc$(
2020-08-03 20:23:22
405
原创 【NLP-笔记】开篇
前言最近,实验室有一个项目,做股市文本分析,通过定期获取股民关于股票的评论并结合其他因素来判定股票的涨跌情况。在读《python自然语言处理实战 核心技术与算法》 涂铭、刘祥、刘树春著。我打算出一系列关于此书的笔记。此书代码下载地址为:https://github.com/nlpinaction/learning-nlpNLP基础什么是NLPNLP基本概念NLP(Natural Language Processing,自然语言处理)是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用
2020-08-03 17:02:55
385
原创 【算法】动态规划
动态规划将待求解问题分解成若干个子问题,分阶段求解子问题,前一阶段子问题的解成为求后续阶段子问题的解的计算信息,最后用这些子问题的最优解构造出原问题的最优解。适合用动态规划求解的问题的特征(1) 子问题重叠性①子问题重复②子问题的解在下一阶段决策中,延续子问题多次使用(2) 最优子结构一个问题的最优解包含着它的子问题的最优解基本步骤(1) 找出最优解的性质,并刻画其结构特征。(2) 按最优解的性质,划分子问题及演算的阶段,递推求解最优解。(3) 以自底向上或自顶向下的记忆化方法 (
2020-07-22 01:20:22
332
2
原创 【算法】贪心算法
贪心算法• 每一步的判断都是一个当前最优的抉择,这个抉择计算设计的好坏,决定了算法的成败• 多步判断过程,最终的判断序列对应于问题的最优解• 适用于能够由 局部最优达到全局最优的优化问题• 需要对具体的贪心算法的正确性进行必要的证明例题1学生有 n 项活动申请使用某一个会议室,每项活动都有一个开始时间和一个结束时间。任何两个活动都不能同时使用这个会议室。问如何安排这些活动,使得被安排活动的数量达到最多?【思路】:设共有nnn项活动,数列{En}\{E_n\}{En}是这n项活动结束时间序列,
2020-07-21 21:27:39
561
原创 【算法】回溯法
回溯法回溯法:在约束条件下对解空间树进行深度优先搜索的过程,并在搜索过程中剪去那些不满足条件的分支。问题的解: 为 n 元组 (X 1 ,…,X i ,…X n ) ,其中 X i 选自有限集 S · ,基本策略:当选出一组值 X=(x 1 ,…,x i ,…x n ) 能够使评价函数 P(x 1 ,…,x i ,…x n )满足问题的某种约束条件或到达极值。每次只考虑一个分量,逐次扩大建立 n 元组,并随时用评价函数 P i (X 1 ,…,X i ,…X n ) 去判断正在形成的 n 元组是否有成
2020-07-21 15:04:46
429
原创 【算法】分治法
分治法分治思想:把一个较大的问题分解成几个与原问题相似的子问题,找到求出这几个子问题的解法后,再以适当的方法组织,把它们合成求整个问题的解。分治算法求解问题的步骤:(1) 分解:将要解决的问题划分成若干规模较小的同类问题;(2) 求解:当子问题划分得足够小时,用较简单的方法解决;(3) 合并:按原问题的要求,将子问题的解逐层合并构成原问题的解。例题1大整数乘法:设 X, Y 是两个 n 位的十进制数,求 X*Y 。【思路】:设X,Y均有n位(若X,Y有一方不够n位,补零即可)可
2020-07-21 14:54:47
1215
原创 【算法】蛮力法
前言概念蛮力法(brute force):直接基于问题的描述和所涉及的概念定义的进行算法设计,简单而直接。蛮力法应用特点蛮力法所能解决的问题跨越的领域非常广泛。对于一些重要的问题,运用蛮力策略可以设计出具备一定实用价值的算法,并且不用限制实例的规模。当要解决的问题实例不多并且可以接受蛮力法的运算速度时,蛮力法的设计代价通常较为低廉。蛮力算法可以作为衡量其它算法的准绳,服务于研究或教学。枚举法算法框架依据问题,设定枚举范围;找出约束条件,建立计算模型;利用计算模型在枚举范围内搜索
2020-07-20 16:25:02
2336
原创 【算法】算法分析基础
前言衡量算法对计算机资源的使用共有两方面计算资源(时间)算法采用的数学模型算法设计的策略问题的规模计算方法:(1)m种元运算;(2)每种元运算执行的时间:t1,t2,⋯ ,tmt_1,t_2,\cdots,t_mt1,t2,⋯,tm(3)每种元运算执行的次数:e1,e2,⋯ ,eme_1,e_2,\cdots,e_me1,e2,⋯,em(4)元运算与问题规模的关系:∀ei(n),1≤i≤m\forall e_i(n),1\leq i\leq m∀ei(n),1≤i≤m若
2020-07-19 23:37:50
813
原创 【算法】算法基础
算法基本概念算法(Algorithm)是对解题方案准确而完整的描述,是解决问题的清晰指令,代表着用系统的方法描述解决问题的策略机制。引子—>算法设计步骤求任意两个非负整数最大公约数问题分析主要考虑两种算法来进行问题求解穷举法欧几里得算法算法策略/建立计算模型设a>b>0,求a,b最大公约数穷举法{r=min{a,b}初始化(a mod r) and (b mod r)==0满足则r为最大公约数r=r−1循环\left\{
2020-07-19 20:14:46
485
1
原创 【算法】开篇
前言最近出一系列算法的博客,以供复习。今天先列出一个纲,明天开始写!什么叫算法算法(algorithm),在数学(算学)和计算机科学之中,为任何一系列良定义的具体计算步骤,常用于计算、数据处理和自动推理。作为一个有效方法,算法被用于计算函数,它包含了一系列定义清晰的指令,并可于有限的时间及空间内清楚的表述出来。算法中的指令描述的是一个计算,当其运行时能从一个初始状态和初始输入(可能为空)开始,经过一系列有限而清晰定义的状态最终产生输出并停止于一个终态。一个状态到另一个状态的转移不一定是确定的。包括随
2020-07-18 22:16:01
1040
编译原理试验【词法分析-语法分析-语义分析】,带运行界面。
2021-06-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人