- 博客(43)
- 资源 (1)
- 收藏
- 关注
原创 【强化学习】SPG DPG DDPG(DPG3)
数学公式警告Policy GradientKaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲J(\pi_\theta)=&…ρπ(s′)=∫S∑t=1∞γt−1p1(s)p(s→s′,t,π)ds\rho^\pi(s') = \int_S \sum_{t=1}^ {\infty} \gamma^{t-1}p_1(s)p(s\to s',t,\pi)dsρπ(s′)=∫S∑t=1∞
2020-12-30 20:19:05
953
原创 【强化学习】DQN (DPG2)
DQN基础算法网络结构DQN与普通的Q-leaning的区别之一在于使用一个DCNN来近似Q(s,a),在论文中的一代目DQN中使用的是三个卷积层+两个全连接层经验重放另外一个区别在于利用了经验回放训练强化学习的学习过程,即一个经验池保存了(s,a,R,s′,done)(s,a,R,s',done)(s,a,R,s′,done)这一种五元组,之后训练时也从经验池中取出值进行训练。训练神经网络时,存在的假设是训练数据是独立同分布的,但是通过强化学习采集的数据之间存在着关联性,利用这些数据进行顺
2020-12-30 00:18:09
476
原创 【强化学习】部分基础知识(DPG 1)
MethodValue-Based(actor)step1: 将神经网络作为actorstep2: 衡量actor的好坏step3: 选择最好的actorPolicy-Based(Critic)Critic: 用来评估actorState value function(V): 在看到某一个状态state的时候预期能够得到的累积收益Estimation of V:Monte-Carlo(MC): critic会观察actor π\piπ 玩游戏的整个过程, 具有不确定性,较大的方差,但结果无
2020-12-28 23:22:57
1109
原创 【简单数论】 gcd + exgcd + 逆元
int gcd(int x,int y){return a%b==0? b:gcd(b,a%b);}首先对于基础gcd,基于性质gcd(a,b)=gcd(b,a%b)int x,y;int exgcd(int a,int b){ if(b == 0) { x=1; y=0; return a; } int ans = exgcd(b,a%b); int t=y; y = x - a/b*t;.
2020-05-12 10:52:01
307
原创 Objective-C 复合学习笔记
@interface Car : NSObject{ Engine *engine; Tire *tires[4];}复合既是指用多种对象组成的新的对象。#import <Foundation/Foundation.h>// --------------------------------------------------@interface Tire ...
2018-11-05 19:42:32
283
原创 Objective-C 继承学习笔记
// All about Triangles@interface Triangle : Shape{}@end // Triangle@implementation Triangle- (void) draw{ NSLog (@"drawing a triangle at (%d %d %d %d) in %@", bounds.x, bounds.y, ...
2018-09-27 23:05:00
310
原创 Objective-C 类与方法学习笔记
@interface Shape : NSObject{ ShapeColor fillColor; ShapeRect bounds;}- (void) setFillColor: (ShapeColor) fillColor;- (void) setBounds: (ShapeRect) bounds;- (void) draw;@end // Shape@i...
2018-09-26 19:54:43
204
原创 Codeforces Round #421 Mister B and PR Shifts(暴力瞎搞)
http://codeforces.com/contest/819/problem/B暴力瞎搞
2017-06-28 20:28:52
586
原创 【动态规划21】Codeforces Round #420 821E Okabe and El Psy Kongroo(dp+矩阵快速幂)
dp+矩阵快速幂
2017-06-27 19:46:24
416
原创 【动态规划11】vijos1243生产产品(dp+单调队列)
题目描述 在经过一段时间的经营后,dd_engi的OI商店不满足于从别的供货商那里购买产品放上货架,而要开始自己生产产品了!产品的生产需要M个步骤,每一个步骤都可以在N台机器中的任何一台完成,但生产的步骤必须严格按顺序执行。由于这N台机器的性能不同,它们完成每一个步骤的所需时间也不同。机器i完成第j个步骤的时间为T[i,j]。把半成品从一台机器上搬到另一台机器上也需要一定的时间K。同时,为了保证
2017-06-08 15:03:39
546
原创 【动态规划05】bzoj4300绝世好题(直接瞎搞..)
题题目描述给定一个长度为n的数列ai,求ai的子序列bi的最长长度,满足bi&bi-1!=0(2<=i<=len)。输入输出格式输入文件共2行。第一行包括一个整数n。第二行包括n个整数,第i个整数表示ai。输出文件共一行。
2017-06-02 23:00:32
493
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人