Flanoc-优快云博客

原创【强化学习】SPG DPG DDPG（DPG3）

数学公式警告Policy GradientKaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲J(\pi_\theta)=&…ρπ(s′)=∫S∑t=1∞γt−1p1(s)p(s→s′,t,π)ds\rho^\pi(s') = \int_S \sum_{t=1}^ {\infty} \gamma^{t-1}p_1(s)p(s\to s',t,\pi)dsρπ(s′)=∫S∑t=1∞

2020-12-30 20:19:05 953

原创【强化学习】DQN (DPG2)

DQN基础算法网络结构DQN与普通的Q-leaning的区别之一在于使用一个DCNN来近似Q(s,a)，在论文中的一代目DQN中使用的是三个卷积层+两个全连接层经验重放另外一个区别在于利用了经验回放训练强化学习的学习过程，即一个经验池保存了(s,a,R,s′,done)(s,a,R,s',done)(s,a,R,s′,done)这一种五元组，之后训练时也从经验池中取出值进行训练。训练神经网络时，存在的假设是训练数据是独立同分布的，但是通过强化学习采集的数据之间存在着关联性，利用这些数据进行顺

2020-12-30 00:18:09 476

原创【强化学习】部分基础知识（DPG 1）

MethodValue-Based(actor)step1: 将神经网络作为actorstep2: 衡量actor的好坏step3: 选择最好的actorPolicy-Based(Critic)Critic: 用来评估actorState value function(V): 在看到某一个状态state的时候预期能够得到的累积收益Estimation of V:Monte-Carlo(MC): critic会观察actor π\piπ 玩游戏的整个过程, 具有不确定性，较大的方差，但结果无

2020-12-28 23:22:57 1109

原创【简单数论】 gcd + exgcd + 逆元

int gcd(int x,int y){return a%b==0? b:gcd(b,a%b);}首先对于基础gcd，基于性质gcd(a,b)=gcd(b,a%b)int x,y;int exgcd(int a,int b){ if(b == 0) { x=1; y=0; return a; } int ans = exgcd(b,a%b); int t=y; y = x - a/b*t;.

2020-05-12 10:52:01 307

原创 Objective-C 复合学习笔记

@interface Car : NSObject{ Engine *engine; Tire *tires[4];}复合既是指用多种对象组成的新的对象。#import <Foundation/Foundation.h>// --------------------------------------------------@interface Tire ...

2018-11-05 19:42:32 283

原创 Objective-C 继承学习笔记

// All about Triangles@interface Triangle : Shape{}@end // Triangle@implementation Triangle- (void) draw{ NSLog (@"drawing a triangle at (%d %d %d %d) in %@", bounds.x, bounds.y, ...

2018-09-27 23:05:00 310

原创 Objective-C 类与方法学习笔记

@interface Shape : NSObject{ ShapeColor fillColor; ShapeRect bounds;}- (void) setFillColor: (ShapeColor) fillColor;- (void) setBounds: (ShapeRect) bounds;- (void) draw;@end // Shape@i...

2018-09-26 19:54:43 204

原创【动态规划24】bzoj3437小P的牧场(dp+斜率优化)

斜率优化dp

2017-07-09 16:26:40 491

原创【Hash】bzoj4337 BJOI2015树的同构

树的哈希

2017-07-09 13:15:24 435

原创「LibreOJ NOI Round #1」接竹竿 (dp+前缀和优化)

dp+前缀和优化

2017-07-07 16:40:50 1502

原创【NOI2015】软件包管理器（树链剖分）

树链剖分模板题（？）

2017-07-05 13:54:00 401

原创【P3384】【模板】树链剖分

树链剖分模板

2017-07-05 13:13:36 455

原创【NOI2016】区间（线段树+离散化）

线段树+离散化

2017-07-04 15:48:04 611

原创【动态规划23】hdu5036 Explosion(bitset优化)

bitset优化dp

2017-07-04 10:35:08 434

原创【动态规划22】LiberOJ#515. 「LibreOJ β Round #2」贪心只能过样例(bitset优化)

bitset优化

2017-07-03 20:52:25 929

原创【bzoj2038】[2009国家集训队]小Z的袜子(hose) （莫队算法）

莫队算法

2017-07-01 16:21:11 473

原创 Codeforces Round #421 Mister B and PR Shifts（暴力瞎搞）

http://codeforces.com/contest/819/problem/B暴力瞎搞

2017-06-28 20:28:52 586

原创【动态规划21】Codeforces Round #420 821E Okabe and El Psy Kongroo（dp+矩阵快速幂）

dp+矩阵快速幂

2017-06-27 19:46:24 416

原创【动态规划20】bzoj4818[sdoi2017]序列计数（dp+矩阵快速幂）

bzoj4818sdoi2017dp+矩阵快速幂

2017-06-26 22:47:02 554

原创矩阵乘法学习笔记（二）(vijos1049+vijos1067)

vijos 1067vijos 1049

2017-06-25 19:58:36 380

原创矩阵乘法学习笔记（一）

矩阵乘法快速幂与poj3233

2017-06-24 14:46:33 616

原创关于矩阵乘法优化dp（入门+斐波那契模板题）

矩阵乘法优化dp个人理解+模板题求斐波那契

2017-06-22 19:52:40 667

原创【动态规划19】洛谷p3800 Power收集（dp+单调队列）

单调队列

2017-06-20 15:47:35 794

原创【动态规划18】bzoj1010 [HNOI2008]玩具装箱toy（斜率优化）

斜率优化导公式的时候稍微要动一下脑子

2017-06-19 20:20:19 464

原创【动态规划17】bzoj3675 [Apio2014]序列分割（斜率优化）

斜率优化瞎搞一搞

2017-06-18 20:51:38 743

原创【动态规划16】bzoj1911 [Apio2010]特别行动队（斜率优化）

斜率优化dp

2017-06-17 12:17:09 319

原创【动态规划15】hdu3057 Print Article（斜率优化入门）

斜率优化推推公式搞一搞

2017-06-13 19:00:10 680

原创【Hash】自己对于一种字符串hash的证明（？）

运用了前缀和后缀的巧妙的hash

2017-06-12 20:14:17 359

原创【动态规划14】UVA10635 Prince and princess（LCS转LIS）

LCS转化LIS思路

2017-06-12 10:24:59 374

转载【动态规划13】hdu2167 Pebbles（简单状压dp）

状压dp+奇怪的优化

2017-06-11 14:11:47 510

翻译【动态规划12】codeforces813D Two Melodies（官方题解翻译）

codeforces813D诡异题解

2017-06-09 20:18:48 635

原创【动态规划11】vijos1243生产产品（dp+单调队列）

题目描述在经过一段时间的经营后，dd_engi的OI商店不满足于从别的供货商那里购买产品放上货架，而要开始自己生产产品了！产品的生产需要M个步骤，每一个步骤都可以在N台机器中的任何一台完成，但生产的步骤必须严格按顺序执行。由于这N台机器的性能不同，它们完成每一个步骤的所需时间也不同。机器i完成第j个步骤的时间为T[i,j]。把半成品从一台机器上搬到另一台机器上也需要一定的时间K。同时，为了保证

2017-06-08 15:03:39 546