Coop_Multi-Agent_DRL-优快云博客

原创计算机图形学

文章目录如何画图如何画图参考文献

2021-06-17 11:49:09 965 1

2021-06-08 17:17:24 199

转载 2021-01-27

原文传送门实做题：森林的节点数量为n，边数为b，要求出森林中的树的个数，以及对应的推导过程。俩个栈共享栈问题。包括了栈1栈2的判空判满条件，以及栈1入队算法，栈2出队算法。AOE网络，计算各事件、活动的最早开始时间与最晚发生时间，并求关键活动与关键路径。使用堆排序，求出前四个最小值的过程，以及在这四个过程中，每一次的比较次数。（本题注意，要使用小顶堆而非大顶堆）算法题：一个单链表，其中每一个节点中的数据为字母、数字或其他。要求建立三个循环单链表，使得这三个循环单链表分别存储原先单链表中的

2021-01-27 21:50:44 211

原创 DRL学习资源

文章目录李宏毅笔记DDPG李宏毅笔记drl课程完整笔记DDPGDDPG理论推导

2021-01-26 17:02:06 229

原创生活健康常识

不论是搬重物，还是捡起地上的一张纸，先蹲下，然后直腰捡起。如果直接弯腰捡，对腰部压力很大，容易受伤。常坐的椅子或者沙发上，放个靠垫，为你撑腰。用牙线、用含氟牙膏，预防龋齿。健康牙齿才能换来美好笑容……和绝佳食欲。口腔健康方面：每半年洗一次牙，龋齿全部填补好，坚持用牙线。年老时还能有一口健康的牙齿。每年坚持体检。如果是单位体检，我会事先核查体检项目。如果项目对我而言不够全面，会自费加钱把所需项目补全；注射乙肝疫苗，防止肝癌睡前适当的运动, 有助于入睡...

2021-01-23 20:55:57 214 1

转载复试注意事项

问题四：面试过程中回答不上老师提出的问题怎么办？邓：如何回答问题？我想有如下几点需要注意：一、实事求是，懂就是懂，不懂就不懂，不应该不懂装懂，胡编乱造；二、不懂的内容也不要放弃，首先声明自己没学过或者不懂，然后也要尝试给出自己的观点，这体现一种探索精神；三、表达要清楚，要简洁明了，尽量避免零零散散、模棱两可、不知所云；四、如果涉及自己最熟悉的知识点，回答完老师的问题后，可以稍加拓展，谈谈自己更深入的理解；五、有不懂的问题很正常，切勿慌张，影响后面的回答。...

2021-01-23 10:52:16 121

原创 Actor-Critic

文章目录Critic(通过学习使得自己估值越来越准确)Critic(通过学习使得自己估值越来越准确)

2021-01-19 21:34:45 175

转载 python 多进程与多线程

文章目录通俗解释通俗解释参考文献多线程与多进程的区别多线程 threading：一个人有与异性聊天和看剧两件事要做。单线程的她可以看完剧再去聊天，但这样子可能就没人陪她聊天了「哼，发消息不回」。我们把她看成一个CPU核心，为她开起多线程——先看一会剧，偶尔看看新消息，在两件事（线程）间来回切换。多线程：单个CPU核心可以同时做几件事，不至于卡在某一步傻等着。用处：爬取网站信息（爬虫），等待多个用户输入多进程 processing：一个人有很多砖需要搬，他领取手套、推车各种物资（向系统申请

2021-01-15 13:08:36 137

原创 DQN and variant

文章目录1. Q-learning1. Q-learningan algorithm which produces a Q-table that an agent uses to find the best action to take given a state.

2021-01-09 14:43:44 324

原创英语作文举例子

文章目录努力, 坚持目标话题举例道德诚信努力, 坚持目标话题举例参考文献Obama, brilliant and noted black president in American history, made significant contribution to American’s advancement。It is obvious what makes him the first ...

2020-12-12 13:05:55 652

原创 2020-11-26

我想声明一个三维字符串数组其中每行有两个字符串。在此，我可以声明：char[][2][MAXSIZE];char *szArray[][2] = { {"string1", "string2"}, {"string3", "string4"}, {"string5", "string6"}, {0, 0}};

2020-11-26 12:28:01 161

原创虚基类

文章目录作用虚基类构造函数作用虚基类构造函数#include <iostream>using namespace std;class CBase{public: int a;public: CBase(int na) { a=na; cout<<"CBase constructor! "<<endl; } ~CBase(){cout<<"CBase deconstructor! "<<endl;}};

2020-11-15 18:18:40 201

原创析构函数执行顺序

#include<iostream>static int global_sta = 1; //global_sta为静态全局对象void print(){ int non_local = 2; //non_local为局部对象，非静态的 static sta_local = 3; //sta_local为静态局部对象}

2020-11-15 15:26:36 142

转载虚函数

而在C++中，没有接口的定义，我们可以定义抽象类来实现像Java中的接口功能。包含纯虚函数的类就是抽象类不能实例化，纯虚函数可以定义为：（本文不考虑函数参数）virtual type functionname()=0;如：#include <iostream>using namespace std;class animal{public: virtual void info()=0;};class dog:public animal{ void info()

2020-11-11 17:42:00 148

转载 ma_rl_新思想

这个解耦的方法很有意思！我们icml 2020也做了个类似的工作，我们的想法是让agent自己去学会不一样的sub-task，然后这些sub-task越diverse它们的解耦性就越好，然后qmix, qtran, vdn这样的基于网络结构的假设就可以去除了。论文链接...

2020-11-11 12:56:56 182

转载栈实现深度优先遍历_非递归

#include<stdio.h>#include<stack>#define MAX 100using namespace std;typedef struct{ int e[MAX][MAX]; int ves; int edge; int book[MAX];//标志判断是否有被访问过 }MGraph;void createMGraph(MGraph *G){ int i; int j; int sta

2020-11-03 16:54:05 1445 1

原创 Notability主题配色

文章目录1. 水蜜桃汽水黑色背景1. 水蜜桃汽水黑色背景

2020-10-01 01:21:00 4392

原创大作文

文章目录1. 社会热点类: 健康1. 社会热点类: 健康

2020-09-16 00:00:16 118

原创小作文

文章目录1. 投诉信1. 投诉信

2020-09-15 23:48:52 159

原创 limit

左右极限问题

2020-09-15 17:33:24 203

原创 B树

文章目录

2020-09-12 22:09:37 105

原创 Words

文章目录scale 级别scale 级别However, he underestimates the scale of the problem.然而，他低估了问题的严重性。

2020-07-16 20:12:24 132

原创给郭丝理解用的

前向传播, 三层神经网络def init_network(): network = {} network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]]) network['b1'] = np.array([0.1, 0.2, 0.3]) network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]]) network['b2'] = np.arra

2020-06-18 19:10:33 229

原创 What works for RL

文章目录在稳定的环境下（如近封闭环境的物流）在稳定的环境下（如近封闭环境的物流）

2020-06-08 21:19:24 130

原创 Deep Deterministic Policy Gradient

文章目录参考的大佬们numpyReplayBuffer参考的大佬们很详细的参考numpyprint(np.random.normal(size=6)) # 默认标准正态分布 μ=0, σ=1, shape = 6[ 1.18306191 0.42100423 1.40213637 -0.17240589 0.02877852 -1.5534178 ]ReplayBufferself.mem_cntr = 0 # the last memory index you store.

2020-05-28 16:27:16 281

原创分布函数(Distribution Function)

文章目录Normal DistributionNormal Distribution参考文献随机变量是随机实验结果的可能数值的集合。

2020-05-25 21:55:48 834

原创 Value-Based

文章目录蒙特卡洛(监督学习方法)TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾Q value蒙特卡洛(监督学习方法)让 VπV^πVπ无限接近GaG_aGa(也就是∑t=1nrt\sum_{t=1}^{n}r^t∑t=1nrt)TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾losslossloss = Vπ(St)−Vπ(St+1)V^π(S_t)-V^π(S_{t+1})Vπ(St)−Vπ(St+1)Q value...

2020-05-12 22:33:26 268

原创 Latex从入门到放弃

文章目录单行显示公式(加一个 $ 即可)单行显示公式(加一个 $ 即可)单行显示VπV^πVπ

2020-05-12 21:34:36 212

原创矩阵求导

文章目录ExamplesExamples

2020-05-10 11:41:15 115

原创 Policy_Based

pick the best actorI’m showing log probabilities (-1.2, -0.36) for UP and DOWN instead of the raw probabilities (30% and 70% in this case) because we always optimize the log probability of the correct label (this makes math nicer, and is equivale...

2020-05-10 11:33:42 162

原创 Paper Reading Weird Words

文章目录heuristicallyaka.heuristicallywithout valid theoretical groundings一个基于直观或经验构造的算法，在可接受的花费（指计算时间和空间）下给出待解决组合优化问题每一个实例的一个可行解，该可行解与最优解的偏离程度一般不能被预计。aka.又名，亦称 (also known as)...

2020-05-07 21:38:49 467

原创一些术语

文章目录decentralised executionsuboptimal policies(添加自由探索几率, 防止局部最优)decentralised executioneach agent can select its action based only on its own factorsuboptimal policies(添加自由探索几率, 防止局部最优)Single ag...

2020-05-07 21:38:26 328

原创 Words Plan

文章目录先做完真题, 从真题中学习自己不认识的词汇先做完真题, 从真题中学习自己不认识的词汇

2020-05-07 11:39:29 105

原创 Mit self-driving

文章目录actions(not the reword)grid system前车与后车, 和自己的距离actions(not the reword)grid system前车与后车, 和自己的距离前车是三个格子

2020-05-04 23:28:26 187

原创 SpringData Jpa

文章目录表命名规范(不使用驼峰法, 替换成加下划线)表命名规范(不使用驼峰法, 替换成加下划线)select seller0_.id as id1_1_, seller0_.address as address2_1_, seller0_.avatar as avatar3_1_, seller0_.bulletin as bul...

2020-05-03 18:02:56 159

原创 What Human Beings Can Understand

MAC(路由器用来记录下一跳的地址)接收数据MAC地址转发数据MAC地址

2020-04-30 17:10:12 133

原创 Common Sense

文章目录Imitation LearningImitation Learning训练采用了imitation learning，这也是目前的主流吧，在这种FPS复杂环境下，高纬度的state and action space，维度灾难是显而易见的，所以他们先让Agent观看人类玩家30分钟的游戏操作之后，再开始训练，加快了policy的训练和收敛速度。...

2020-04-30 10:39:06 156

原创 Cooperative Deep MARL

文章目录AbstractAbstract这个世界就是个大规模多智能体世界，大量智能体协作才是在AGI的正道上。

2020-04-29 11:30:33 272

原创 linear

特征值与特征向量对称矩阵p156

2020-04-13 20:03:01 165

原创 API

API商品列表GET /sell/buyer/product/list参数无返回{ "code": 0, "msg": "成功", "data": [ { "name": "热榜", "type": 1, "foods": [ { ...

2020-04-01 13:48:50 253

空空如也

空空如也