
笔记
文章平均质量分 73
大章鱼(张文哲
你所做的别只停留在 还行
展开
-
【论文调研】大语言模型和强化学习结合:LLM+RL
大语言模型和强化学习结合论文调研原创 2023-12-17 17:12:17 · 2001 阅读 · 0 评论 -
LLM4Teach: Large Language Model is a Good Policy Teacher for Training Reinforcement Learning Agents
本文为了解决大语言模型(LLM)缺乏解决特定目标问题的专业化能力以及在实际场景中部署昂贵且耗时的问题,提出了通过使用来自基于LLM的教师代理的指导动作来训练规模较小的专业化学生代理来应对这些挑战。通过利用教师提供的指导动作,将LLM的先前知识蒸馏到本地学生模型中。因此,学生代理可以通过利用LLM教师的知识减少环境探索,即用更少的数据进行训练。此外,通过训练后期减少对LLM教师的依赖使学生代理有纠正教师错误策略以及超越其教师的能力。原创 2023-12-17 16:46:07 · 470 阅读 · 0 评论 -
RuntimeError: view size is not compatible with input tensor‘s size and stride (at least one dimensio
在这个例子中,我们首先创建了一个张量 x,然后尝试使用 view() 函数将其变形为一个大小为 (3, 20) 的张量。由于 view() 函数要求新视图的步长与原始张量的步长相同,在这种情况下会出现错误。然后我们使用 reshape() 函数来创建一个新视图,它可以更灵活地重新组织张量的形状。最后,我们打印了新视图的形状,以确认它的大小与我们预期的一样。函数,需要保证新视图的元素数与原始张量的元素数相同,并且在所有维度上,新视图的步长必须与原始张量的步长相同。这个错误通常发生在使用 PyTorch 的。原创 2023-05-10 17:12:41 · 4567 阅读 · 0 评论 -
RuntimeError:An attempt has been made to start a new process before thecurrent process has finished。
【代码】RuntimeError:An attempt has been made to start a new process before thecurrent process has finished。原创 2023-05-10 17:19:55 · 2082 阅读 · 0 评论 -
SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement Learning
SMACv2增大了随机性并加强了部分可观测,很大程度上增大了原始SMAC智能体的训练难度,可作为后续MARL的benchmark环境。原创 2023-03-08 16:27:56 · 724 阅读 · 0 评论 -
多智能体强化学习值函数分解论文调研
分布式执行actor网络采集数据以及模型推理,中心化critic网络训练actor网络。缺点:难以扩展到大规模agent环境中,原因:MADDPG(a)论文中证明随着agent数量增加,集中式critic网络会积累高方差问题,值函数很难收敛。当所有智能体都共用一个系统奖励时,每个智能体所学习的critic实际上是全局critic,评估的是所有智能体的整体观测-动作对的好坏,因此单个智能体无法从中判断自身观测-动作对整个系统的影响,这也就是所谓的**信用分配()问题。原创 2022-12-09 16:57:10 · 1944 阅读 · 0 评论 -
408专业课知识点
408专业课知识点整理,下载xmind软件可思维导图浏览也可大纲形式阅读,免费版本,后续收费可以私信我就行数据结构计算机组成原理计算机网络操作系统原创 2020-11-05 18:59:10 · 677 阅读 · 0 评论 -
王道数据结构知识点
数据结构王道考研知识点整理(免费版)数据结构王道考研知识点整理(积分版)实质两个版本一样,如果想打赏点积分也可以的喔!注:需要下载xmind进行阅读原创 2020-05-14 13:43:51 · 1012 阅读 · 0 评论 -
树状数组详解—简洁明了版
简介:树状数组( Binary Indexed Tree,BIT )是能够完成下述操作的数据结构。给一个初始值全为0的数列a1, a2, ...,an■给定i,计算ai+a2...+an;■给定i和x,执行ai+=x1.基于线段树的实现,如果使用线段树,只需要对前一节中RMQ的样例做少许修改就可以实现这两个功能。线段树的每个节点上维护的是对应的区间的和。接下来,我们来看...原创 2020-03-24 14:05:37 · 383 阅读 · 0 评论 -
线段树—简洁明了版
1.线段树的概念线段树是擅长处理区间的,形如下图的数据结构。线段树是一棵完美叉树( Perfect Binary Tree )(所有的叶子的深度都相同,并且每个节点要么是叶子要么有2个儿子的树),树上的每个节点都维护一个区间。根维护的是整个区间,每个节点维护的是父亲的区间二等分后的其中-一个子区间。当有n个元素时,对区间的操作可以在O(log n)的时间内完成。根据节点中维护的数据的不...原创 2020-03-24 13:04:15 · 347 阅读 · 0 评论 -
Kruskal算法简介
简述:Kruskal算法按照边的权值的顺序从小到大查看一遍,如果不产生圈(重边等也算在内),就把当前这条边加入到生成树中。至于这个算法为什么是正确的,其实和Prim算法证明的思路基本相同,在此就不详细说明了。接下来我们介绍如何判断是否产生圈。假设现在要把连接顶点u和顶点v的边e加入生成树中。如果加入之前u和v不在同一个连通分量里,那么加入e也不会产生圈。反之,如果u和v在同一个连通分量里,...原创 2020-03-22 23:58:13 · 815 阅读 · 0 评论 -
Prim算法 最小值生成树
前言:给定一个无向图,如果它的某个子图中任意两个顶点都互相连通并且是一棵树, 那么这棵树就叫做生成树( Spanning Tree )。如果边上有权值,那么使得边权和最小的生成树叫做最小生成树( MST,Minimum Spanning Tree )。例如我们假设有这样- - 个图:把顶点看作村庄,边看作计划要修建的道路。为了在所有的村庄间通行,恰好修建村庄数目-1条道路时的情形就对应了一...原创 2020-03-22 23:50:20 · 791 阅读 · 0 评论 -
Dijkstra详解
简述:让我们考虑一下没有负边的情况。在Bellman-Ford算法中,如果dp[i]还不是最短距离的话,那么即使进行dp[j]=d[i]+(从I 到j的边的权值)的更新,dp[j]也不会变成最短距离。而且,即使dp[i]没有变化,每一次循环也要检查-遍从出发的所有边。这显然是很浪费时间的。因此可以对算法做如下修改。(1)找到最短距离已经确定的顶点,从它出发更新相邻顶点的最短距离。(2)...原创 2020-03-22 23:30:50 · 372 阅读 · 0 评论 -
Bellman-Ford算法 单源最短路问题
定义:单源最短路问题是固定一个起点,求它到其他所有点的最短路的问题。终点也固定的问题叫做两点之间最短路问题。但是因为解决单源最短路问题的复杂度也是一样的, 因此通常当作单源最短路问题来求解。分析:记从起点s出发到顶点的最短距离为dp[i]。则下述等式成立。dp[i]=min {dp[i]+(从j到i的边的权值)|e=(j,)∈E} :如果给定的图是一个DAG(有向无环图), 就...原创 2020-03-22 23:16:57 · 358 阅读 · 0 评论 -
二叉搜索树的实现
1.二叉搜索树的结构二叉搜索树是能够高效地进行如下操作的数据结构。■插人一个数值■查询是否包含某个数值■删除某个数值根据实现的不同,还可以实现其他各种各样的操作,是一种实用性很高 的数据结构。二叉搜索树如何储存数值请参见下图。所有的节点,都满足左子树上的所有节点都比自己的小,而右子树上的所有节点都比自己大这一条件。二叉搜索树能够高效地管理数的集合。例如,可...原创 2020-03-20 18:49:41 · 241 阅读 · 0 评论 -
堆的实现
1. 堆的结构堆就是像下图这样的二叉树。堆最重要的性质就是儿子的值- -定 不小于父亲的值。除此之外,树的节点是按从上倒下、从左到右的顺序紧凑排列的。如上图所示,在向堆中插入数值时,首先在堆的末尾插人该数值,然后不断向上提升直到没有大小颠倒为止。如上图所示,从堆中删除最小值时,首先把堆的最后- - 个节点的数值复制到根节点上,并且删除最后-一个节点。然后不断向下交换直...原创 2020-03-20 18:37:04 · 200 阅读 · 0 评论 -
栈内存与堆内存使用差别
栈内存:调用函数时,主调的函数所拥有的局部变量等信息需要存储在特定的内存区域。这个区域被称作栈内存区。堆内存:另一方面,利用new或者malloc进行分配的内存区域被称为堆内存。二者是用上的注意事项:栈内存在程序启动时被统一分配,此后不能再扩大。由于这一区域有上限,所以函数的递归深度也有上限。虽然与函数中定义的局部变量的数目有关,不过一般情况下C和C++中进行上万次的递归...原创 2020-03-19 14:24:17 · 448 阅读 · 0 评论 -
递归
定义:在一个函数中再次调用该函数自身的行为叫做递归,这样的函数被称作递归函数。基础应用:有明显递归式例如,我们想要编写一个计算阶乘的函数int fact(int n),当然,用循环来实现也是可以的。但是根据阶乘的递推式n! =n*(n-1)!,我们可以写成如下形式:typedef long long ll;ll fact(int n){ if(!n) ...原创 2020-03-19 13:54:05 · 306 阅读 · 1 评论 -
map常见实用总结——没错,就是你要找的那种
纸上谈兵1、说明:hash单值映射 常用于字符串转数字 自动按主键值升序排序 声明后默认尾部数据为空2、声明:map<主键头部数据类型,尾部数据类型>变量名例:map<string , int> nametonum;还可以是map<string , struct student> stu //学号映射到学生信息3、赋值:例...原创 2020-02-25 22:39:48 · 401 阅读 · 0 评论