- 博客(456)
- 资源 (18)
- 收藏
- 关注
原创 LLM4Teach: Large Language Model is a Good Policy Teacher for Training Reinforcement Learning Agents
本文为了解决大语言模型(LLM)缺乏解决特定目标问题的专业化能力以及在实际场景中部署昂贵且耗时的问题,提出了通过使用来自基于LLM的教师代理的指导动作来训练规模较小的专业化学生代理来应对这些挑战。通过利用教师提供的指导动作,将LLM的先前知识蒸馏到本地学生模型中。因此,学生代理可以通过利用LLM教师的知识减少环境探索,即用更少的数据进行训练。此外,通过训练后期减少对LLM教师的依赖使学生代理有纠正教师错误策略以及超越其教师的能力。
2023-12-17 16:46:07
451
原创 python 多张图像合成gif
需要注意的是,这里示例数据是随机生成的,如果要使用自己的数据,需要将数据按照顺序存储到一个列表中,并确保每个二维数据的大小和通道数一致。需要注意的是,这里的图像文件名需要按照文件名的字母顺序进行排序,以确保 GIF 动画的帧顺序正确。另外,如果要调整 GIF 动画的帧间隔时间和循环次数等参数,需要修改。将 n 个 whc 的二维数据保存为 GIF 动画,可以使用 Python 中的 imageio 库。首先生成示例数据,然后调用。函数,将数据和输出文件名作为参数传入,并指定帧率等参数。
2023-05-16 22:09:21
1676
原创 Tensorflow运行机制
在构建阶段,我们使用TensorFlow的API来定义数据流图,创建变量和占位符,以及定义损失函数和优化器等计算操作。在这个阶段,TensorFlow并不会执行任何计算操作,而是将计算图存储在内存中,等待执行阶段。在这个例子中,我们使用TensorFlow的API来创建了一个计算图,其中包括两个占位符、一个全连接层、一个交叉熵损失函数和一个Adam优化器。TensorFlow是一种基于数据流图的编程框架,它使用数据流图来描述计算过程,其中节点表示操作,边表示数据流,从而实现了高效的分布式计算和自动求导。
2023-05-11 10:33:23
285
原创 RuntimeError:An attempt has been made to start a new process before thecurrent process has finished。
【代码】RuntimeError:An attempt has been made to start a new process before thecurrent process has finished。
2023-05-10 17:19:55
2066
原创 RuntimeError: view size is not compatible with input tensor‘s size and stride (at least one dimensio
在这个例子中,我们首先创建了一个张量 x,然后尝试使用 view() 函数将其变形为一个大小为 (3, 20) 的张量。由于 view() 函数要求新视图的步长与原始张量的步长相同,在这种情况下会出现错误。然后我们使用 reshape() 函数来创建一个新视图,它可以更灵活地重新组织张量的形状。最后,我们打印了新视图的形状,以确认它的大小与我们预期的一样。函数,需要保证新视图的元素数与原始张量的元素数相同,并且在所有维度上,新视图的步长必须与原始张量的步长相同。这个错误通常发生在使用 PyTorch 的。
2023-05-10 17:12:41
4524
原创 SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement Learning
SMACv2增大了随机性并加强了部分可观测,很大程度上增大了原始SMAC智能体的训练难度,可作为后续MARL的benchmark环境。
2023-03-08 16:27:56
692
原创 RLChina 智能体挑战赛 - 壬寅年冬赛季(桌面曲棍球)
记录第一次RL比赛,正赛第二,环境介绍在本次RLChina 智能体挑战赛 - 壬寅年冬赛季中,采用的比赛环境是奥林匹克桌面曲棍球。简而言之双方球员从自己球门出生点出发,将出生在中轴线的曲棍球击入对方球门即可得分。下面具体介绍坏境的细节。map本游戏共有两方,对战双方各控制一个有相同质量为1和半径为20的弹性小球智能体。智能体可以互相碰撞,也可以碰撞墙壁,但根据墙面摩擦系数会损失一定的速度;比赛场地为一个400*480长方形桌面,在桌面的左右两端设置有感应球门线;
2023-01-06 12:59:47
729
原创 多智能体强化学习值函数分解论文调研
分布式执行actor网络采集数据以及模型推理,中心化critic网络训练actor网络。缺点:难以扩展到大规模agent环境中,原因:MADDPG(a)论文中证明随着agent数量增加,集中式critic网络会积累高方差问题,值函数很难收敛。当所有智能体都共用一个系统奖励时,每个智能体所学习的critic实际上是全局critic,评估的是所有智能体的整体观测-动作对的好坏,因此单个智能体无法从中判断自身观测-动作对整个系统的影响,这也就是所谓的**信用分配()问题。
2022-12-09 16:57:10
1923
原创 美团2021校招笔试-编程题(通用编程试题,第10场) 第二题
题目:我们称一个长度为n的序列为正则序列,当且仅当该序列是一个由1~n组成的排列,即该序列由n个正整数组成,取值在[1,n]范围,且不存在重复的数,同时正则序列不要求排序有一天小团得到了一个长度为n的任意序列,他需要在有限次操作内,将这个序列变成一个正则序列,每次操作他可以任选序列中的一个数字,并将该数字加一或者减一。请问他最少用多少次操作可以把这个序列变成正则序列?tips:数组标记#include<iostream>#include<cmath>#i
2021-03-08 19:36:43
907
1
原创 美团2021校招笔试-编程题(通用编程试题,第10场) 第一题
题目:某比赛已经进入了淘汰赛阶段,已知共有n名选手参与了此阶段比赛,他们的得分分别是a_1,a_2….a_n,小美作为比赛的裁判希望设定一个分数线m,使得所有分数大于m的选手晋级,其他人淘汰。但是为了保护粉丝脆弱的心脏,小美希望晋级和淘汰的人数均在[x,y]之间。显然这个m有可能是不存在的,也有可能存在多个m,如果不存在,请你输出-1,如果存在多个,请你输出符合条件的最低的分数线。tips:数组标记#include<iostream>#include<vector&
2021-03-08 19:33:31
1574
原创 408专业课知识点
408专业课知识点整理,下载xmind软件可思维导图浏览也可大纲形式阅读,免费版本,后续收费可以私信我就行数据结构计算机组成原理计算机网络操作系统
2020-11-05 18:59:10
675
原创 城市公交查询系统
摘要出行是人类生活的基本活动之一。城市的快速发展、科技的发展以及环保意识的增强,对城市公共交通的发展趋势的快速性、舒适性、便捷性、环保等方面提出更高要求。先进的信息技术也促进了公共交通技术的发展,从而为乘客提供了良好的出行条件,并且能够逐渐满足市民出行多样化的交通需求。为城市的进-步发展提供便捷条件,对于城市公共交通来说,必然要优先发展公交,因此,公共交通的地位也不断得到提升。2005年以来,中国先后印发了关于优先发展城市公共交通的意见等系列文件正式确立了公交优先发展的战略思想,为优先发展城市公共..
2020-08-19 13:33:38
18188
18
原创 2020年7月PAT甲级真题 The Judger
题目:7-2 The Judger (25分)A game of numbers has the following rules: at the beginning, two distinct positive integers are given by the judge. Then each player in turn must give a number to the judge. The number must be the difference of two numbers that.
2020-08-07 21:07:07
525
6
原创 2020年7月PAT甲级真题 Prime Day
题目题意:判断给出的时间字符串及其子串是否全是素数tips:素数判断+字符串处理#include<iostream>#include<string>#include<cmath>using namespace std;bool prime(int n) { if(n==1||n==0) return false; if(n==2) return true; for(int i=2; i<sqrt(n)+1; ++i) if
2020-08-07 21:05:27
445
原创 2020年7月 PAT甲级真题 Replacement Selection
题目题意:外排的选择替换算法模拟tips:模拟+优先队列注:非满分版本,当时考试被陈姥姥卡在最后一个测试点超时了#include<iostream>#include<queue>#include<algorithm>#include<vector>using namespace std;int main() { int n,k; cin>>n>>k; vector<int> ans(n);
2020-08-07 20:45:33
710
原创 2020年7月PAT甲级真题 Safari Park
题目题意:动物园的动物数小于等于区域数,判断放置的方案能不能满足相邻的区域没有同一种动物。tips:模拟#include<iostream>#include<vector>#include<set>#include<map>using namespace std;int main() { int n,r,k; cin>>n>>r>>k; map<int,vector<int>
2020-08-07 20:37:37
403
原创 王道数据结构知识点
数据结构王道考研知识点整理(免费版)数据结构王道考研知识点整理(积分版)实质两个版本一样,如果想打赏点积分也可以的喔!注:需要下载xmind进行阅读
2020-05-14 13:43:51
1006
原创 在未来,AI可以在医疗上做出哪些贡献——针对这次疫情有感而发
《医者项目》属性:医疗辅助AI软件背景:在这次新冠状病毒危机的爆发下,我看到了整个中国乃至整个世界的经济层可以被一场人类未知的病毒所洗劫,一个社会的脆弱性在那一段时期表现的淋漓尽致,似乎每一次不幸的灾难来临前人们都会陷入恐慌,包括我自己。没被告知下一刻是死是活对于每个人来说比告知生死日期坐不更改来的更惶恐人心。无论是03年的SARS还是08年的手足口病,亦或是14年的埃博拉病...
2020-03-25 19:47:28
684
原创 推理题(40分)
前言:今天在blink上看到了这一条动态,顺道解决了五、推理题(40分)1、这道题的答案是( )A、A B、B C、C D、D2、第5题的答案是()A、C B、D C、A D. B3、以下选项中哪一题的答案与其它三项不同( )A、第3题 B、第6题 C、第2题 D、第4题4、以下选项中哪两题的答案相同( )A、第1、5题 B、第2、7题 C、第1、9题 D...
2020-03-24 22:48:27
2884
14
原创 树状数组详解—简洁明了版
简介:树状数组( Binary Indexed Tree,BIT )是能够完成下述操作的数据结构。给一个初始值全为0的数列a1, a2, ...,an■给定i,计算ai+a2...+an;■给定i和x,执行ai+=x1.基于线段树的实现,如果使用线段树,只需要对前一节中RMQ的样例做少许修改就可以实现这两个功能。线段树的每个节点上维护的是对应的区间的和。接下来,我们来看...
2020-03-24 14:05:37
379
原创 线段树—简洁明了版
1.线段树的概念线段树是擅长处理区间的,形如下图的数据结构。线段树是一棵完美叉树( Perfect Binary Tree )(所有的叶子的深度都相同,并且每个节点要么是叶子要么有2个儿子的树),树上的每个节点都维护一个区间。根维护的是整个区间,每个节点维护的是父亲的区间二等分后的其中-一个子区间。当有n个元素时,对区间的操作可以在O(log n)的时间内完成。根据节点中维护的数据的不...
2020-03-24 13:04:15
343
原创 逆序数——冒泡排序的交换次数
题目:冒泡排序的交换次数给定一个1~n的排列a,..,an-,求对这个数列进行冒泡排序所需要的交换次数(冒泡排序是每次找到满足a>a+t的i,并交换a;和a++t,直到这样的i不存在为止的算法)。限制条件●1≤n≤100000输入n=4,a={3,1,4,2}输出3分析:冒泡排序的复杂度是O(n^2),所以无法通过模拟冒泡排序的过程来计算需要的交...
2020-03-24 12:35:33
4557
4
原创 Jessica's Reading Problem
题目:Jessica's Reading Problem ( POJ No.3320 )为了准备考试,Jessica 开始读-本很厚的课本。要想通过考试,必须把课本中所有的知识点都掌握。这本书总共有P页,第i页恰好有一个知识点ai; (每个知识点都有一个整数编号)。全书中同一个知识点可能会被多次提到,所以她希望通过阅读其中连续的一些页把所有的知识点都覆盖到。给定每页写到的知识点,请求出...
2020-03-24 12:20:22
471
原创 Subsequence (POJ No.3061)
题目:Subsequence (POJ No.3061)给定长度为n的数列整数a,*,an,以及整数S。求出总和不小于S的连续子序列的长度的最小值。如果解不存在,则输出0。④限制条件●10<n< 10^5●0<aj≤10^4●S< 10^8输入n=10s=15a = {5,1,3,5,10,7, 4, 9,2,8}输出2...
2020-03-24 11:59:40
328
原创 0/1分数规划——最大化平均值
题目:最大化平均值有n个物品的重量和价值分别是w;和vi。从中选出k个物品使得单位重量的价值最大。①限制条件●1≤k≤n≤10^4●1≤wi,vi≤10^6输入n=3(W,v) = {(2, 2),(5, 3),(2, 1))输出0.75 (如果选0号和2号物品,平均价值是(2+1)/(2+2)=0.75)分析:-般最先想到的方法可能是把物品按照单位...
2020-03-24 11:43:11
290
原创 Aggressive cows
题目:Aggressive cows ( POJ No.2456 )农夫约翰搭了一间有N间牛舍的小屋。牛舍排在一条线上,第i号牛舍在x的位置。但是他的M头牛对小屋很不满意,因此经常互相攻击。约翰为了防止牛之间互相伤害,因此决定把每头牛都放在离其他牛尽可能远的牛舍。也就是要最大化最近的两头牛之间的距离。①限制条件●2≤N≤100000●2≤M≤N_●0≤xj≤10'...
2020-03-24 11:28:31
507
原创 Cable master
题目:输入N=4K=11L = {8.02, 7.43, 4.57, 5.39}输出2.00 (每条绳子分別可以得到4条、3条、2条、2条,共计11条绳子)分析:这个问题用二分搜索可以非常容易地求得答案。让我们套用二分搜索的模型试着解决这个问题。令:条件Cmp(x):=计算可以得到K条长度为x的绳子数则问题变成了求满足C(x)条件的最大的x。在区间初...
2020-03-24 11:20:04
334
原创 输出其位于斐波那契数列中的第几项
题目:给定一个正整数N (N>1) , 输出其位于斐波那契数列中的第几项。如果不存在于数列则输出-1。在此我们规定数列的第一项是F(1)=1,第二项F(2)=1, ...注:此题建议大家使用函数来进行模块化编程,例如:void generate() //产生 斐波那契数列{}bool judge(int x//判断一个数x是否在数列中{}int main(...
2020-03-23 00:36:01
1157
1
原创 Kruskal算法简介
简述:Kruskal算法按照边的权值的顺序从小到大查看一遍,如果不产生圈(重边等也算在内),就把当前这条边加入到生成树中。至于这个算法为什么是正确的,其实和Prim算法证明的思路基本相同,在此就不详细说明了。接下来我们介绍如何判断是否产生圈。假设现在要把连接顶点u和顶点v的边e加入生成树中。如果加入之前u和v不在同一个连通分量里,那么加入e也不会产生圈。反之,如果u和v在同一个连通分量里,...
2020-03-22 23:58:13
811
原创 Prim算法 最小值生成树
前言:给定一个无向图,如果它的某个子图中任意两个顶点都互相连通并且是一棵树, 那么这棵树就叫做生成树( Spanning Tree )。如果边上有权值,那么使得边权和最小的生成树叫做最小生成树( MST,Minimum Spanning Tree )。例如我们假设有这样- - 个图:把顶点看作村庄,边看作计划要修建的道路。为了在所有的村庄间通行,恰好修建村庄数目-1条道路时的情形就对应了一...
2020-03-22 23:50:20
787
原创 Dijkstra详解
简述:让我们考虑一下没有负边的情况。在Bellman-Ford算法中,如果dp[i]还不是最短距离的话,那么即使进行dp[j]=d[i]+(从I 到j的边的权值)的更新,dp[j]也不会变成最短距离。而且,即使dp[i]没有变化,每一次循环也要检查-遍从出发的所有边。这显然是很浪费时间的。因此可以对算法做如下修改。(1)找到最短距离已经确定的顶点,从它出发更新相邻顶点的最短距离。(2)...
2020-03-22 23:30:50
363
原创 Bellman-Ford算法 单源最短路问题
定义:单源最短路问题是固定一个起点,求它到其他所有点的最短路的问题。终点也固定的问题叫做两点之间最短路问题。但是因为解决单源最短路问题的复杂度也是一样的, 因此通常当作单源最短路问题来求解。分析:记从起点s出发到顶点的最短距离为dp[i]。则下述等式成立。dp[i]=min {dp[i]+(从j到i的边的权值)|e=(j,)∈E} :如果给定的图是一个DAG(有向无环图), 就...
2020-03-22 23:16:57
346
原创 用双重循环编程输出下列数字阵列
来源:blink题目:用双重循环编程输出下列数字阵列:123456789223456789333456789444456789555556789666666789888888889999999999实现:#include<iostream>using namespace std;int main(){ for...
2020-03-22 16:34:20
1138
2
原创 区域的个数之坐标离散化(书上代码以及部分csdn博主代码有误,已更改)
题目:在w*h的格子上画了n条垂直或者水平的宽度为1的直线。求出这些直线将格子划分为了多少个区域?限制条件:1<= w,h <= 10000001<= n <= 500输入:首先输入w,h,n;然后输入对应的x1,x2,y1,y2.输出区域的个数。输入:10 10 5x1:1 1 4 9 10x2:6 10 4 9 10y1:4 8 ...
2020-03-21 18:33:41
583
1
原创 Expedition
题目:输入N= 4,L=25,P= 10A={10,1420,21}B={10,5,2,4}输出2(在第1个和第2个加油站加油)分析:由于加油站的数量N非常大,必须想- - 个高效的解法。我们稍微变换- - 下思考方式。在卡车开往终点的途中,只有在加油站才可以加油。但是,如果认为“ 在到达加油站时,就获得了一次在之后的任何时候都可以加Bi,单位汽油...
2020-03-21 00:15:28
205
原创 划分数
题目:输入n=4m=3M = 10000输出.4 (1+1+2=1+3=2+2=4)分析:这样的划分被称作n的m划分,特别地,m=n时称作n的划分数”。DP不仅对于求解最优问题有效,对于各种排列组合的个数、概率或者期望之类的计算同样很有用。在此,我们定义如下。dp[i][i]=j的i划分的总数根据这一定 义可以得到怎样的递推关系呢? 将j分划分i...
2020-03-20 19:02:43
436
决策树实现iris鸢尾花分类-C++
2023-04-28
新冠肺炎检测识别-pytorch实现
2023-04-26
RLChina奥林匹克桌面曲棍球全部代码
2023-01-06
RLChina 智能体挑战赛 - 壬寅年冬赛季(桌面曲棍球)
2023-01-06
BP神经网络动态可视化
2021-12-04
城市公交查询系统课程设计代码.zip
2020-08-19
城市公交查询系统课程设计报告.doc
2020-08-19
高校学生就业管理系统.rar
2020-06-27
高校学生就业管理系统-课程设计报告pdf.pdf
2020-06-27
王道数据结构.xmind.zip
2020-05-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人