
神经网络
文章平均质量分 73
大章鱼(张文哲
你所做的别只停留在 还行
展开
-
【论文调研】大语言模型和强化学习结合:LLM+RL
大语言模型和强化学习结合论文调研原创 2023-12-17 17:12:17 · 2006 阅读 · 0 评论 -
LLM4Teach: Large Language Model is a Good Policy Teacher for Training Reinforcement Learning Agents
本文为了解决大语言模型(LLM)缺乏解决特定目标问题的专业化能力以及在实际场景中部署昂贵且耗时的问题,提出了通过使用来自基于LLM的教师代理的指导动作来训练规模较小的专业化学生代理来应对这些挑战。通过利用教师提供的指导动作,将LLM的先前知识蒸馏到本地学生模型中。因此,学生代理可以通过利用LLM教师的知识减少环境探索,即用更少的数据进行训练。此外,通过训练后期减少对LLM教师的依赖使学生代理有纠正教师错误策略以及超越其教师的能力。原创 2023-12-17 16:46:07 · 470 阅读 · 0 评论 -
Tensorflow运行机制
在构建阶段,我们使用TensorFlow的API来定义数据流图,创建变量和占位符,以及定义损失函数和优化器等计算操作。在这个阶段,TensorFlow并不会执行任何计算操作,而是将计算图存储在内存中,等待执行阶段。在这个例子中,我们使用TensorFlow的API来创建了一个计算图,其中包括两个占位符、一个全连接层、一个交叉熵损失函数和一个Adam优化器。TensorFlow是一种基于数据流图的编程框架,它使用数据流图来描述计算过程,其中节点表示操作,边表示数据流,从而实现了高效的分布式计算和自动求导。原创 2023-05-11 10:33:23 · 294 阅读 · 0 评论 -
SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement Learning
SMACv2增大了随机性并加强了部分可观测,很大程度上增大了原始SMAC智能体的训练难度,可作为后续MARL的benchmark环境。原创 2023-03-08 16:27:56 · 726 阅读 · 0 评论 -
多智能体强化学习值函数分解论文调研
分布式执行actor网络采集数据以及模型推理,中心化critic网络训练actor网络。缺点:难以扩展到大规模agent环境中,原因:MADDPG(a)论文中证明随着agent数量增加,集中式critic网络会积累高方差问题,值函数很难收敛。当所有智能体都共用一个系统奖励时,每个智能体所学习的critic实际上是全局critic,评估的是所有智能体的整体观测-动作对的好坏,因此单个智能体无法从中判断自身观测-动作对整个系统的影响,这也就是所谓的**信用分配()问题。原创 2022-12-09 16:57:10 · 1946 阅读 · 0 评论 -
卷积神经网络CNN从卷积层到池化层可视化演示
程序下载演示截图原创 2021-02-17 13:33:56 · 505 阅读 · 0 评论