- 博客(449)
- 资源 (20)
- 收藏
- 关注
原创 基于模型的强化学习方法4大类灌水范式
我们都知道基于模型的强化学习,就是从数据中学一个环境模型。举个例子,我们要控制一个马达,输入就是电流,输出就是转速。无模型强化学习就是随机采样,然后从数据中直接学习输入到输出的影射,研究重心在如何高效学习。基于模型的强化学习,希望从输入输出中学习一个马达的状态转移模型,然后智能体和这个模型交互。这里面有什么问题呢?问题就在于,这个模型一定会有误差。即使用数据去学习一个二次函数,也会有误差。如上图所示。
2024-10-10 12:45:12
902
1
原创 【COT】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
作者提出了chain of thought的一系列prompt方法来进行改进,在不调整模型参数的情况下,在多个任务中取得了SOTA的成绩。
2023-05-12 01:25:36
1454
原创 斯坦福2023【FrugalGPT】减少大模型的商业化应用成本
不用的模型之前的差异化收费也不一样,比如ChatGPT 10M的token需要30美金,但是如果是调用GPT-J的话,只需要0.2美金。当然还有一些问题是LLM商业化应用的共性问题,安全,隐私,伦理,不确定性等等。如何将相似的问题存起来,减少模型的调用?如果大语言模型的调用很贵,那么一个简单的想法就是去近似这个大语言模型。LLM的调用开销与query的大小呈线性递增,因此减小prompt的长度就是一个可以去减少开销的点。LLM的多样性同时会使得最终的性能有所提升,贵的LLM APIs也不一定见地好。
2023-05-10 14:26:15
2849
原创 Mac M1 报错 ld: library not found for -lSystem
【代码】Mac M1 报错 ld: library not found for -lSystem。
2023-05-01 18:09:01
1854
原创 【CAMEL】Communicative Agents for “Mind”Exploration of Large Scale Language Model Society
目前的语言模型还是需要人类的输入来进行指导对话,在时间开销上会很大。也就是只在开始人为给定prompt,之后就全靠智能体自己去对话探索了。更多的是去抓住模型中的知识,而作者所提出来的方法,是去处理对话智能体“思想”上的探索。目前多智能体间的通信也是研究的一个热点问题,但是主流的通信是基于一些只有智能体才能看懂的向量。实现智能体间的通信?人话来说就是,目前主流的基于大模型的应用都是人肉去调prompt,这个非常耗费开销。作者提出了一种方法,让智能体之间进行对话,进而自动去完成任务,而过程中无需人为干预。
2023-04-30 11:56:36
651
原创 偏好强化学习概述
偏好强化学习想要去解决一个问题,首先需要去寻找的就是优化目标。在强化学习里面的优化目标就是奖励函数,因此想要待解决的问题用强化学习方法来求解,就需要将优化目标与奖励函数挂钩。而基于专家经验设计的奖励函数通常会面临四个问题:1. Reward Hacking: 只管最大化奖励分数,不考虑实际情况。2. Reward Shaping: 平衡goal definition和guidance task。3. Infinite Rewards: 存在一些case,是坚决不允许发生的。
2023-04-22 17:20:34
2832
原创 【HuggingGPT】Solving AI Tasks with ChatGPT and its Friends in Hugging Face
当前的语言模型Large Language Models (LLMs)缺乏处理复杂信息的能力,像视觉,语音这类信息就不能够很好的处理,这是一个语言模型能力缺陷上的问题。这样的方法带来的问题就是,如果管理的AI模型比较多的话,需要好好设计prompt,尤其是AI模型的描述,就是这个AI模型到底能做什么样的事情。具体来说,就是来了一个用户的请求request,然后基于一些提前写好的prompt,HuggingGPT选择要采用哪个模型来去解决子任务,然后基于执行的结果做出响应。期望是具备二者的通用能力。
2023-04-22 17:18:57
1927
原创 解决ValueError: Unsupported ONNX opset version: 16问题
解决ONNX模型报错opset version:16的问题。
2022-12-14 10:37:54
4044
原创 基于Flask创建Python服务端,并调用Python客户端、C#客户端
创建Python的服务端,并用C#客户端和Python客户端分别调用。
2022-07-23 16:59:20
981
原创 基于模型的多智能体强化学习中的模型学习理解
文章目录多个智能体整体联合学习智能体分开学习环境模型HPPAORPO环境模型需要学习两个函数:状态转移函数,和奖励函数。多个智能体整体联合学习若采用centralized world model进行环境模型的学习,此时环境模型需要在给定联合的观测Ot={oti}i=1n\mathbf{O_{t}}=\{o_{t}^{i}\}_{i=1}^{n}Ot={oti}i=1n,和给定联合的动作空间下at={ati}i=1n\mathbf{a_{t}}=\{a_{t}^{i}\}_{i=1}^{n}at
2022-05-28 22:17:32
911
1
原创 Mac M1安装ffmpeg报错DependencyNotInstalled: Found neither the ffmpeg nor avconv executables.
Mac M1下安装ffmpeg
2022-02-11 16:37:24
1077
原创 系统类配置(六) ubuntu16.04命令行安装Nvidia显卡驱动(操作指令详细注释版)
ubuntu16.04命令行安装Nvidia显卡驱动
2021-06-30 09:52:18
742
原创 Mac下安装atari_py报错Exception: ROM is missing for pong
报错 报错提示如下:Exception: ROM is missing for pong, see https://github.com/openai/atari-py#roms for instructions解决 依据提示去https://github.com/openai/atari-py#roms这个链接下面找解决办法。下载Roms.rar,然后解压执行:python -m atari_py.import_roms <path to folder> 我这里一开始运行
2021-06-12 11:42:54
3216
原创 多智能体强化学习(二) MAPPO算法详解
文章目录PPO实战技巧(未写完)MAPPO算法伪代码详解MAPPO实战技巧参考 MAPPO论文全称为:The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games 官方开源代码为:https://github.com/marlbenchmark/on-policy 这篇文章更多的提出的是一些工程上的trick,并且有较详细对比协作式多智能体的一些文章。 多智能体强化学习算法大致上可以分为两类,中心式和分散式。中
2021-05-26 18:37:27
26802
39
原创 多智能体强化学习(一) IQL、VDN、QMIX、QTRAN算法详解
文章目录独立Q学习值分解网络QMIX思考参考 QMIX论文全称为:QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning 一个完全合作式的多智能体任务(我们有n个智能体,这n个智能体需要相互配合以获取最大奖励)可以描述为去中心化的部分可观测马尔可夫决策模型(Dec-POMDP),通常用一个元组GGG来表示:G=⟨S,U,P,r,Z,O,n,γ⟩G=\langle S, U, P
2021-05-25 21:05:24
14228
7
原创 强化学习实战(九) Linux下配置星际争霸Ⅱ环境
文章目录安装SMAC安装StarCraft II下载SMAC地图参考安装SMAC SMAC是基于暴雪公司星际争霸Ⅱ做的一个多智能体环境,官方GitHub链接为:https://github.com/oxwhirl/smac。 安装之前更新一下pip(不更新的话会报一个错误):ERROR: Command errored out with exit status 128: git clone -q https://github.com/oxwhirl/smac.git /tmp/pip-req-b
2021-05-25 09:45:20
7532
9
原创 【RLchina第六讲】Imitation Learning
文章目录Imitation LearningBehavior cloningApprentice LearningGenerative Adversarial Imitation Learning 本文与原视频部分内容有些出入,我觉得应该是老师讲错了。。。。不喜勿喷! 监督学习的优化目标可以写成如下形式:θ∗=argminθ∑i∥f(xi∣θ)−yi∥+∥θ∥\theta^{*}=\arg \min _{\theta} \sum_{i}\left\|f\left(x_{i} \mid \the
2021-05-04 20:15:58
502
原创 【RLchina第五讲】Control as Inference
文章目录概率图基础强化学习与概率图的连接最大熵强化学习和变分推断Soft Q-LearningSoft Actor-Critic概率图基础 概率图模型就是用图的结构来表示多个随机变量的联合概率分布(joint probability distribution), 上图是一个有向图模型,箭头表示变量之间的相互依存关系。有向图模型的联合概率分布可以表示为父节点条件下的条件概率乘积 p(x)=∏k=1Kp(xk∣pak)p(\mathbf{x})=\prod_{k=1}^{K} p\left(x_{k
2021-02-24 21:53:42
888
2
原创 【RLchina第四讲】Model-Based Reinforcement Learning
文章目录Model-Based Reinforcement learningModel-Free RL V.S. Model-Based RLModel-Based RL:Blackbox and WhiteboxIntroduction to MBRL from DynaShooting methods:RS,PETS,POPLINRandom Shooting(RS)PETS:Probabilistic Ensembles with Trajectory SamplingPOPLINTheoretic
2021-02-23 11:23:42
2976
翻译 强化学习实战(六)【Windows安装星际争霸Ⅱ 强化学习环境教程】
1.安装cuda、cudnn、tensorflow-gpu。可以参考文章。2.下载安装星际争霸。可以自行百度一下怎么安装。并添加系统变量或者去E:\install\anaconda\envs\starcraft\Lib\site-packages\pysc2\run_configs\platforms.py这个文件下面看看改改相关参数:可参考博客。添加完了系统变量之后需...
2021-01-25 19:49:57
5319
2
原创 【ICLR2020】Dream to Control:Learning Behaviors by Latent Imagination
文章目录所解决的问题?背景所采用的方法?取得的效果?所出版信息?作者信息?论文题目:Dream to Control:Learning Behaviors by Latent Imagination所解决的问题? 先学一个环境模型,所学的这个环境模型能够帮助智能体去学习一些复杂的行为。智能体从这个所学的环境模型中学习的方式就多种多样了,作者提出了一种方法,dreamer,在所学的纯隐状态空间模型中进行想象规划。并取得了较好的效果。背景 强化学习是需要学习环境的表征的,或者称之为对于环境的理
2021-01-25 19:40:44
878
原创 解读【ICLR2020】多伦多大学:基于策略网络的探索模型规划
文章目录所解决的问题?背景所采用的方法?取得的效果?所出版信息?作者信息?论文题目:Exploring Model-based Planning with Policy Networks所解决的问题?背景所采用的方法?网络结构代码实现取得的效果?所出版信息?作者信息?...
2021-01-25 15:12:00
537
原创 【ICLR2020】基于模型的强化学习算法玩Atari【附代码】
论文题目:Model Based Reinforcement Learning for Atari所解决的问题? model-free的强化学习算法已经在Atari游戏上取得了巨大成功,但是与人类选手相比,model-free的强化学习算法需要的交互数据往往大地多。其根本原因在于人类选手能够很容易学习到游戏的大概运行规律,从而进行预测规划。因此为了达到用少量数据学习控制Atari游戏的...
2021-01-24 20:15:09
2755
原创 PETS:伯克利大神Sergey Levine指导的概率集成轨迹采样算法
文章目录所解决的问题?背景所采用的方法?大体思路具体方法代码实现论文题目:Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models所解决的问题? 基于模型的强化学习算法由于要使用一个深度神经网络去学习一个环境model,而纯神经网络这种大参数的近似函数求解会带来很多缺陷,比如说计算开销,对于环境的不确定性无法很好的表征,由于参数量比较大,其求解相对来说也并不会很容易。 作者通过
2021-01-24 16:20:58
2111
2
原创 解读:AlphaGo之父倾力打造:The Predictron端到端训练与规划
文章目录所解决的问题?背景所采用的方法?取得的效果?所出版信息?作者信息?论文题目:The Predictron: End-To-End Learning and Planning所解决的问题? 提出predictron结构,一种abstract model来表示马尔可夫奖励过程。端到端直接训练,相对来说能够省去一些没有必要的计算开销。但同时也损失了一些可解释性。背景 基于模型的强化学习主要的思想聚焦于两个问题:1. 学习模型。2. 基于这个所学的模型进行规划。模型可以表示为MRP或者MD
2021-01-21 13:43:10
491
原创 【Nature论文浅析】基于模型的AlphaGo Zero
文章目录所解决的问题?背景所采用的方法?取得的效果?所出版信息?作者信息?论文题目:Mastering Atari, Go, chess and shogi by planning with a learned model所解决的问题? 规划planning一直都是人工智能研究领域中,人们追逐的一个比较难的研究点,基于树的规划算法,像AlphaGo这类算法已经取得了巨大的成功,然而基于树模型的规划算法需要一个完美的环境模型,这个条件在真实的世界中是很难被满足的。背景 基于模型的强化学习方法
2020-12-31 15:40:24
612
原创 C++并发与多线程(二) 创建多个线程、数据共享问题分析、案例代码
文章目录文件系统概念文件定义文件的分类文件系统文件结构文件的存取方法文件物理结构FAT文件系统文件存储和目录存储空间的管理文件目录管理文件系统概念文件定义 文件是计算机信息存取的一种重要组织形式。文件可以存放信息。计算机中除了文件,还有哪些信息存放方式?或者说用户的信息还可以存放其他哪些地方?正确答案:寄存器,内存,数据库,注册表,… 文件由若干个信息项有序构成,信息项可以是字节,可以是结构化数据。 用户通过读写指针来存取文件的信息项。文件具有文件名。用户通过文件名存取文件。文件的
2020-12-30 15:04:10
393
原创 C++并发与多线程(一)线程传参
文章目录设备管理概念Spooling系统Linux模块机制Linux驱动程序Windows驱动程序设备管理概念 首先对外设进行分类,分类的标准有很多:按交互对象分类人机交互设备:显示设备、键盘、鼠标、打印机.与CPU等交互的设备:磁盘、磁带.传感器、控制器计算机间的通信设备:网卡,调制解调器按交互方向分类输入设备:键盘、扫描仪输出设备:显示设备、打印机.双向设备:输入/输出:硬盘、软盘、网卡按外设特性分类使用特征:存储、输入/输出数据传输率:低速(如键盘). .中速(
2020-12-30 15:04:00
433
原创 操作系统原理(七)文件系统
文章目录内存管理物理内存管理分区内存管理分区放置策略内存覆盖技术内存交换技术内存碎片虚拟内存管理Intel CPU与Linux内存管理 操作系统区别于系统软件,最大的两个区别:一个是进程管理,一个是存储管理。内存管理 用户对存储器功能的需求主要有:容量足够大;速度足够快;信息永久保存;多道程序并行。 但是多道程序并行也会带来一些问题,比如如何实现共享代码和数据,节省内存。不允许内存中的程序相互间非法访问。 当内存太小不够用时,用辅存来支援内存。暂时不运行的模块换出到辅存上,必要时再换入内
2020-12-30 15:03:50
392
基于Verilog语言的FPGA交通灯设计.zip
2020-06-29
A股-行业-市值排名python排序.zip
2020-06-24
元策略优化的MBRL算法.pptx
2020-05-17
数学建模优质资料.zip
2020-03-11
数学建模思想方法大全及方法适用范围(主讲人厚积薄发-数学中国版主).pdf
2020-03-11
mcm2018blanguages.zip
2020-03-11
研究生学术综合英语1-6课课文及翻译.pdf
2020-03-03
基于强化学习的倒立摆控制策略Matlab实现.zip
2020-01-10
《统计学习方法》第2版课件.zip
2019-11-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人