- 博客(39)
- 资源 (1)
- 收藏
- 关注
原创 强化学习-alphazero 算法理论
整体伪代码如下初始化价值网络 V 和策略网络 pi对于 i 在范围 1500 内循环:# 通过自对弈收集数据环境重置()初始化根节点当未完成时循环:动作, 动作概率 = 玩家获取动作()# 通常在 get_action 函数中涉及 400 次选择和扩展。# 如果任何一次迭代达到游戏结束,更新 MCTS 节点的值。当前状态 = 下一状态将根节点移至当前状态的节点如果收集到的数据 > 批量大小:使用收集到的数据训练策略网络和价值网络1。
2024-08-01 17:23:34
1700
原创 强化学习-MAPPO算法解析与实践-Multi Agent Proximal Policy Optimization
多智能体强化学习mappo算法实践,含pytorch代码
2024-04-26 14:51:19
7591
20
原创 强化学习-深度蒙特卡洛算法(Deep Monte-Carlo)解决骰子游戏“吹牛”
深度蒙特卡洛算法是一种使用深度神经网络来进行蒙特卡洛估计的强化学习算法,它最早于2020年在《DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning》被提出用于解决斗地主问题。深度蒙特卡洛算法使用深度网络拟合每个时刻,智能体状态和采取每种动作的价值函数,即Q value,所以其属于value base 类方法。
2024-04-11 18:17:46
2186
5
原创 强化学习-ppo 自博弈 课程学习 解决google football问题
实验场景:5v5(控制蓝方一名激活球员),跳4帧,即每个动作执行4次实验点:修复dense奖励后智能体训练效果能否符合预期实验目的:对比gru 长度为16 和 dense net作为aggrator的区别实验效果reward。
2024-01-27 09:47:35
1490
2
原创 论文复现-多目标强化学习-envelope MOQ-learning
这一部分就很明了了,计算前面提到的几种loss,给与不同权重后反向传播,唯一特别注意的是,actor loss中使用的优势adv,不知出于什么理由,使用了优势向量与偏好向量做内积后的偏好,(可能是因为解唯一,优化方便)虽然论文中用的是Q-learning的架构,但是在提供的代码中,采用的是A3C的架构,使用envelope 网络作为价值网络,估计状态价值用于更新,所以接下来以代码为准,结合论文思想,展示用到的输入、输出和损失函数。w的值均为正数,且和为1,每一位的值,代表对该维目标的偏好大小。
2023-10-18 15:48:33
6235
7
原创 强化学习-论文调研-泛化性能力增强和度量
本文提出一个泛化性的基准和实验方案——对一些经典的强化学习环境-gym 的参数进行内插和外插,内插即训练参数和测试参数相似,外插是不相似。除了动作空间是固定的外,上下文的选择决定了MDP的一切。 在监督学习中骂我们将训练和测试的表现差距作为泛化性的测量,与它相似的在强化学习中,交换训练和测试顺序,泛化性的差距度量为。Ctrain 是一个训练的上下文集合,Ctest是一个测试的上下文集合,p(c)是文本的的分布,它影响的是初始状态的分布。
2023-09-12 10:32:57
456
原创 强化学习-论文调研-experience replay
将critic net的损失从Q 的TDerror的均方差,转变为Q 的TDerror的均方差,R的均方差和Transaction的均方差的加权和。在选取transaction时训练网络时, TD-error大的求出的偏导更大,对网络影响更大,TD-error小的求出的偏导更小,对网络的影响更小, 基于此PER算法给TD-error 大的项目更高的权重,使其更高的概率被选中. 同时为了避免过多使用相同数据训练造成过拟合,也要保证优先级低的数据也有一个非零的概率被选中.状态的相似度计算可以用余弦相似度实现。
2023-03-26 21:24:02
998
原创 错误处理-docker 中PyTorch训练时,Dataloader卡死、挂起,跑一个epoch停了,问题解决方案
shm 被占满了,直接设为8G。
2023-03-14 16:09:59
965
原创 错误处理-安装torch-cluster torch-sparse torch-scatter 等GPU版
比如我是 python37 cuda=11.6 pytorch 1.31.1。命令实例(python39 cuda11.7 torch1.13.1)最重要的是与pytorch,cuda,版本对应。先在这个网址找到你的pytorch gpu版本。再进去选择你的cu(cuda)版本,
2023-01-17 12:23:29
1784
原创 安装pytorch 1.13.0 gpu版本
pip3 install torch==1.13.0 torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116如果不强调==1.13.0的话会导致下载很多不同版本torch最终导致空间不足一安装如下 Downloading https://download.pytorch.org/whl/cu116/torch-1.13.0%2Bcu116-cp37-cp37m-win_amd64.whl (2436.6
2022-12-30 10:11:48
3737
原创 强化学习面试
2.reward,return(之前用的属于都是gain),和value的关系。5.什么是belman方程,马尔可夫性是什么时候被引入bellman方程的。4.为什么从replay buffer里要随机的取样本(答案打破相关性)8.如何复制一个带随即指针的链表。3.dqn的两个gaijin。10. linux常用命令。9.git 的常用命令。
2022-11-11 10:24:18
204
原创 《SIMPLIFIED ACTION DECODER FOR DEEP MULTI-AGENT REINFORCEMENT LEARNING 》调研报告
近年来,人工智能领域取得了长足的发展。许多人工智能方法在围棋,Dota游戏,Atari游戏等领域都取得了接近甚至超越人类顶级玩家的水平。然而,这些游戏有一个共同点,那就是它们都是被设计成对抗类型的游戏。用博弈论的术语来说就是这些游戏都是零和博弈。但是,与游戏的虚拟世界不同的是,现实世界的成功往往需要不同人类个体的合作和交流。在最近几年,解决卡牌游戏Hanabi被公认为一个新的人工智能领域的挑战。它填补了人工智能在这一领域的空缺。卡牌游戏Hanabi和“思维理论”有着密切的关系——即需要人们高效的从动作推理出
2022-08-25 23:42:13
1414
原创 深度学习-生成动漫头像
效果如下所示1.爬取犬夜叉数据2.截取脸部数据3.构造网络训练。其中大多数代码为参考已有的博客,只在调参部分有所不同。当我按照原博调参时,判断器被训练的太强,导致生成器生成出所有的都是被一眼顶针-鉴定为假,所以,我选择,当假图片平均分大于0.5 或者 真图片平均分小于 0.5 时,训练判断器,当假图片得分小于0.3时训练生成网络。另外,特别注意,谷歌图片质量明显高于百度,有条件优先爬谷歌附代码
2022-06-01 21:28:41
780
原创 深度学习-自然语言处理-文本生成
从一个含有酒店信息的excel文件生成酒店评价文字。seq2seq方法。运用的是lstm+attentionimport csvimport tqdmimport timeimport pandas as pdimport torchfrom torch.utils.data import Datasetimport torchimport torch.nn as nnimport torch.optim as optimimport torch.nn.functional as
2022-05-27 21:19:36
1295
1
原创 错误处理-mmdetection-AttributeError: ‘ConfigDict‘ object has no attribute ‘log_level‘
第一次用商汤的mmdetection,遇到很多错误mmdetection中网络的配置文件缺东西,至少缺了log_level参数的值
2022-05-20 23:44:08
4116
10
原创 机器学习-TMall 重复购买预测
import copyimport gcfrom collections import Counterimport pandas as pdfrom pandas import *import numpy as npdef reduce_mem_usage(df,verbose=True): start_mem =df.memory_usage().sum()/1024**2 numerics= ['int16','int32','int64','float16','floa.
2022-05-01 17:12:46
1090
原创 机器学习-智慧交通-lgb
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('ignore')#数据探索data= pd.read_csv('E:\python_projiect\grade3_semester2\ML\dataset\智慧交通+天文数据挖掘数据集\it\data\gy_contest_link_i.
2022-04-28 21:07:04
312
原创 机器学习-SVM-SMO与SGD求解(附鸢尾花数据集实战,含代码)
代码SMO部分参考书籍为《机器学习实践》首先,我们认识到SVM其实就是求一个最优(超)平面的过程,说svm有三宝,间隔,对偶,核技巧间隔就是说要求得的平面距离所有点间隔最大,这是一个最优化问题,可以用拉格朗日乘数法,解决。化为这个形式后,求它的对偶问题,求解的对偶问题的答案,按照以下公式反推到原问题的答案两种常用的求解算法:1.SGD将原问题转变为一个最小损失函数的问题,用梯度下降的方法,优化参数,减小损失2.SMO每次只从参数中挑去两个进行优化,这样能使问题简化成很多个二次凸优化问题。
2022-04-21 20:00:47
2971
原创 错误处理--CUDA error: device-side assert triggered(很有效)
点进来的朋友你好啊,先别说,让我猜猜,你是不是正在写一个NLP模型?它是不是有lstm,或者transformer,或者textcnn?哈哈是不是猜中啦。你现在一定很着急,看了各种博客,说是下标越界~,可是找来找去,真的找不出哪里出界了?打印出来各个都在标签限制内呢?别着急,我相信看了我的博客有很大概率可以解决你的难题。那就是————————————————————你的embeding中词的总数设小啦!在函数 nn.Embedding(vocab_size, embedding_dim
2022-04-09 00:23:14
4554
1
原创 机器学习-华为mindspore入门-波士顿房价回归
老师要用mindspore 做作业,可真是难为我了。。。。折腾了好久才算上手,感谢李老师给我一个这么充实的清明假期。。。。。主要代码还是参考官网教程。简单线性函数拟合 — MindSpore master documentation就算华为的框架有一千个不好用,它中文的入门教程绝对比pytorch的好读懂的多,这是我喜欢他的一点。"""Linear Regression TutorialThis sample code is applicable to CPU, GPU and Asce
2022-04-05 07:43:03
2414
原创 强化学习-PPO算法实现pendulum
代码都是学习别人的,但我分享几点我踩过的大坑。1.蒙特卡洛的V值2.样本不是独立同分布之后再 详述一下""""""import torch.nn.functional as Fimport torchvision.models as modelsimport retroimport hiddenlayer as hlimport torch# import retroimport pandas as pdimport numpy as np# import mujoco
2022-04-03 00:51:29
2527
1
原创 机器学习-决策树算法ID3实现,含例子(红酒分类)
import mathx=[[0,1,"no"],[0,1,"no"],[1,0,"no"],[1,1,"yes"],[1,1,"no"],[1,1,"no"],[1,1,"maybe"],[1,1,"maybe"],[1,1,"maybe"]]# x=[[0,1,"no"],[0,1,"no"],[1,0,"no"],[1,1,"yes"],[1,1,"yes"],]def majorityCnt(clasList): classCount={} for label in cla.
2022-03-31 16:33:37
3669
2
原创 错误处理-OSError: Failed to open file b‘C:\\Users\\\xe6\x96\x87...\\ AppData\\Local\\Temp\\scipy-xxxxx
有人说是中文文件路径的问题,我改了,重启了,没用,而且之前一直好好的安装scipy==1.6.2然后from sklearn.model_selection import train_test_split这样导入就好了、莫名奇妙的错误,莫名奇妙的解决办法...
2022-03-14 14:53:47
11953
9
原创 计算机视觉-拉普拉斯金字塔图像融合
import cv2import numpy as npglobal imgglobal point1,point2global g_rectdef on_mouse(event,x,y,flag,param): global img, point1,point2,g_rect img2=img.copy() if event ==cv2.EVENT_LBUTTONDOWN: print("1-EVENT_LBUTTONDOWN") po.
2021-10-14 00:15:46
380
原创 强化学习-DQN-ATARI2600-打砖块
import torchimport atari_pyimport pandas as pdimport numpy as npimport gymimport timeimport PIL.Image as Imageimport torch.nn as nnclass DQBReplayer: def __init__(self,capacity): self.memory = pd.DataFrame(index=range(capacity),column.
2021-10-14 00:03:33
2056
24
原创 错误处理-VS2019+CUDA10.1 新建项目里没有CUDA选项
强推这篇文章https://blog.youkuaiyun.com/zhizhengguan/article/details/112680114有几点问题在此注释1.没有Microsoft Visual Studio文件夹解决方法:如图所示2.找不到extension.vsixmanifest在C:\ProgramData\NVIDIA GPU Computing Toolkit\v10.1\extras\visual_studio_integration\CudaProjectVsWiza
2021-09-08 10:23:11
4732
原创 强化学习—蒙特卡洛方法—21点游戏
import gymimport numpy as npimport matplotlib.pyplot as pltenv=gym.make("Blackjack-v0")observation=env.reset()print("观测={}".format(observation))while True: print("玩家={},庄家={},".format(env.player,env.dealer)) action = np.random.choice(env..
2021-08-10 23:27:49
2015
原创 资源获取 -glove.6B.100d等获得方式
1.glove.6B.100d方法1:https://www.kaggle.com/danielwillgeorge/glove6b100dtxt到此处用谷歌 账户注册可免费下载方法2:评论区留下邮箱
2021-08-03 19:12:42
2558
16
原创 torchvision使用笔记
1.torchvision.datasets.ImageFolder(root,transform=None,target_transform=None,loader=default_loader) 是一种组织数据集的方法,把存在文件夹里的数据转化成用来训练和测试的数据集,root参数是地址,必须写到分类文件夹的上一层,transform是图片转换形式,target_transform :对label进行变换,loader: 指定加载图片的函数,默认操作是读取PIL image对象...
2021-07-31 19:30:35
152
原创 sklearn使用笔记
1. from sklearn.metrics import accuracy_scorefrom sklearn.metrics import accuracy_scoretest_accuracy=accuracy_score(y_test_t,pre_lab)前一个参数是标签集合,后一个是预测结果集合,得到准确率
2021-07-25 22:24:54
98
原创 pytorch使用笔记
1.torch.max() torch.max(input,0/1) 其中input是一个tensor,返回两个tensor,如果第二个参数是零,返回每行最大值和所在列数,反之对应a = torch.tensor([[1,5,62,54], [2,6,2,6], [2,65,2,6]])x=torch.max(a,1)y=torch.max(a,0)print(x)print(y)...
2021-07-25 22:15:59
846
原创 python小细节
1.输入输出 把列表中元素全体转化类型 例:m=["1","2","3"]n=list(map(int,m)) n=[1,2,3] 或者: m=[int(x) for x in m] ...
2021-07-23 18:34:01
328
原创 强化学习-动态规划-杰克租车问题
例4.2:杰克管理一个全国性汽车出租公司的两个地点。每天一些顾客到这两个地点租车。如果有车可租,杰克就将车租出并从公司得到10美元的回扣。如果这个地点没车,杰克就失去了这笔生意。还回的车第二天就可以出租。为了使需要车的地点有车可租,每天晚上,杰克可以在两个地点间移动车辆,移动每辆车的费用是2美元。我们假设每个地点的车的需求量和归还量都是泊松分布变量。假设租车的期望值是3和4,还车的期望值是3和2。为了简化问题,我们假设每个地点的车不多于20辆(多于的车被还回公司,在此问题中消失了)并且一晚上最多移动
2021-07-09 22:23:48
2306
3
原创 机器学习-人为设置函数方法和神经网络方法解决智能五子棋问题
2 智能决策2.1 博弈树模型算法2.1.1 全局估算函数此次项目中评估函数有两种: (1)人为设定函数方法:更具人的经验,对一些特定的棋形在棋盘上进行检索。并且计数,最后赋予相应权值求和得到对棋盘的评价值。典型的棋形有“活一”“活二”“活三”“冲四”“成龙”。越接近于五子连珠的棋形应有越大的权重。由于先手优势,同一种棋形黑棋的权重的绝对值应略大于白棋的权重。博弈双方的权重的符号应相反。不失一般性,黑棋的权重设置为正。 (2)人工神经网络方法:用225个输入节点1个输出节点......
2021-07-06 12:16:01
1812
2
mappo-combat
2024-05-07
reinforcement learning breakout param
2022-11-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人