- 博客(3)
- 收藏
- 关注
原创 强化学习7日打卡营-Policy Gradient/DDPG
基于策略梯度方法求解RLvalue-based vs policy-basedValue-based 是基于价值的,属于一种确定性策略在计算时优化Q的值然后把Q网络调到最优以后用间接方式输出action,属于确定性的策略。policy-based 是基于策略的,属于一种随机策略policy-based使用神经网络拟合直接输出动作1概率,适用于随机性比较大的环境。Softmax函数把多个神经元输出,映射到一个(0,1)的区间中去,可以看成是一个概率,概率相加和为1。Episode幕优
2020-06-26 12:28:50
298
原创 强化学习7日打卡营-SASAR/Q-learning/DQN
课程链接: https://aistudio.baidu.com/aistudio/education/group/info/1335强化学习智能体Agent从环境Environment中学习,根据状态State,执行动作Action,并根据环境反馈受益reward,指导更好的动作。强化学习是一种延时性奖励监督学习——>认知:是什么强化学习——>策略:怎么做On-policy vs Off-policyOn-policy:兼顾探索Off-policy:更大胆算法库及框架库
2020-06-26 00:08:33
493
转载 Python学习课后题-高阶函数
下面展示一些 内联代码片。// A code block# -*- coding: utf-8 -*-def normalize(name): name=name[0].upper()+name[1:].lower() return nameL1 = ['adam', 'LISA', 'barT']L2 = list(map(normalize, L1))print(L2)
2020-06-11 22:37:49
252
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人