- 博客(9)
- 收藏
- 关注
原创 启动tensorboard
在terminal中进入log所在文件夹的上一级目录 如则 cd tai-1/exp1/runs生成logtensorboard --logdir=./runs如果服务器拒绝连接tensorboard --logdir=./runs --host=127.0.0.1打开http://127.0.0.1:6006/
2022-03-09 19:37:20
920
原创 tmux使用
使用ssh远程连接电脑时,窗口关闭会停止会话,使用nohup或者tmux可以保持会话的运行启动新会话$ tmux new -s <session-name>分离会话$ tmux detach 或按下 Ctrl+b d重新接入会话$ tmux attach -t <session-name>查看tmux会话列表$ tmux ls杀死对话$ tmux kill-session -t <session-name>重命名对话$ tmux rename-s
2022-03-09 19:26:22
120
原创 《A Practical Guide to Multi-Objective Reinforcement Learning and Planning》文章翻译
原文:Hayes, Conor F., et al. “A practical guide to multi-objective reinforcement learning and planning.” arXiv preprint arXiv:2103.09568 (2021).待解决:utility如何翻译合适,文中目前是效用。摘要现实世界的决策任务通常很复杂,经常需要在多个相互冲突的目标之间进行权衡。尽管如此,大多数关于强化学习和决策理论规划方面研究要么只假设一个目标,要么假设多个目标可以通过
2021-11-15 20:25:22
1356
1
原创 PPO理解
PPO原文链接由于TRPO实现起来需要使用二阶近似和共轭梯度,比较复杂,Deepmind又在TRPO的基础上提出了实现较为简单的PPO算法。TRPOTRPO的优化目标为用惩罚项代替约束项后Adaptive KL Penalty CoefficientPPO1为了避免TRPO中超参数β\betaβ的选择,采用自适应确定参数的方法β\betaβ由以下条件确定Clipped Surrogate Objective为了限制更新步长,原文还提出了PPO2,这是默认的PPO算法,因为PPO2的
2021-02-04 11:38:42
848
原创 TRPO理解
原文链接TRPO算法η(π)\eta(\pi)η(π)代表在策略π\piπ下产生一系列的回报函数动作值函数,值函数,优势函数定义如下,这里的优势函数AπA_\piAπ表示采用某个动作的优劣对于新的策略π~\tilde{\pi}π~,其回报函数可以写为旧策略的回报函数加一个其他项,写作上式证明过程不难,原文可见,首先优势函数可写作因此得证...
2021-02-01 16:03:54
838
原创 pip安装到指定虚拟环境
cmd中切换目录cd C:\Users\11091\Desktop\test\Scriptspip install安装
2020-12-02 21:13:37
4203
1
原创 pip出现ssl warning
在https://slproweb.com/products/Win32OpenSSL.html上下载winopessl的MSI文件解决
2020-07-20 23:05:16
279
原创 Duke:Scientific Writing Resource 学习笔记
课程网址LESSON Ⅰ: SUBJECTS AND ACTIONS1. Put actions in verbs:动词 → 名词如:regulate →regulationAnalyze→ analysisPerform→ performance…当相邻句用同一个动词时,可转化名词避免重复,写完高亮动词排查例1:We analyzed the data. This ana...
2020-04-02 18:11:11
700
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人