Pang冉-优快云博客

原创启动tensorboard

在terminal中进入log所在文件夹的上一级目录如则 cd tai-1/exp1/runs生成logtensorboard --logdir=./runs如果服务器拒绝连接tensorboard --logdir=./runs --host=127.0.0.1打开http://127.0.0.1:6006/

2022-03-09 19:37:20 959

使用ssh远程连接电脑时，窗口关闭会停止会话，使用nohup或者tmux可以保持会话的运行启动新会话$ tmux new -s <session-name>分离会话$ tmux detach 或按下 Ctrl+b d重新接入会话$ tmux attach -t <session-name>查看tmux会话列表$ tmux ls杀死对话$ tmux kill-session -t <session-name>重命名对话$ tmux rename-s

2022-03-09 19:26:22 151

原创《A Practical Guide to Multi-Objective Reinforcement Learning and Planning》文章翻译

原文：Hayes, Conor F., et al. “A practical guide to multi-objective reinforcement learning and planning.” arXiv preprint arXiv:2103.09568 (2021).待解决：utility如何翻译合适，文中目前是效用。摘要现实世界的决策任务通常很复杂，经常需要在多个相互冲突的目标之间进行权衡。尽管如此，大多数关于强化学习和决策理论规划方面研究要么只假设一个目标，要么假设多个目标可以通过

2021-11-15 20:25:22 1652 1

原创 jupyter notebook修改默认路径

参考 https://zhuanlan.zhihu.com/p/48962153路径记得用双斜杠

2021-06-30 11:26:13 192

原创 PPO理解

PPO原文链接由于TRPO实现起来需要使用二阶近似和共轭梯度，比较复杂，Deepmind又在TRPO的基础上提出了实现较为简单的PPO算法。TRPOTRPO的优化目标为用惩罚项代替约束项后Adaptive KL Penalty CoefficientPPO1为了避免TRPO中超参数β\betaβ的选择，采用自适应确定参数的方法β\betaβ由以下条件确定Clipped Surrogate Objective为了限制更新步长，原文还提出了PPO2，这是默认的PPO算法，因为PPO2的

2021-02-04 11:38:42 1090

原创 TRPO理解

原文链接TRPO算法η(π)\eta(\pi)η(π)代表在策略π\piπ下产生一系列的回报函数动作值函数，值函数，优势函数定义如下，这里的优势函数AπA_\piAπ表示采用某个动作的优劣对于新的策略π~\tilde{\pi}π~，其回报函数可以写为旧策略的回报函数加一个其他项，写作上式证明过程不难，原文可见，首先优势函数可写作因此得证...

2021-02-01 16:03:54 920

原创 pip安装到指定虚拟环境

cmd中切换目录cd C:\Users\11091\Desktop\test\Scriptspip install安装

2020-12-02 21:13:37 4278 1

原创 pip出现ssl warning

在https://slproweb.com/products/Win32OpenSSL.html上下载winopessl的MSI文件解决

2020-07-20 23:05:16 311

原创 Duke：Scientific Writing Resource 学习笔记

课程网址LESSON Ⅰ: SUBJECTS AND ACTIONS1. Put actions in verbs：动词 → 名词如：regulate →regulationAnalyze→ analysisPerform→ performance…当相邻句用同一个动词时，可转化名词避免重复，写完高亮动词排查例1：We analyzed the data. This ana...

2020-04-02 18:11:11 808

qq_36979202的博客