
机器学习
文章平均质量分 69
-朝汐-
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于物理的运动控制-DeepMimic
基于物理的运动控制DeepMimic原创 2022-08-03 20:41:45 · 3442 阅读 · 2 评论 -
raisimGymTorch的使用
1. 安装可以直接按照官网教程进行安装2. raisimGymTorch的结构原创 2022-06-24 13:58:29 · 1385 阅读 · 3 评论 -
ubuntu 20.04 安装mujoco 210
参考链接:mujoco环境变量报错:Missing path to your environment variable._BBJG_001的博客-优快云博客_mujoco 环境变量 Ubuntu 安装mujoco_李峻枫的博客-优快云博客_ubuntu安装mujoco 如何在 Ubuntu 18.04 LTS 系统中安装多版本 GCC 编译器 - 系统极客 修改默认的gcc版本 sudo update-alternatives --config gcc 安装中遇到的问题 安装mujoc.原创 2022-05-17 14:47:33 · 926 阅读 · 0 评论 -
Residual Reinforcement Learning for Robot Control
Residual Reinforcement Learning for Robot Control传统反馈控制方法通过显式模型来解决各种机器人控制问题。但在现代制造业中的很多控制问题都需要处理接触和摩檫力,而这些难以被一阶物理建模所体现(如果要使得传统反馈控制方法,比如PID调节器和计算转矩的方法对环境具有一定程度的适应性或反馈,则需要很多额外的努力),而另一个缺点是传统控制方法缺乏行为泛化。本文研究了如何解决现实世界中的复杂控制问题,将其分解为用传统反馈控制方法有效求解的部分和用RL方法求解的剩余部分,原创 2022-03-06 19:09:38 · 3396 阅读 · 0 评论 -
强化学习实践技巧
强化学习算法在一个具体问题的解决上能否起作用的关键是关于这个问题的状态空间、动作空间以及奖励函数的设计。状态空间的设计状态空间设计的两个极端是端到端和极致的特征工程。端到端的设计由于状态空间中包含许多冗余的信息,导致网络(在DRL中)不能很好地学习状态与奖励之间的关系;而极致的特征工程往往会造成 reality gap。好的状态空间设计能够保证智能体学习时环境的稳定性(状态分布以及状态的转移概率),从而使得待解决的问题成为一个MDP问题而不是POMDP问题。在Sim-to-Real minitaur原创 2022-03-03 09:34:00 · 765 阅读 · 0 评论 -
The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games 阅读笔记
“The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games” 阅读笔记MAPPO算法是PPO算法专用于多智能体环境的变体。PPO作为on-policy算法,在多智能体环境下有着与其他off-policy的算法相比有着相同的采样效率,并在大多数场景下有着更好的表现。MAPPO算法可以同时作为CTDE(集中训练,分散执行, 有集中的价值函数)算法或分散学习算法(分散的价值函数)。PPO代码实现细节和决定PPO算法表现的关键超参原创 2022-02-14 15:35:17 · 5259 阅读 · 0 评论 -
Ubuntu20.04 执行nvidia-smi命令,显示不能连接到显卡驱动
错误:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.解决这个问题的一般方法:nvidia-smi 报错:无法与 nvidia driver 通信 - 知乎如果在执行sudo dkms install -m nvidia -v 418.87.00得到错误File: /usr/src/nvidia-470.82.00/dkms.conf does not exist...原创 2021-12-12 14:37:27 · 10546 阅读 · 1 评论 -
安装ptan库后不能使用pytorch gpu
安装ptan库后不能使用pytorch gpu的问题解决原创 2021-12-05 18:40:25 · 3365 阅读 · 0 评论 -
Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
多智能体强化学习的相关问题:分层强化学习(hierarchical reinforcement learning)- In Advances in neural information processing systems分层强化学习(Learning-representations-in-Model-Free-HRL)—知乎多智能体自我学习(multi-agent self-play):将RL算法扩展到多智能体环境中分层强化学习(Self-play)—知乎D. Silver, A. H原创 2021-11-19 22:08:10 · 1383 阅读 · 0 评论 -
DynaQ迷宫
1. 格子世界环境这里用了叶强大大的代码gridworld.py"""General GridWorld EnvironmentAuthor: Qiang YeDate: July 22, 2017License: MIT"""import mathimport gymfrom gym import spacesfrom gym.utils import seedingimport numpy as npclass Grid(object): d.原创 2021-08-05 18:14:24 · 806 阅读 · 0 评论 -
pandas时间序列空值填充
1.读入csv文件novels_month = pd.read_csv(csv_path)2.生成时间索引#2004-12-1是时间序列开始的时间,并以月为间隔rng = pd.date_range('2004-12-1', periods = int((pd.Period(novels_month.iloc[-1,0],'M') - pd.Period('2004-12-1','M')).freqstr[0:-1]), freq = 'M') + pd.Timedelta('1 da..原创 2020-05-17 16:18:40 · 3056 阅读 · 0 评论 -
sklearn常用分类算法分析乳腺癌数据
模型评估参考网址:机器学习分类模型评价指标详述 - 知乎机器学习模型评估的方法总结(回归、分类模型的评估)_人工智能_sinat_16388393的博客-优快云博客【机器学习】Sklearn 常用分类器(全)_人工智能_白糖炒栗子-优快云博客python-sklearn常用分类算法模型的调用_python_脚本之家机器学习各种算法怎么调参?—知乎GBDT、XGBoost、LightGBM-的使用及参数调优—简书和鲸社区 - Kesci.com1. 机器学习常用分类模型:1.最近邻 (原创 2020-05-13 09:13:51 · 11175 阅读 · 10 评论 -
【机器学习实用指南】加州房价中位数预测
加州房价预测# 同时支持python2和python3from __future__ import division,print_function,unicode_literals# 常用库import numpy as npimport os# 使这个notebook的输出一直是不变的np.random.seed(42)# 用于画图的库import matplotlib as mplimport matplotlib.pyplot as pltmpl.rc('axes', la原创 2020-05-12 17:04:59 · 2277 阅读 · 2 评论