- 博客(34)
- 资源 (2)
- 收藏
- 关注
原创 【论文分享】如何完成 Offline RL 的在线部署?工业界应用必不可少!!
1、利用 VAE 的 Log-likelihood 可视化 两个数据集分布之间的差异的trick可以借鉴;2、思路简单易懂、还有效……提出了一个简单的框架,包括balanced replay scheme和pessimistic Q-ensemble scheme,这两个在 offline RL 进行 online 部署的时候回非常有用,尤其是采 pessimistic Q-value 对 novel states 进行评价。
2022-10-13 00:18:55
758
1
原创 ipad pro + zotero + 坚果云 + PDF Expert 搭建多平台文献管理(自用备忘)
https://www.zhihu.com/question/288186107/answer/1327966061首先参考这篇博文,但是不需要其中的“ apple快捷指令”部分。我试了试用 apple快捷指令,用safari点击ZotExpert Share,但是说权限有问题??所以干脆,就用PDF Expert连接云盘对应存储文献pdf的文件夹 。我的是:对应ipad端的PDF Expert的设置,上述链接里有提到。如果连接成功,在PDF Expert里面是可以查看、修改坚果云这个文件夹里的内容
2021-09-30 20:34:09
3562
1
原创 (Nature)The rational use of causal inference to guide reinforcement learning strengthens with age
2021-09-25 10:13:06
300
原创 (AAAI 2021)Meta Learning for Causal Direction
参考:https://zhuanlan.zhihu.com/p/352496691?utm_source=wechat_session&utm_medium=social&s_r=0
2021-09-25 10:11:19
326
原创 (ICML 2021)Causal Curiosity: RL Agents Discovering Self-supervised Experiments for Causal Representa
2021-09-25 10:05:24
481
1
原创 Causal Reasoning from Meta-reinforcement Learning(自用笔记)
Abstractnovel situations:元强化学习框架,agent 在新环境下能够有效The agent can select informative interventions , draw causal inferences from observational data, and make counterfactual predictions .新的探索策略:structured exploration,providing agents with the ability to p
2021-08-23 11:53:55
827
2
原创 Toward a Fully Automated Artificial Pancreas System Using a Bioinspired Reinforcement Learning Desig
Toward a Fully Automated Artificial Pancreas System Using a Bioinspired Reinforcement Learning Design: In Silico Validation1 Introduction1型糖尿病(T1D)是一种以体内缺乏天然胰岛素分泌为特征的代谢性疾病。患有T1D的人需要注射外部胰岛素 来调节血糖(BG)的浓度。一个 人工胰腺(AP)系统 是一种值得注意的血糖管理治疗方法。人工胰腺(AP)系统是一种值得注意的管理血
2021-06-26 15:54:31
176
原创 Basal Glucose Control in Type 1 Diabetes using Deep Reinforcement Learning: An In Silico Validation
Abstract\quad 一型糖尿病(T1D)患者需要定期输注外源性胰岛素,以维持其血液中葡萄糖浓度在治疗上足够的范围内。尽管人工胰腺和持续的葡萄糖监测已被证明对实现闭环控制是有效的,但由于葡萄糖动态的高度复杂性和技术的局限性,重大的挑战仍然存在。在这项工作中,我们为单激素(胰岛素)和双激素(胰岛素和胰高血糖素)的输送提出了一个新的深度强化学习模型。特别是,通过双Q-学习与扩张的递归神经网络来开发脱药策略。为了设计和测试的目的,我们采用了FDA认可的UVA/Padova 1型模拟器。首先,我们进行了长期
2021-06-24 09:26:55
404
1
原创 基于模型的强化学习
基于模型的强化学习2020年北京智源大会——更好的环境模型,更好的强化学习2020年北京智源大会——更好的环境模型,更好的强化学习强化学习中 Model 指的是环境\quad 监督学习中,数据分布是一致的x∽Dx\backsim\mathcal{D}x∽D;强化学习数据分布是不一致的x∽Dπθx\backsim\mathcal{D}^{\pi_\theta}x∽Dπθ,数据来源于当前的策略πθ\pi_\thetaπθ,也就是说,当我们的策略发生变化的时候我们的数据也会发生变化。\quad 强化
2021-06-07 21:04:19
731
原创 Transfer Learning with Active Queries from Source Domain
3 The Method\quad 问题设定:Source domain : S=SL∪SUS=S_L \cup S_US=SL∪SU\quad SLS_LSL 是 labeled set,包含 nSLn_{S_L}nSL 个实例,SL={(x1,y1),...,(xnSL,ynSL)}S_L=\{(x_1,y_1),...,(x_{n_{S_L}},y_{n_{S_L}})\}SL={(x1,y1),...,(xnSL,ynSL)};\quad SU={x1,...,x
2021-05-07 14:49:07
155
原创 ubuntu下matplotlib中文字体的设置
1、查看Ubuntu中字体的位置:fc-list :lang=zh部分输出:/usr/share/fonts/truetype/arphic/uming.ttc: AR PL UMing TW MBE:style=Light/usr/share/fonts/X11/misc/18x18ja.pcf.gz: Fixed:style=ja/usr/share/fonts/opentype/noto/NotoSansCJK-Bold.ttc: Noto Sans CJK JP,Noto Sans C
2021-04-23 14:29:05
1333
原创 Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables
Abstract\quad 深度RL算法需要大量经验才能学习单个任务。原则上,元强化学习(meta-RL)算法使智能体能够从少量经验中学习新技能,但一些主要挑战阻碍了它们的实用性。当前的方法严重依赖于同策经验,从而限制了其采样效率。在适应新任务时,也缺乏推断任务不确定性的机制,从而限制了它们在稀疏奖励问题中的有效性。在本文中,我们通过开发一种异策元RL算法来解决这些挑战,该算法可以分离任务推断和控制。在我们的方法中,我们对隐任务变量执行在线概率滤波,以从少量经验中推断出如何解决新任务。这种概率解释可以进.
2021-02-02 08:00:39
1660
原创 汤普森采样(Thompson sampling)
1、Beta分布定义域:[0,1]参数:α,β\alpha,\betaα,β,均为正值参数,又称为形状参数1.1 Beta分布的概率密度函数f(x,α,β)=constant⋅xα−1⋅(1−x)β−1=xα−1(1−x)β−1∫01uα−1(1−u)β−1 du=Γ(α+β)Γ(α)Γ(β)xα−1(1−x)β−1=1B(α,β)xα−1(1−x)β−1f(x,\alpha,\beta) =constant \cdot x^{\alpha-1} \cdot (1-x)^{\beta-1} \\
2021-02-02 08:00:10
13975
1
原创 分层强化学习 Data-Efficient Hierarchical Reinforcement Learning(HIRO)(NeurIPS 2018)
\quad 分层的思想在今年已经延伸到机器学习的各个领域中去,包括NLP 以及很多representataion learning。\quad 近些年,分层强化学习被看作更加复杂环境下的强化学习算法,其主要思想就是将一个大的问题进行分解,思路是依靠一个上层的policy去将整个任务进行分解,然后利用下层的policy去逐步执行。Contribution:1)成功地将 off-policy 应用在 HRL 的 high-level policy 中。2)提出了一种 off-policy correc.
2021-01-24 20:49:00
2139
2
原创 (ICLR 2020)COMPOSING TASK-AGNOSTIC POLICIES WITH DEEP REINFORCEMENT LEARNING
Abstract\quad 构建 intelligent machines 的 关键点之一 在于通过 基本行为(elementary behaviors) 的组合来解决具有挑战性的迁移学习问题。到目前为止,已经有大量的学习特定任务的工作,但是关注 组合necessary, task-agnostic skills来找到新问题的solution 的工作较少。本文提出了一中新的 基于深度强化学习的 skill transfer and composition method ,该方法采用agent的 primi
2021-01-24 20:45:42
420
1
原创 GRAPH ATTENTION NETWORKS 阅读笔记
Abstract我们提出了一个图注意力网络graph attention networks (GATs),这是一个新的神经网络架构,应用在图结构数据上,利用 masked self-attentional layers 来解决之前 基于图卷积以及其变体方法 的问题。...
2021-01-19 11:22:57
158
原创 Continuous Graph Neural Networks
Abstract\qquad本文在GNN和传统动力学系统之间建立了联系。我们提出了continuous graph neural networks (CGNN),它利用离散动力学概括现有的图形神经网络,因为他们可以被看作是a specific discretisation scheme。\qquadkey idea是怎样描述节点表示的连续动态,即,节点表示关于时间的导数。受现有的 diffusion-based methods on graphs (e.g. PageRank and epidemi
2021-01-19 10:32:50
2523
3
原创 Reinforcement learning with action-derived rewards for chemotherapy and clinical trial dosing regime
斯坦福大学 2018年医学健康机器学习大会\qquad该模型可以使给药方案毒性更小,但仍然有效。该模型以“自主学习”机器学习技术为动力,研究目前使用的治疗方案,并反复调整剂量。最终,找到一个最佳的治疗方案,可以尽可能降低毒性和剂量,而且仍然能够将肿瘤缩小到与传统治疗方案相当的程度。\qquadRL模型用于胶质母细胞瘤的治疗,该治疗方案为替莫唑胺( TMZ ),普鲁卡因、洛莫司汀和长春新碱( PVC )的联合服药疗法,给药时间长达 数周或数月。给药方案确立:传统给药方案、临床上使用、基于动物试验和各种临
2021-01-19 10:32:38
337
原创 Watch,Try, Learn: Meta-Learning from Demonstrations and Rewards读书笔记
Abstract\quad Imitation learning 允许 agent 从 demonstrations 中学习 复杂的行为。然而学习一个复杂的视觉任务需要很大的 demonstrations。Meta-imitation learning 可以通过学习类似任务的经验,使 agent 从一个或几个 demonstrations 中学习新任务。在 task ambiguitytask\ ambiguitytask ambiguity 或是 unobserved d
2021-01-19 10:31:33
482
原创 An Optimistic Perspective on Offline Reinforcement Learning(ICML2020)
Abstract\quad 该文章利用了 the DQN replay dataset 研究了Offline RL,该数据集包含了一个 DQN agent 在60款Atari 2600游戏上的 the entire replay experience 。\quad 我们证明了 recent off-policy deep RL 算法,即使仅仅在 replay dataset 上训练,表现也比训练好的 DQN agent 要好。\quad 为了增强 offline setting 的泛化能力,我们提出了
2021-01-19 10:31:17
841
原创 (CQL)Conservative Q-Learning for Offline Reinforcement Learning
Abstract\qquad 在大规模、现实世界应用中,强化学习如何有效利用庞大的、历史收集的 datasets 是一个关键挑战。Offline RLOffline\; RLOfflineRL 算法旨在利用 previously−collectedpreviously-collectedpreviously−collected、static datasets without further interactionstatic \; datasets\; without \; further \;
2020-12-24 21:59:04
1707
原创 TensorFlow的GPU设置
在使用GPU版的TensorFlow跑程序的时候,如果不特殊写代码注明,程序默认是占用所有主机上的GPU,但计算过程中只会用其中一块。也就是你看着所有GPU都被占用了,以为是在GPU并行计算,但实际上只有其中一块在运行;另外的所有显卡都闲着,但其显存都被占用了,所以别人也用不了。不过这种情况通过在程序之前加三行代码就可以解决:import osos.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"# 保证程序中的GPU序号是和硬件中的序号是相同的os.en.
2020-11-05 11:06:18
715
原创 查看gpu使用情况并查看是那个用户在使用gpu
使用包 gpustat安装:pip install gpustat运行:gpustat -cpgpustat · PyPIhttps://pypi.org/project/gpustat/
2020-11-05 10:48:08
1412
原创 Basal Glucose Control in Type 1 Diabetes using Deep Reinforcement Learning: An In Silico Validation
Abstract\qquad 1型糖尿病(T1D)患者需要定期外源性输注胰岛素,以维持其血糖浓度在适当的治疗目标范围内。虽然人工胰腺和连续血糖监测在实现闭环控制方面已经被证明是有效的,但由于血糖动力学的高度复杂性和技术的局限性,仍然存在重大挑战。在这项工作中,我们提出了一种新的深度强化学习模型,用于 单激素(胰岛素)和 双激素(胰岛素和胰高血糖素)的给药。特别的,delivery strategies 是用了利用了 dilated recurrent neural networks (DRNN) 的 do
2020-10-13 15:30:10
758
原创 An Actor–Critic based controller for glucose regulation in type 1 diabetes
a b s t r a c t\qquad 控制器基于Actor-Critic(AC)算法,受强化学习和最优控制理论(optimal control theory)的启发。控制器的主要特性是:同时调整 胰岛素基础率 the insulin basal rate 和 大剂量 the bolus dose;根据临床规程进行初始化;real-time personalization。\qquad 所提出的方法的有效性利用 开环 和 闭环程序 在 silico 数据集中 adults, adole
2020-10-10 08:39:47
577
1
翻译 神经了的ODE:Neural Ordinary Differential Equations
Abstract我们介绍深度神经网络模型的一个新家族。我们使用神经网络参数化隐藏状态的导数,而不是指定一个离散的隐藏层序列。网络的输出使用一个黑盒微分求解器进行计算(blackbox differential equation solver)。这些连续深度模型需要的存储成本恒定、针对不同输入调整评估策略(evaluation strategy)、可以用数值精度换取速度。我们在 continuous-depth residual networks 和 continuous-time latent vari
2020-09-09 08:48:04
4854
1
原创 模态综合医疗时间序列数据:REAL-VALUED (MEDICAL) TIME SERIES GENERATION WITH RECURRENT CONDITIONAL GANS
2、RELATED WORK从2014年,GAN框架就引起了大家的关注,大多数工作集中在图像生成。(Choi et al., 2017) 设计了 GAN 来生成 综合性的电子病历数据(EHR)。这些EHRs包含二值、多值变量,例如 ICD-9编码、药物(medication)、程序代码(procedure codes)。他们关注于一位患者的 离散值的数据、生成的 snapshots,与之对应的我们关注的是 真实、时间序列数据。未来工作可以结合这些研究来生成 多模态综合医疗时间序列数据(multi-moda
2020-09-01 20:05:59
2648
原创 Time Series Data Augmentation for Deep Learning: A Survey
Time Series Data Augmentation for Deep Learning: A SurveyIntroduction深度学习近年来也被广泛地应用到 时间序列分类(time series classification)、时间序列预测( time series forecasting )、时间序列异常监测(time series anomaly detection)。深度学习的成功很大程度上依赖于大量的训练数据来避免过度拟合。不幸的是,许多时间序列任务没有足够的标记数据。数据增强(D
2020-08-31 19:59:43
1892
翻译 Comprehensive Analysis of Time Series Forecasting Using Neural Networks
1、INTRODUCTION时间序列预测近年来受到了广泛的关注。这是因为许多现象,如股票价格,温度和天气可以建模为时间序列。在时序数据中最基本的挑战是不同时间点的观测是相互关联的,这使得一些改变或排列观测顺序的算法无法使用。科学家和研究人员对时间序列预测做了广泛的研究,如[1],[2],[3],[4],[5]。他们从各个领域借鉴工具,如图形建模和统计,以提高预测的准确性。例如,在[1]和[2]中,作者使用隐马尔科夫模型(HMM)来预测时间序列数据。在[2]中,作者证明了隐马尔可夫模型在预测学生在教育游
2020-08-31 19:59:23
730
转载 TGN:Temporal Graph Networks for Deep Learning on Dynamic Graphs
2、Background2.1 Deep learning on static graphs一个静态图 G=(V,E)\mathcal{G}=(\mathcal{V},\mathcal{E})G=(V,E) 包含结点 V=1,...,.n\mathcal{V}={1,...,.n}V=1,...,.n 和边 E⊆V×V\mathcal{E}\subseteq\mathcal{V}\times\mathcal{V}E⊆V×V,军备赋予了 features,对于所有的 i,j=1,...,ni,j=1,..
2020-08-31 19:59:15
6413
1
翻译 LGnet——具有缺失值的多变量时间序列预测的局部和全局时间动力学联合建模
LGnet——具有缺失值的多变量时间序列预测的局部和全局时间动力学联合建模Joint Modeling of Local and Global Temporal Dynamics for Multivariate Time Series Forecasting with Missing Values作者: Xianfeng Tang, Suhang Wang备注:Accepted by AAAI 20201、MTS forecasting with LSTM整体预测模型使用LSTM,但是由于数据
2020-07-14 10:51:27
2565
翻译 Attention——《Attention is all you need》
翻译自 The Annotated TransformerAttention一个Attention function的作用可以被描述为,将 一个query 和 一组key-value对 映射到 一个output,其中query、keys、values、output都是vector。这个output是所有value的加权和,每个value的权值通过由 a compatibility function 计算的这个query和对应的key的注意力得到。这篇文章中的Attention为 “Scaled Dot
2020-05-15 16:31:40
296
原创 Python运行错误:RuntimeError: CUDA error: invalid device ordinal
用pytorch跑实验需要用到cuda加速,开始默认用的是第0块gpu,后来第0块cpu被别人占用,所以只能切换到第1块gpu。于是进行了如下修改device = torch.device('cuda:1' if torch.cuda.is_available() else 'cpu' )但是出现了错误:RuntimeError: CUDA error: invalid device o...
2020-03-28 20:41:19
33279
7
智能家居系统设计
2018-07-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人