
数学论
文章平均质量分 82
lamusique
这个作者很懒,什么都没留下…
展开
-
Sparse Reward的思考——Hierarchical RL
背景现在就出现了另外一个场景,就是我们的目标是多个步骤的。可能在中间的某个步骤,很难获得最好的收益。举个例子,小孩子在学习和玩耍的过程看成一个强化的过程。比如,下一步如果选择玩耍,下一步可以得到1分,但是最终是-100分。对于学习步骤,下一步可能是-1分,但是最终是100分。但是我们的机器在选择适合,可能会选择玩耍,因为最终的reward是多步的,比较难以学习。在这种情况下,就需要用到sparse reward的场景。通常情况下,Agent 每一步操作有一个 reward 对应,但是,当 rewar原创 2022-04-30 14:32:42 · 617 阅读 · 0 评论 -
大白话论《马尔科夫链蒙特卡洛采样》MCMC原理
1、 技术优势与传统均匀采样不同,马尔科夫链蒙特卡洛采样通过调整建议采样分布函数,逼近于目标函数。从建议分布中采样,就相当于对目标函数的采样。针对特殊的采样目标函数,不断采样、训练建议采样分布,始终具有很好采样效果 自探索、自发现的动态调整采样点,利用前期采样点的信息,采样过程具备收敛性 采样效率高,克服“接受-拒绝”采样方法对于特殊目标函数、采样点不易被接受、因而采样次数增大的缺点。上面是理想的“接受-拒绝”采样适用方法,选择某一建议分布,划分拒绝与接受。但一旦遇到以下这种情况,.原创 2022-03-27 23:29:31 · 3627 阅读 · 0 评论 -
PPO和DDPG的差别
PPO 的重要性PPO是目前非常流行的增强学习算法,OpenAI把PPO作为目前的baseline算法,也就是说,OpenAI在做尝试的时候,首选PPO。可想而知,PPO可能不是目前最强的,但可能是目前来说适用性最广的一种算法。PPO是基于AC架构的,也就是说,PPO也有两个网络,分别是Actor和Critic,这是因为AC架构有一个好处。这个好处就是解决了连续动作空间的问题。连续动作首先,我们要想办法处理连续动作的输出问题。离散情况:假设动作空间有只有action1 和 action2,原创 2022-03-21 00:17:50 · 7273 阅读 · 2 评论 -
这大概是我看得最好的策略梯度算法了吧
这两天看了一下李宏毅老师的强化学习课程的前两讲,主要介绍了Policy Gradient算法和Proximal Policy Optimization算法,在此整理总结一下。视频地址:李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili1、PG算法回顾在PG算法中,我们的Agent又被称为Actor,Actor对于一个特定的任务,都有自己的一个策略π,策略π通常用一个神经网络表示,其参数为θ。从一个特定的状态state出发,一直到任务的结束,被称为一个完整的eposide,在每原创 2022-03-19 13:14:05 · 258 阅读 · 0 评论 -
小波变换的前因后果(三)
小波去噪是建立在DWT的基础上的,需要进行小波分解、再重构。接上一篇。小波分析即用Mallat塔式算法对信号进行降阶分解。该算法在每尺度下将信号分解成近似分量与细节分量。近似分量表示信号的高尺度,即低频信息;细节分量表示信号的低尺度,即高频信息。对含有噪声的信号,噪声分量的主要能量集中在小波分解的细节分量中。二、小波去噪1、概念通常情况下, 我们在从设备上采集到的信号都是具有一定的噪声的,大多数情况下,可认为这种噪声为高斯白噪声。被噪声污染的信号=干净的信号+噪声。为什么要使用阈值..原创 2021-12-05 22:03:27 · 5824 阅读 · 0 评论 -
小波变换的前因后果(二)
上一章介绍了为什么要小波变换,是篇启发文。分别是解决傅里叶对局部信息不敏感、对时刻时频分析能力欠缺,衍生出来小波变换。又简单知道了小波变换的公式:尺度因子决定小波伸缩(频率)、时移因子决定滑动平移。下面开始详细介绍什么是小波变换,即CWT、DWT两种形式。一、小波变换小波变换是一种信号的时间——尺度(时间——频率)分析方法,它具有多分辨分析的特点,而且在时频两域都具有表征信号局部特征的能力,是一种窗口大小固定不变但其形状可改变,时间窗和频率窗都可以改变的时频局部化分析方法。即在低频部分具有较低的时转载 2021-12-05 22:00:45 · 1057 阅读 · 0 评论 -
小波变换的前因后果(一)
博主将结合比较优质的博客来进行本文串讲。首先第一要想的是为什么需要小波变换?为什么需要小波变换?小波,一个神奇的波,可长可短可胖可瘦(伸缩平移),当去学习小波的时候,第一个首先要做的就是回顾傅立叶变换,因为他们都是频率变换的方法,而傅立叶变换是最入门的,也是最先了解的,通过傅立叶变换,了解缺点,改进,慢慢的就成了小波变换。主要的关键的方向是傅立叶变换、短时傅立叶变换,小波变换等,第二代小波的什么的就不说了,太多了没太多意义。当然,其中会看到很多的名词,例如,内积,基,归一化正交,投影,Hilb转载 2021-12-05 20:47:07 · 707 阅读 · 0 评论 -
【论文笔记】DeepWalk
本文是第一个将NLP中的思想用在网络嵌入(Network Embedding,NE)上的。Introduction文章简介部分介绍了网络嵌入是什么,以社交网络为例,网络嵌入就是将网络中的点用一个低维的向量表示,并且这些向量要能反应原先网络的某些特性,比如如果在原网络中两个点的结构类似,那么这两个点表示成的向量也应该类似。本文提出了一种网络嵌入的方法叫DeepWalk,它的输入是一张图或者网络,输出为网络中顶点的向量表示。DeepWalk通过截断随机游走(truncated random walk原创 2021-04-21 22:30:45 · 124 阅读 · 0 评论 -
图卷积神经网络(GCN)
0 前言GCN问世已经有几年了(2016年就诞生了),但是这两年尤为火爆。本人愚钝,一直没能搞懂这个GCN为何物,最开始是看清华写的一篇三四十页的综述,读了几页就没读了;后来直接拜读GCN的开山之作,也是读到中间的数学部分就跪了;再后来在知乎上看大神们的讲解,直接被排山倒海般的公式——什么傅里叶变换、什么拉普拉斯算子等等,给搞蒙了,越读越觉得:“哇这些大佬好厉害,哎我怎么这么菜!”。 就这么反反复复,尝试一次放弃一次,终于慢慢有点理解了,慢慢从那些公式的里跳了出来,看到了全局,也就慢慢明白了GCN的原理原创 2021-04-21 14:50:14 · 16889 阅读 · 6 评论 -
协同过滤推荐
协同过滤推荐1. 什么是协同过滤协同过滤(collaborative filtering)是通过将用户和其他用户的数据进行对比来实现推荐的算法。2. 协同过滤流程图3. 协同过滤分类(1)基于用户的协同过滤推荐(User-basedCollaborative Filtering Recommendation)基于用户的协同过滤推荐算法先使用统计技术寻找与目标用户有相同喜好的邻居,然后根据目标用户的邻居的喜好产生向目标用户的推荐。基本原理就是利用用户访问行为的相似性来互相推荐用户可.转载 2020-09-02 20:14:45 · 602 阅读 · 0 评论 -
矩阵乘法的本质
https://www.zhihu.com/question/21351965/answer/728075625?hb_wx_block=1&utm_source=wechat_session&utm_medium=social&utm_oi=751567917216182272对每个矩阵都有一组基,两个矩阵的各自基的内积运算,映射到不同的空间,形成了新的一组基表示的矩...原创 2019-09-15 15:19:45 · 350 阅读 · 0 评论 -
MLE / MAP的比较
最大似然和最大后验概率最大后验概率和最大似然函数的区别:原创 2019-09-02 14:16:14 · 570 阅读 · 0 评论 -
L1正则项laplace分布 L2正则项gauss分布的前因后果(转载)
我觉得这个讲的也不错,大家可以看看:https://blog.youkuaiyun.com/m0_38045485/article/details/82147817正则化(截自李航《统计学习方法》)常用的正则项有L1,L2等,这里只介绍这两种。2.2 L1正则项L1正则,又称lasso,其公式为:特点:约束θj的大小,并且可以产生稀疏性[问题] : 为什么L1正则可以产生稀...转载 2019-08-29 10:44:44 · 785 阅读 · 0 评论 -
(转载)集成学习中的是是非非
系列《使用sklearn进行集成学习——理论》 《使用sklearn进行集成学习——实践》目录1 前言2 集成学习是什么?3 偏差和方差3.1 模型的偏差和方差是什么?3.2 bagging的偏差和方差3.3 boosting的偏差和方差3.4 泛化性能3.5 模型的独立性3.6 小结4Gradient Boosting4.1拟合残差4....转载 2019-08-12 20:49:53 · 212 阅读 · 0 评论 -
统计学的那些冷门思考(各种检验+中心极限)
为了准备拼多多的数分岗,专门问了前讯飞同事关于统计数学中的一些冷门知识。确实我当初和她讨论过,不过当时就忘了。今天专门写个博客以此纪念下来,人家可是老美数学出身,感觉学东西比我灵活,不那么死。今天把它分享出来,大家参考。---------------------------- 开源 开放 无极限 -------------------------------只讨论数学意义,拒绝公式。嘿...原创 2019-08-23 19:26:32 · 7477 阅读 · 0 评论 -
从无监督学习 解释到 数据的独立同分布
监督学习和无监督学习 监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。在人对事物的认识中,我们从孩子开始就被大人们教授这是鸟啊、那是猪啊、那是房...原创 2019-07-26 20:47:23 · 1302 阅读 · 0 评论 -
极大似然估计学习心得
就看那最后一行的公式,发现因果颠倒!抽象一下,是不是就是。。。在某一组参数D下Ai事件发生的概率最大,就可以等同于 已经发生Ai事件下, 可能是D参数的最大概率,那么D不就是最优参数了?!!也就是我们不看哪个参数使得数据最有可能发生,而是看哪个数据使得参数最大。混肴因果了。(eg. P( 肺癌|吸烟 )概率最大,那么P( 吸烟|肺癌 )极有可能发生)P(x|θ)为似然函数,在参数θ...原创 2019-07-21 12:53:40 · 409 阅读 · 0 评论 -
常用概率分布——python实现
1.两点分布——离散型概率分布2.二项分布——离散型概率分布3.泊松分布——离散型概率分布泊松分布的期望和方差都是参数λλ!import numpy as npa = np.random.poisson(55,size=(4,))print(a)print(type(a))>>> [46 50 39 57]<class 'n...转载 2019-07-06 12:59:48 · 534 阅读 · 0 评论