- 博客(35)
- 资源 (12)
- 收藏
- 关注
原创 工作啦!
我觉得还是得写点什么。受到疫情影响,经过漫长的等待,终于收到了入职通知,现在已经是我在员工宿舍的第二天了,目前的时间是早晨六点多。不得不说,这份工作的强度确实是比较大的,所以现在必须要努力地去调整自己,适应这种节奏的工作生活,同时还能不因为工作迷失了自己,失去了自己的生活,虽然这是挺难的事情。但是毕竟,苦心人、终不负,无论身处何种境地,一定要努力,要聪明地努力。有一点难过的是,这段漫长的工作前的赋闲生活中,并没有完成预期的计划,虽然把u3d学习了,也完成了自己想做的软件,稍微复习了下Qt、Python、
2020-05-26 07:17:00
556
3
原创 [强化学习代码笔记]Python复习
判断是否是标量np.isscalar(x)一批数据如何送入网络一般情况下,我们送入的一批状态数据应该是Python原生多维数组或者在数组外围套一个np.array():# 第一种状态的mini-batch,其中每行的四个元素是一个状态的四个分量,每行则是一个状态向量[[1,2,3,4], [4,5,6,7], [1,2,2,1]]# 第二种状态的mini-batcharray(...
2020-05-25 23:29:53
1517
原创 Unity3D学习笔记#6_Unity3D最后的概览
文章目录一、基础知识TransformTerrainUnity是很复杂的一个系统,除了基本的操作,还有C#编程,特效,建模,系统工程等数不清的知识,而搞这个只是玩一玩,时间也比较有限,所以再补充最后一个教程,及结束基础的入门,去做一些小项目,后续可能还会深入学习C#、粒子特效以及建模,那以后再说。本文主要参考知乎韩老师视频教程。一、基础知识TransformTransform具有恢复初始...
2020-03-25 13:20:17
341
原创 Unity3D学习笔记#5_Unity3D再次概览(更全面一点)
文章目录一、Unity认识再次补充①Unity的地位和模型支持②Unity项目发布到PC平台的方法③Unity软件界面补充介绍嗯,没错,我又换教程了!之前参考的两个教程虽然都不够全面,但是好歹帮助我对Unity3D有了初步的认识,快速实现了一些简单的小功能,培养了兴趣。人们都说,第一步往往是最困难的,因为你什么都不懂,遇到点问题就止步不前了,所以无论如何我感谢两位作者。本文开始主要参考C语言中文...
2020-03-24 10:52:39
2264
1
原创 Unity3D学习笔记#4_Unity3D补充知识和简单案例学习
文章目录1. 一些补充知识参考文献这篇文章切换了教程,主要参考这个1。1. 一些补充知识①Unity可能是依赖Visual Studio的?我的因为是本来就有VS2017,所以之前忽略了这个。②在Scene中,键盘的上下左右也可以移动视角。别的Scene中的操作也可以用键盘实现把?③Inspector中的每个组件对应一个脚本吗?④多个添加了Collider的物体,如果把它们叠在一起,只...
2020-03-20 18:32:38
565
原创 #1_《经典控制理论复习》摘录
文章目录1. 基本概念参考文献本文主要目的是复习经典控制理论的相关知识,主要参考知乎专栏1。学控制的人,一定要对信号处理与系统有了解,信号处理,系统理论和动力学与自动控制理论都有紧密的联系。控制理论的研究如今偏向于数学化,有些著作初看已经与实际工程不容易联系在一起了,而经典方法在应用中非常实用,夯实基础是必要的。推荐的经典教程有:自动控制原理(胡寿松)、Signals & Syst...
2020-03-20 13:51:37
4615
原创 #2_经典控制理论梳理和有趣的想法
文章目录Bode图稳定性判据的理解Bode图经典控制理论中时域与频域分析差别Bode图稳定性判据的理解参考:知乎判断环路稳定的第一步是把闭环打开,基于开环来分析,分析环路从输入到反馈这一条路径的时延(频域是相位延时)。如果开环的相位延时达到了180度,那么再加上负反馈本身的减号(再+180度),这样参考源就和反馈是叠加了,结果是越来越不稳定(正反馈)。对于Bode图,我们分析-180度位置...
2020-03-20 13:48:42
3118
原创 #2_《黑马程序员Qt》摘录
文章目录本文主要目的是补充上一个教程没有提到,不够深入的地方,加深对于Qt的理解,主要参考师弟推荐的教程。Qt之跨平台:在各种平台上搭建好环境,一个Qt工程可以直接在各个平台下编译运行,效果是一致的,而基本不需要修改。诺基亚曾经还用Qt开发了一个操作系统meego,虽然现在已经基本死掉了,非常小众了。有空的时候可以学习Qt Creator提供的Demo,感受用法,提高水平。Qt的程序路径...
2020-03-20 10:56:50
429
原创 VMWare虚拟机和主机的文件共享
使用VMWare搭建虚拟机后,我们常常需要在主机和虚拟机之间拷贝文件,这有多种方法可以实现(我想到了三种):①安装完默认开启了文件拷贝功能,可以直接在两个系统中互相拷贝;②可以通过共享文件夹的方式,VMWare提供了该功能:③通过NAS方式使用主机或者虚拟机搭建NAS,然后用另个一访问,这个有点多此一举。...
2020-03-16 17:08:52
832
原创 #1_《Qt5编程入门教程》摘录
文章目录参考文献本文为文献1的阅读笔记,主要记录自己不太熟悉的内容,补充知识盲区。个人对这个资料的初步印象不错,先学习一下。参考文献Qt5编程入门教程 ↩︎...
2020-03-15 21:55:32
1722
1
原创 Unity3D学习笔记#3_Unity3D的常用对象和组件
文章目录1. 地形系统 Terrain参考文献本文内容参考b站视频1。本文只是提纲挈领的,一定要多点点画画,自己摸索。1. 地形系统 Terrain在Hirerarchy面板空白处右键,选择3D Object就可以创建地形对象。我们可以对地形进行各种处理:地形高度点击地形对象,在Inspector中找到如下菜单,可以看到对地形的各种编辑选项,比如Raise or Lower Ter...
2020-03-11 20:28:05
1210
原创 Unity3D学习笔记#2_Unity3D的世界
文章目录1. 三维坐标系参考文献1. 三维坐标系在Project菜单的Assets/Scenes中默认的SampleScene上右键点击Rename,修改为我们希望的名字。这里改为TestScene,然后可以看到出现了TestSceneSettings文件且Hierachy面板中Scene的名字也变换了。点击Game/3D Object/Cube,可以看到Scene面板中出现了一个立方体,...
2020-03-09 13:12:17
880
原创 Unity3D学习笔记#1_认识Unity3D
文章目录1. 介绍参考文献1. 介绍Unity3D用途:游戏、视景仿真、APP、虚拟现实、电影等。特点:全平台,组件化,入门容易。参考文献[1]视频教程https://www.bilibili.com/video/av79625771?p=1...
2019-12-24 16:54:13
700
2
原创 硕士毕业
到现在,基本已经确认可以顺利毕业了,心里非常激动。回想这段时间匆匆忙忙的岁月,找工作、毕业设计、实验室各种项目和杂事,虽然自己仍然很不满意,但是也算比较充实吧。到现在这个时刻,只想感谢所有关心我、帮助我的人,谢谢你们~入职时间在明年四月份,所以有较多的空闲时间做一些自己喜欢的事情。此外,越发感到互联网知识共享的伟大,因此能把自己的所学、所思、所想和所有人分享,于人于己都是开心之事,故决心以后一直...
2019-12-19 21:15:53
329
原创 暂时封笔
很遗憾,计划八月份完成全书的翻译与整理工作,目前看来虽然能够完成,但是却不打算把八月份的时间投入到这个事情上了。现在面临毕业和找工作的问题,因此打算先把这两个大事搞定,再回过头来把这个工作补全。实际上,全书分为三大部分,共十七章,目前已经完成了前十四章。前两大部分介绍RL的理论,最后一个部分主要介绍一些相关学科以及RL的应用实例以及未来的发展方向。前两大部分实际上只到十三章,是本书的核心,已经比...
2019-08-06 21:30:56
247
1
原创 [归纳]强化学习导论 - 第十四章:心理学
文章目录1. 本章内容概要2. 预测和控制3. 经典条件反射4. 工具条件反射5. 延迟的强化6. 认知地图7. 习惯和目标引导的行为8. 总结参考文献1. 本章内容概要在之前的章节中,我们研究了仅仅基于计算的各种算法思想,这一章,我们则从另一个角度看待这些算法,也就是心理学的角度以及其对动物学习方式的研究。本章的目标是:首先,2. 预测和控制3. 经典条件反射4. 工具条件反射5. ...
2019-08-06 21:22:22
3609
翻译 [归纳]强化学习导论 - 第十三章:策略梯度方法
文章目录1.本章内容概要2. 策略拟合器与它的优势3. 策略梯度理论4. REINFORCE: Monte Carlo策略梯度5. 带有baseline的REINFORCE6. Actor-Critic方法7. 连续问题的策略梯度8. 连续动作的策略参数化9. 总结参考文献1.本章内容概要这一章我们介绍些新的东西。到目前为止,几乎我们介绍的所有方法都是基于值函数的,即首先通过交互学习到动作值...
2019-07-29 23:25:54
1780
原创 [归纳]强化学习导论 - 第十一章:基于拟合器的off-policy控制
文章目录本章内容概要Semi-gradient MethodsExamples of Off-policy DivergenceThe Deadly TriadLinear Value-function GeometryGradient Descent in the Bellman ErrorThe Bellman Error is Not LearnableGradient-TD Methods...
2019-06-17 20:48:34
658
1
原创 [归纳]强化学习导论 - 第十章:基于拟合器的on-policy控制
文章目录本章内容概要Episodic Semi-gradient ControlSemi-gradient n-step SarsaAverage Reward: A New Problem Setting for Continuing TasksDeprecating the Discounted SettingDifferential Semi-gradient n-step SarsaSum...
2019-06-10 22:16:41
572
原创 [归纳]强化学习导论 - 第九章:基于拟合器的on-policy预测
文章目录本章内容概要Value-function ApproximationThe Prediction Objective (VE)Stochastic-gradient and Semi-gradient MethodsLinear MethodsFeature Construction for Linear MethodsPolynomialsFourier BasisCoarse Codi...
2019-06-09 14:49:36
2057
原创 [归纳]强化学习导论 - 本书第一Part总结
文章目录Summary of Part I: Dimensions参考文献Summary of Part I: Dimensions这一章总结了本书Part I的所有内容,RL并不是一些孤立方法的集合,RL实际上是具有一致的一些想法的集合,每个想法都能看作方法变化的一个dimension,这些dimensions可以组合成一个很大的方法空间。通过dimensions的层面探索问题空间,我们希望...
2019-05-25 19:47:36
381
原创 [归纳]强化学习导论 - 第八章:融合规划和学习的统一框架
文章目录本章内容概要Models and PlanningDyna: Integrated Planning, Acting, and LearningWhen the Model Is WrongPrioritized SweepingExpected vs. Sample UpdatesTrajectory SamplingReal-time Dynamic ProgrammingPlanni...
2019-05-25 19:38:05
1616
原创 [归纳]强化学习导论 - 第七章:n-step自举(Bootstrapping)
文章目录本章内容概要n-step TD Predictionn-step Sarsan-step Off-policy Learning*Per-decision Methods with Control VariatesOff-policy Learning Without Importance Sampling: The n-step Tree Backup Algorithm*A Unify...
2019-05-16 13:03:46
4026
2
原创 [归纳]强化学习导论 - 第六章:时间差分学习
文章目录本章内容概要TD PredictionAdvantages of TD Prediction MethodsOptimality of TD(0)Sarsa: On-policy TD ControlQ-learning: Off-policy TD ControlExpected SarsaMaximization Bias and Double Learning参考文献本章内容概要...
2019-05-03 22:04:31
1335
原创 [归纳]强化学习导论 - 第五章:蒙特卡洛方法
文章目录本章内容概要Monte Carlo PredictionMonte Carlo Estimation of Action ValuesMonte Carlo ControlMonte Carlo Control without Exploring StartsOff-policy Prediction via Importance SamplingIncremental Implement...
2019-04-08 20:43:04
1618
原创 [归纳]强化学习导论 - 第四章:动态规划
文章目录本章内容概要Policy Evaluation (Prediction)Policy ImprovementPolicy IterationValue IterationAsynchronous Dynamic ProgrammingGeneralized Policy IterationEfficiency of Dynamic ProgrammingSummary参考文献本章内容概要...
2019-03-28 13:24:29
974
3
原创 [归纳]强化学习导论 - 第三章:有限马尔可夫过程
文章目录SummaryThe Agent–Environment InterfaceGoals and RewardsReturns and EpisodesUnified Notation for Episodic and Continuing TasksPolicies and Value FunctionsOptimal Policies and Optimal Value Function...
2019-03-23 15:46:50
1441
原创 [算法分析]GAN的数学原理 - 从生成模型到信息熵
文章目录生成模型为什么需要GAN[2]GAN的结构GAN的数学推导过程算法流程GAN的数学基础 - 散度信息熵交叉熵散度:分布的不相似度参考文献生成模型在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建...
2019-03-21 14:57:45
1685
原创 [归纳]强化学习导论 - 第一章:介绍
目录开启本系列目的附:致歉开启本系列目的最近开始阅读Sutton教授的《Reinforcement learning: An Introduction(second edition)》一书,希望在记录自己学习心得的同时,也能和大家分享自己思考的一些内容,同时帮助英文不好的同学对本书有一个基本的了解。其实说来惭愧,虽然这一年多也接触了不少强化学习的知识,甚至学习了很多比较前沿的算法,像DQN,...
2019-03-16 22:18:20
1485
原创 [源码分析]短评语料Attention-based Aspect Extraction(ABAE)算法
算法介绍在情感分析中,aspect extraction(方面提取)是最关键的任务之一,目的是提取出opinions(意见)针对的对象,例如“The beef was tender and melted in my mouth”中,aspect term(方面关键词)就是beef(细粒度)。ABAE是一种aspect extraction算法。aspect是opinion mining中意...
2018-05-23 19:28:03
6707
9
原创 [文献笔记]An Unsupervised Neural Attention Model for Aspect Extraction -- Ruidan He et al.
本文主要目的是梳理文章的思路,实际上文章中有些地方写得并不是很清晰,可能需要配合作者的开源实现进一步理解。文章末尾附录了原文链接,源码,以及其它相关资源。在今后的文章中,会对本文的内容进行复现。Abstract目前的工作都是把topic model(主题模型)的不同变体应用到aspect extraction(方面提取)中,它们通常难以产生高度一致的aspect。本文的工作就是,利...
2018-05-21 12:42:09
5375
3
强化学习导论资源集合(两个版本英文原文,部分翻译)
2019-03-27
Reinforcement Learning: An Introduction(Second Edition)第一章TicTacToe例子Qt程序
2019-03-16
《神经计算智能基础(靳蕃)》神经网络部分及扩展知识
2018-05-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人