机器学习
文章平均质量分 95
机器学习
eSpark484
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
吴恩达机器学习——强化学习理论知识,个人学习笔记
状态-动作 价值函数的定义(Q函数的定义)显然,这是一个关于 状态 和 动作 的函数,其结果为我们在整个决策过程中所获得的价值。这是一个递归的定义。以离散模型进行举例说明Q值的作用:共有6个状态,其中1、6为最终状态。根据回报公式 和 Q函数的定义,可以计算出Q(s, a)值:从上面的例子中,我们发现,计算出每个状态所有可能的Q值,挑选最大的Q值的动作a,则能获得最优策略。贝尔曼方程贝尔曼期望方程用于计算在给定策略π下,状态s采取动作a时的期望回报。原创 2024-09-01 07:00:00 · 1001 阅读 · 0 评论 -
跑动Lunar Lander代码(含wsl + jupyternotebook的使用),个人学习记录
起因:为了完成吴恩达机器学习课程中,强化学习部分的课后任务——Lunar Lander,光是跑动代码就花了很多的功夫。因此希望把各处搜集到的资料汇总起来。可能有不全的地方,建议在过程中遇到任何Error提示多在社区查资料,基本上都有大佬给出了对应的解决方案。原创 2024-08-03 00:11:46 · 1857 阅读 · 0 评论 -
将TensorFlow嵌入到Jupyter Notebook中,个人学习记录
起因是学习吴恩达机器学习过程中,在神经网络tensorflow的部分,需要在Jupyter Notebook中跑相关的代码,于是在网上找了很多资料,终于跑成功了。课程资料中需要跑的部分代码,可以看到提前安装NumPy、matplotlib、tensorflow。在未安装前,运行该代码出现“ModuleNotFoundError: No module named ‘matplotlib”错误。原创 2024-05-05 23:11:38 · 1825 阅读 · 0 评论
分享