自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 成功解决python语句中查询数据库时的单双引号问题

之前使用python实现与数据库交互时,需要在查询语句中select某个日期,但是结果总是如下。也就是无法给时间加上单引号,这样由于时间不作为一个整体导致数据库识别不到日期,就取不到数据。因为我这里是需要单引号,所以这里先用双引号再用单引号包围该字符串。也就是在放入sql语句之前,先双引号中使用单引号嵌套该字符串。同理,如果需要双引号也可以。

2024-12-26 09:27:59 150

原创 深度强化学习笔记(三)

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考在Value Network的输出中会输出一个实数,这个就是裁判给运动员的打分,这个分数说明处在状态S的情况下,做出动作a是好还是坏。价值网络和策略网络可以共享卷积层的参数,也可以独立。学习这两个网络的目的通俗说是让运动员的平均分越来越高,裁判打分越来越准确。

2024-12-25 20:16:03 1648

原创 深度强化学习笔记(二)——Value-Based Reinforcement Learning

本章节记载了部分的强化学习内容,由于是针对自己观看视频的一些感悟,所以更推荐大家去看视频,然后可以过来参考。本节主要学习了Value-Based Reinforcement Learning和Policy-Based Reinforcement Learning。一、Temporal Difference(TD) LearningTD用来更新DQN(DQN是对Q*的近似一个神经网络)%5Ctheta。

2024-12-25 10:51:33 383

原创 深度强化学习——笔记(一)

一种是学习策略函数,观测到当前的状态s,将其作为策略函数的输入,策略函数会输出每个动作的概率,那么根据概率做随机取样去选择动作,最后agetn执行这个动作;每观测到一个状态S,将其作为函数的输入,函数会对每个动作都做一个评价,选取使得函数值最大的那个动作。对于Optimal action-value funtion,是对Q求最大化,把策略函数去掉了,意思是无论用什么样的函数来控制agent,在状态S做a,你顶多就能获得Q*这么多的期望回报。如果使用该策略函数,V可以告诉我们当前状态S是好是坏,

2024-12-24 16:20:09 786

原创 pycharm打包python为exe,但是某个第三方库的的子模块一直找不到的问题的解决方法

关于pycharm打包python为exe,但是某个第三方库的的子模块一直找不到的问题的解决方法

2024-12-23 21:34:03 224

原创 matlab运行仿真程序找不到S-Function函数的可能解决办法

解决matlab中simulink找不到S-Function的一种可能的解决方案

2024-11-14 09:44:35 1213

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除