- 博客(6)
- 收藏
- 关注
原创 成功解决python语句中查询数据库时的单双引号问题
之前使用python实现与数据库交互时,需要在查询语句中select某个日期,但是结果总是如下。也就是无法给时间加上单引号,这样由于时间不作为一个整体导致数据库识别不到日期,就取不到数据。因为我这里是需要单引号,所以这里先用双引号再用单引号包围该字符串。也就是在放入sql语句之前,先双引号中使用单引号嵌套该字符串。同理,如果需要双引号也可以。
2024-12-26 09:27:59
150
原创 深度强化学习笔记(三)
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考在Value Network的输出中会输出一个实数,这个就是裁判给运动员的打分,这个分数说明处在状态S的情况下,做出动作a是好还是坏。价值网络和策略网络可以共享卷积层的参数,也可以独立。学习这两个网络的目的通俗说是让运动员的平均分越来越高,裁判打分越来越准确。
2024-12-25 20:16:03
1648
原创 深度强化学习笔记(二)——Value-Based Reinforcement Learning
本章节记载了部分的强化学习内容,由于是针对自己观看视频的一些感悟,所以更推荐大家去看视频,然后可以过来参考。本节主要学习了Value-Based Reinforcement Learning和Policy-Based Reinforcement Learning。一、Temporal Difference(TD) LearningTD用来更新DQN(DQN是对Q*的近似一个神经网络)%5Ctheta。
2024-12-25 10:51:33
383
原创 深度强化学习——笔记(一)
一种是学习策略函数,观测到当前的状态s,将其作为策略函数的输入,策略函数会输出每个动作的概率,那么根据概率做随机取样去选择动作,最后agetn执行这个动作;每观测到一个状态S,将其作为函数的输入,函数会对每个动作都做一个评价,选取使得函数值最大的那个动作。对于Optimal action-value funtion,是对Q求最大化,把策略函数去掉了,意思是无论用什么样的函数来控制agent,在状态S做a,你顶多就能获得Q*这么多的期望回报。如果使用该策略函数,V可以告诉我们当前状态S是好是坏,
2024-12-24 16:20:09
786
原创 pycharm打包python为exe,但是某个第三方库的的子模块一直找不到的问题的解决方法
关于pycharm打包python为exe,但是某个第三方库的的子模块一直找不到的问题的解决方法
2024-12-23 21:34:03
224
原创 matlab运行仿真程序找不到S-Function函数的可能解决办法
解决matlab中simulink找不到S-Function的一种可能的解决方案
2024-11-14 09:44:35
1213
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人