每一步都是一大步

这两天一个高中同学给我打电话说自己想转行做前段,问我怎么样。他是学电气自动化的,毕业两年了,大四自己创业做外卖,毕业后去东莞他大姐的电子厂一年,然后又去他东北二姐那里半年,然后这半年回到老家省会,做了网销半年左右时间,现在辞职了,想通过培训走前段这条路,问了自己的大学同学,因为他有三个同学通过培训混的还算可以,一个在北京,另两个在上海,工资8K到15k之间,对于大城市并不算高,可是这只是暂时的,工资肯定会涨,重要的不是工资而是觉得自己迷茫了,没有方向了,自己也没什么计算机基础,也不知道再去参加培训晚不晚,当然还有值不值……是的,这样的问题我遇到了,我们很相似,毕业创业两年失败,然后又转回自己的老本行,从头开始,好的一点是 上学期间学习还可以,还有点基础,所以上手快,来北京的第二天休息了一天,写了简历,第三天面试,第四天入职,挺顺利也挺幸运的。可是我再重新又转回老本行的时候也是跟他现在一样,也迷茫,也没有方向,也不确定。我想自己创业做点事,不想整天呆在电脑前敲代码;我想挣很多钱,实现自己的人生价值,不想拿死工资;我觉得我有这样的能力去做成一件事,我觉得我人脉挺广,认识的朋友挺多,我觉得如果我不选择IT这条路,以后应该还是可以混的不错,最重要的是我想快点让父母过上好日子,我觉得老老实实工作太慢了……可是当我看到和曾经差不多的甚至当年比我差的朋友都有房有车了,我觉得好失败,跟他们的差距好像越来越大了,就像我朋友今天给我说的一样,他说前几天他回家,一个同学给他说:××,你说上学时就你学习好的,可是现在看看朋友圈中就你混的差的。是的在这一点上我们是一样的,我女朋友现在也总是说我现在活得太失败了,虽然不爱听,可是仔细想想确实是的。所以我能明白他的处境和心情,对未来不确定性的恐惧和不知所措,对和朋友圈中好友相比的落差,对自己26、7这样一个尴尬年龄的无可奈何,对即将到来的30岁的而立之年的憧憬和惶恐……可是又能有什么办法呢,我也在想,如果毕业之后不去折腾,稳稳当当工作,现在至少也得有房有车了吧,年薪至少也得二三十万了吧,一切也不会像现在这么糟,可是没有如果,有的只是后果和结果,所以我们需要为自己负责,种瓜得瓜种豆得豆,有因有果,就像现在写这篇博客一样,我今年累一天了, 也很晚了,不想动了,可是我还是想写点什么,因为我知道可能现在它并没有什么实质性意义,但是在某一天它肯定是有意义的,所以我们每个人如果未来想要得到好的结果,那就必须把现在的事做好,而且对于毕业两三年这个尴尬年龄的童鞋们,我觉得已经过去的好坏我们都无法改变了,我们需要把接下来的做好,怎么做好呢?就想我自己给自己说的,自己给我朋友说的,选择个方向,然后往这个方向做下去,哪怕开始并不好,可是不出两三年肯定就会好的。对于迷茫的小伙伴,送大家一句话:在所有可以选择的选择中选个最好的,哪怕这个最好的也不是很好,可是他是你能选择的最好的。然后给自己做个规划,要写出来,然后坚定的走下去。
### DDPG算法在二维动作空间中的实现与应用 DDPG(Deep Deterministic Policy Gradient)是一种能够高效处理连续动作空间的强化学习算法[^1]。该算法结合了确定性策略梯度、深度神经网络以及Actor-Critic架构的优点,特别适合应用于具有复杂状态表示和多维度连续输出的任务环境中。 #### 两维动作空间下的DDPG实现 当面对拥有两个自由度的动作时——例如机器人手臂末端执行器的位置控制(横向位移x轴方向,纵向y轴方向),或者车辆行驶过程中的转向角速度与加速度调节——可以通过调整模型结构来适应这种特定情况: - **输入层设计**:根据具体应用场景选取合适的状态特征作为输入给定到神经网络中去。这些可能包括但不限于位置坐标、线速度/角速度等物理量。 - **隐藏层配置**:采用多个全连接层构成深层感知机(DNN),每一层都配备激活函数以引入非线性变换能力;也可以考虑卷积核池化操作(CNN)如果存在图像数据参与决策制定的话. - **输出层定义**:针对双变量输出需求设置大小为2的一维张量作为最终预测结果形式,分别对应于各自独立变化着的目标参数值范围内的取样点集。 以下是Python代码片段展示如何构建一个简单的基于Keras/TensorFlow库的DDPG模型来进行上述描述的操作: ```python import tensorflow as tf from tensorflow.keras import layers class Actor(tf.keras.Model): def __init__(self, action_dim=2): # 设定动作品质数量,默认情况下这里指定了2个维度 super().__init__() self.fc1 = layers.Dense(units=400, activation='relu') self.fc2 = layers.Dense(units=300, activation='relu') self.out_layer = layers.Dense( units=action_dim, activation='tanh' # 使用tanh确保输出被限制在一个合理的区间内(-1,+1) ) @tf.function(input_signature=[tf.TensorSpec(shape=(None, state_size))]) def call(self, states): features = self.fc1(states) features = self.fc2(features) actions = self.out_layer(features) return actions * max_action_value # 放缩至实际可接受的最大行动幅度之内 ``` 此部分展示了actor网络的设计思路,它负责接收来自环境反馈回来的状态信息并据此推断出下一步应该采取的最佳行为方案。critic网络则用来评估当前状态下所选动作的好坏程度,并指导前者不断优化自身的性能表现直至收敛稳定为止。 #### 应用实例分析 考虑到现实世界里存在着大量涉及平面运动规律建模的问题领域,如自动驾驶汽车轨迹规划、机械臂抓握姿态设定或是无人机飞行路径导航等等,都可以视为典型的二维动作空间案例研究对象。通过运用DDPG技术框架,研究人员得以更精准地模拟自然界中存在的各种动态交互现象,从而推动自动化控制系统向着更加智能化的方向发展迈进了一大步
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值