DynamicProgramming&Greedy的小启示

本文探讨了动态规划与贪心算法在解决问题时的不同策略。动态规划通过逐步逼近的方法找到全局最优解,而贪心法则关注局部最优解,有时也能得到全局最优。文章通过实例解释了两种算法的特点,并讨论了它们在实际应用中的考量。

记得doom启示录里写道carmack相信,生活里的任何问题都可以编程解决。

 

尽管这个我觉得有点夸张,但是今天看算法导论时候的确感觉有些启示。

 

比如就是动态规划和贪心就是比较有指导作用的做法。

 

在寻找最优解的时候,动态规划就是从最小的子问题,然后一步步逼近到最终问题,逼近的过程可以说考虑现在和将来,逼近结束了,最优解也就是出现了。

 

贪心则是总是选择现有的最佳解。

 

这个让我想起了军队盛饭,就是想多吃点的先盛半碗,吃完在来一碗,这个就比较有前瞻性,就有更好的解。

反之先来一碗,之后就没有了,就差点。

 

有的时候做事何尝不如此,像动态规划一样去做事,定义好问题之后,一步步从始至终都考虑清楚,号称是高瞻远瞩,选取最优解。

贪心法显得目光就短浅很多,能否达到最优解就靠运气了。

 

另外,书中也讲到,贪心法需要一个动态规划做基础,在确定了贪心可以达到最优解的时候就用贪心,这个更加高效。

所以在斟酌好可以贪心的时候就看着眼前的事走也可以,那么就又是最优解,又是省心,那最棒了呃。

 

12-05
在提供的引用中,涉及到与 -greedy 相关的主要是 Greedy 和 Epsilon - GreedyGreedy 技术常用于资源受限场景,如在智能手机和平板电脑等移动设备中,该技术通过逐个选择具有最高加权效用的应用变体,在一定程度上减少了计算复杂度和资源消耗。例如在资源有限的智能手机上同时运行多个社交、娱乐和办公应用时,Greedy 技术可发挥作用,不过 Serene Greedy 技术在其基础上更进一步,通过考虑自适应的非功能方面,进行重要性判断和应用分类,避免不必要的自适应,在保证一定效用的同时,减少对用户体验的负面影响 [^1]。 Epsilon - Greedy 是强化学习中的一种策略。强化学习关注智能体在与环境的交互中学习最优策略以最大化累积奖励,在很多领域如游戏 AI、机器人控制、自然语言处理等有广泛应用。而 Epsilon - Greedy 变体相对基本的形式稍微复杂一些,与基本的 Epsilon - Greedy 变体相比,后续讨论的变体需要优化更多的参数,有时特定的算法变体甚至可能需要在估计过程中存储值才能正常工作,这些因素会进一步增加行为策略的复杂性 [^2][^4]。 ### 代码示例(简单的 Epsilon - Greedy 策略伪代码) ```python import random # 定义 Epsilon - Greedy 策略函数 def epsilon_greedy(epsilon, actions, q_values): if random.uniform(0, 1) < epsilon: # 探索:随机选择一个动作 return random.choice(actions) else: # 利用:选择具有最高 Q 值的动作 max_q_index = q_values.index(max(q_values)) return actions[max_q_index] # 示例使用 actions = [0, 1, 2] # 动作列表 q_values = [0.1, 0.5, 0.3] # Q 值列表 epsilon = 0.2 # Epsilon 值 selected_action = epsilon_greedy(epsilon, actions, q_values) print(f"选择的动作是: {selected_action}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值