
学习笔记📑
文章平均质量分 94
封印师请假去地球钓鱼
-科研博士研究生!️
-肩鸿任钜踏歌行,功不唐捐玉汝成。
-参与2023亚马逊云科技中国峰会等会议,入围2023博客之星等。
-撰写博客多次入选内容前沿榜、热榜、优快云每天值得看等多种榜单。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习|一文学懂actor-critic算法(A2C、A3C等)
A2C是同步训练下的高效 AC 算法,通过优势函数优化稳定性;A3C通过异步并行加速 A2C,适合分布式训练;路径衍生策略梯度则针对连续动作,利用 Q 学习直接求解最优动作,是确定性策略梯度(如 DDPG)的早期思想雏形。三者均属于演员 - 评论员框架,核心差异在于优化目标(优势函数 / 异步机制 / 连续动作处理)和应用场景,共同推动了强化学习在复杂控制任务中的落地。原创 2025-05-08 12:00:00 · 884 阅读 · 0 评论 -
强化学习|一文读懂深度Q网络(DQN)
深度 Q 网络(deep Q-network,DQN):基于深度学习的 Q 学习算法,其结合了价值函数近似(value function approximation)与神经网络技术,并采用目标网络和经验回放等方法进行网络的训练。状态-价值函数(state-value function):其输入为演员某一时刻的状态,输出为一个标量,即当演员在 对应的状态时,预期的到过程结束时间段内所能获得的价值。状态-价值函数贝尔曼方程(state-value function Bellman equation):基于状原创 2025-05-08 14:00:00 · 1443 阅读 · 0 评论 -
强化学习|一文读懂近端策略优化(proximal policy optimization,PPO)
近端策略优化(proximal policy optimization,PPO) 可以通过重要性采样把同策略换成异策略,但重要性采样有一个问题:如果 pθ (at|st) 与 pθ′ (at|st) 相差太多,即这两个分布相差太多,重要性采样的结果就会不好。怎么避免它们相差太多呢?这就是 PPO 要做的事情。近端策略优化(proximal policy optimization,PPO):避免在使用重要性采样时由于在 θ 下的 pθ (at|st) 与在 θ′ 下的 pθ′ (at|st) 相差太多,导致原创 2025-05-08 09:00:00 · 985 阅读 · 0 评论 -
强化学习|Q—learning的学习梳理
Q-Learning 是强化学习中最基础且应用广泛的算法之一,其核心在于通过 TD 更新和 ε- 贪心策略平衡 “利用现有知识” 与 “探索新可能性”。尽管在复杂场景中需结合函数近似等技术,但它为理解强化学习的 “试错 - 反馈 - 优化” 机制提供了清晰的入门路径,尤其适合离散动作空间和中小规模状态空间的问题。通过代码实践(如一维探索、二维迷宫)可直观感受其学习过程,为进一步学习深度强化学习(如 DQN、PPO)奠定基础。原创 2025-04-28 08:00:00 · 1170 阅读 · 0 评论 -
强化学习|lesson2:强化学习方法汇总
强化学习领域探讨了多种方法,包括模型自由和模型基于的策略。模型自由方法直接从反馈中学习,无需理解环境;而模型基于方法通过建立环境模型,增强预测能力。基于概率的方法聚焦于动作的概率,旨在最大化成功概率;相比之下,基于价值的方法侧重于选择具有最高价值的动作,追求最优策略。讨论还涉及了按回合更新与单步更新的策略,以及在线学习与离线学习的区别。以Q-learning、Policy Gradients、Deep Q-Networks为例,这些算法展示了如何在不同场景下应用这些方法,鼓励探索强化学习的深度和广度。原创 2025-04-27 14:36:02 · 697 阅读 · 0 评论 -
强化学习|什么是强化学习?
强化学习是一种通过不断尝试和错误反馈来学习规律、实现目标的机器学习方法,类似于计算机通过虚拟老师(如反馈分数)来决定哪些行为在特定环境中能获得高分或避免低分。与监督学习不同,强化学习无需预设数据和标签,而是在实际环境中持续探索和学习。实际应用中,如AlphaGo利用强化学习在围棋比赛中取得胜利,展示了其强大潜力。强化学习中提及的算法,如Q-Learning和Deep Q Network,通过模拟环境来优化决策过程。虚拟环境的使用为强化学习提供了实验平台,使算法能在安全、可控的条件下进行测试和优化。原创 2025-04-27 13:30:03 · 1404 阅读 · 0 评论 -
云服务器概览(什么是?有哪些?怎么选?)
本文介绍了云服务器(Elastic Compute Service,简称 ECS)的基本概念、特点、分类及如何根据需求选择合适的云服务器类型。云服务器是一种基于云计算技术的虚拟服务器,允许用户按需租用计算能力、存储空间和网络带宽,具有弹性扩展、按需付费和高可用性等特点。与传统物理服务器相比,云服务器无需购买和维护硬件,更加灵活且成本效益高。云服务器的配置通常包括 CPU 核心数(如 1 核)、内存大小(如 2G)、存储容量(如 40G SSD 或 50G SSD)和网络带宽(如 1M)。这些配置直接影响服原创 2025-02-24 13:13:25 · 1209 阅读 · 0 评论 -
AI大模型学习笔记|多目标算法梳理、举例
多目标优化是一个复杂的领域,涉及许多不同的方法和视角。选择合适的方法通常取决于具体问题的性质、目标之间的关系、决策者的偏好和可用的计算资源。原创 2024-12-13 22:50:12 · 1681 阅读 · 0 评论