强化学习
文章平均质量分 94
wgc2k
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
吴恩达强化学习复盘(13)小批量化和软更新(复盘完结)
小批量化是指在强化学习算法中,将经验样本(例如状态、动作、奖励等)分成小的批次,然后使用这些小批次来更新模型参数,而不是每次只使用一个样本进行更新。是一种用于提高学习效率和稳定性的技术。在强化学习中,软更新(Soft Update)是一种用于更新模型参数的技术,它与传统的硬更新(Hard Update)相对。软更新是指在每次学习步骤中,以较小的幅度将目标网络的参数向当前网络的参数进行更新。具体来说,不是直接将目标网络的参数替换为当前网络的参数(硬更新方式),而是通过一个加权平均的方式来更新目标网络参数。原创 2025-04-30 02:41:59 · 1475 阅读 · 0 评论 -
吴恩达强化学习复盘(12)近似Q函数|绝对贪婪策略
近似 Q 函数(Approximate Q - function)是强化学习中的一个重要概念。在强化学习中,智能体通过与环境进行交互来学习最优策略,以最大化长期累积奖励。Q 函数(也称为动作价值函数)表示在某个状态下采取某个动作后,智能体预期能获得的长期累积奖励。然而,在许多实际问题中,由于状态空间和动作空间可能非常大甚至是连续的,直接存储和计算每个状态 - 动作对的 Q 值是不现实的。因此,需要使用近似 Q 函数来对真实的 Q 函数进行近似估计。原创 2025-04-29 01:49:55 · 982 阅读 · 0 评论 -
吴恩达强化学习复盘(11)连续状态空间|深度Q网络
这是是一个能让用户在月球上着陆模拟飞行器的应用,它类似于一个被很多强化学习研究者使用的电子游戏。在这个应用中,用户的任务是在月球着陆器快速接近月球表面时,在适当的时间点燃推进器,使其安全降落在着陆台上。原创 2025-04-28 02:50:26 · 2526 阅读 · 0 评论 -
吴恩达强化学习复盘(10)随机环境下的Q函数简介
Q 函数表示在某个状态 s 下执行某个动作 a 后,智能体预期能获得的累计奖励的期望值。数学上,Q 函数被定义为:其中是在时刻获得的奖励,是折扣因子,用于权衡即时奖励和未来奖励的重要性,。原创 2025-04-27 12:14:33 · 1076 阅读 · 0 评论 -
吴恩达强化学习复盘(9)火星车的强化学习理论基础|马尔可夫决策
强化学习中 的“策略(policy)” ,笔者自己的理解是大概在强化学习中采取行动的不同方式。在强化学习中,有多种采取行动的方式。根据奖励距离决定:可以决定总是走向更近的奖励,即如果最左边的奖励更近就往左走,如果最右边的奖励更近就往右走。根据奖励大小决定:另一种选择行动的方式是总是追求更大的奖励,或者总是追求更小的奖励(虽然追求更小奖励看起来不是个好主意,但也是一种可行的选择)。混合策略:还可以选择向左走,除非离较小的奖励只有一步之遥,在这种情况下就选择走向较小的奖励。策略的定义。原创 2025-04-26 12:14:14 · 1218 阅读 · 0 评论 -
吴恩达强化学习复盘(8)AI的道德约束|内容过滤算法
这一部分主要是关于开发者本身。(笔者个人观点:尽管有法律的约束,但是我个人认为法律约束只是界定了人类社会行为的道德下限,开发团队也应该有自己的道德约束)。尽管推荐系统对一些企业来说利润丰厚,但也存在使人们和社会状况变差的用例。在使用推荐系统或其他学习算法时,应致力于让社会和人们受益,避免造成伤害。在设计推荐系统时,从设定目标到决定推荐内容都有多种选择。例如,二元标签可依据用户是否参与、点击或明确喜欢某项目来设定;可以推荐用户最可能评五星的电影、最可能购买的产品等。原创 2025-04-25 11:56:42 · 1117 阅读 · 0 评论 -
吴恩达强化学习复盘(7)基于内容的推荐算法思路
基于内容的过滤算法(Content-Based Filtering Algorithm)是推荐系统中的一种常见方法,它主要是根据用户和物品的特征来进行推荐。原创 2025-04-24 13:55:08 · 1405 阅读 · 0 评论 -
吴恩达强化学习复盘(6)均值归一化|协同过滤算法简介
对于用户,可能知道他们的人口统计信息(年龄、性别、位置)、表达的偏好(喜欢或不喜欢某些电影类型),以及通过 IP 地址、访问设备(手机或桌面)、使用的浏览器等获取的线索,这些信息都与用户偏好可能相关。但协同过滤算法难以利用这些信息,尽管它在多个用户对多个项目进行评级的情况下是一种强大的算法,但仍存在这些局限性。均值归一化(Mean Normalization)主要目的是将数据集中的特征值进行转换,使得每个特征的均值为 0,并且特征值的范围在一个特定的区间内(通常是 [-1, 1] 或 [0, 1] )。原创 2025-04-23 11:32:45 · 1630 阅读 · 0 评论 -
吴恩达强化学习复盘(5)如何构建推荐系统
推荐系统,这一主题在学术界受到一定关注,但并不热门。但在商业领域的实际影响和应用案例数量远超其在学术界的受关注程度。比如以淘宝(在线购物)、B站(视频流媒体)、(美团)外卖网站等为例,这些网站或者app会根据用户情况推荐可能购买的商品、观看的电影或尝试的餐馆。对许多公司而言,推荐系统推动了很大一部分的销售,带来了显著的经济效益。二元标签的应用背景推荐系统和集体过滤算法的很多重要应用中,用户不再给出 1 到 5 星的具体评级,而是以二元标签的形式(即喜欢或不喜欢)来表达对物品的态度。原创 2025-04-22 13:48:09 · 997 阅读 · 0 评论 -
吴恩达强化学习复盘(4)异常检测系统开发中的关键思路
在开发异常检测系统时,若能有一种方法在系统开发过程中对其进行评估,就能更快速地做出决策、调整系统并实现改进。比如在选择不同特征、尝试不同参数(如 absalon)时,若有评估方法,就能更轻松地决定是否对算法进行更改,这种评估有时被称为实数评估,即通过计算一个数值来判断算法改进与否。数据假设与应用在实际的异常检测中,虽然主要讨论无标签数据,但假设存在一些标签数据(包含少量先前观察到的异常)是很有帮助的。原创 2025-04-21 11:07:32 · 1272 阅读 · 0 评论 -
吴恩达强化学习复盘(3)异常检测|高斯分布
曲线的中心由均值 μ 决定,曲线的宽度(标准差)由参数 σ 决定,σ² 是分布的方差。从概率角度解释,如果从分布中抽取大量样本(理论上无限个),并绘制非常精细的直方图,最终会得到钟形曲线。基于估计得到的高斯分布,如果新样本落在分布中心附近,P (X) 值较高,认为该样本与其他样本相似,不是异常;如果新样本落在远离中心的位置,P (X) 值较低,则认为该样本是异常的。,每个例子X有n个特征,是一个包含n个数字的向量。对于给定的 μ 和 σ 值,绘制该函数可得钟形曲线,曲线以 μ 为中心,宽度由 σ 决定。原创 2025-04-20 09:05:24 · 1408 阅读 · 0 评论 -
吴恩达强化学习复盘(2)K-Means初始化|K的选择|算法优化
假设我们有 m 个样本,每个样本是一个 n 维向量,要将这些样本划分为 K 个聚类。用表示样本所属的聚类编号(),表示第 k 个聚类的中心(也是一个 n 维向量)。那么,K-Means 算法的优化目标就是最小化畸变函数 J,其公式如下:表示样本到其所属聚类中心的欧氏距离的平方。是所有样本到其所属聚类中心的距离平方和。是为了取平均值,使得畸变函数的值与样本数量无关,便于比较不同数据集上的聚类效果。原创 2025-04-19 06:42:18 · 1177 阅读 · 0 评论 -
吴恩达强化学习复盘(1)聚类算法|K-Means算法
K - Means 算法名称中的 “K” 表示聚类的类别数量,是算法的一个输入参数,用户需要事先指定将数据划分为多少个类别。“Means” 表示均值,因为该算法的核心是通过计算每个聚类中数据点的均值(中心)来确定聚类的归属和更新聚类中心。原创 2025-04-18 12:13:18 · 985 阅读 · 0 评论
分享