24、强化学习：实践出真知

熬夜协会会长

于 2025-11-12 15:39:15 发布

阅读量2

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习与围棋的艺术文章标签：强化学习 PolicyAgent 自我对弈

本文链接：https://blog.youkuaiyun.com/tcp8optimizer/article/details/155230292

深度学习与围棋的艺术专栏收录该内容

37 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习：实践出真知

1. 重复采样与概率分布裁剪

在一些场景中，我们需要从概率分布中进行重复采样。比如在石头剪刀布的例子里，我们可以使用 np.random.choice 函数进行采样。以下是一个简单的示例代码：

import numpy as np

def repeated_rps():
    return np.random.choice(
        ['rock', 'paper', 'scissors'],
        size=3,
        replace=False,
        p=[0.5, 0.3, 0.2])

这个函数会从 ['rock', 'paper', 'scissors'] 中按照给定的概率 [0.5, 0.3, 0.2] 进行不重复的采样，得到一个半随机的有序列表。高概率的元素更有可能出现在列表的前面，但仍保留一定的多样性。

在强化学习过程中，概率分布可能会出现不稳定的情况。特别是在学习初期，智能体可能会对一些偶然的胜利反应过度，从而给一些实际上并不太好的动作赋予较高的概率。为了避免某个动作的概率被推到 1 或 0，我们需要对概率分布进行裁剪。以下是实现裁剪的代码：

def clip_probs(original_probs):
    min_p = 1e-5
    max_p = 1 - min_p
    clipped_probs = np.cl

订阅专栏解锁全文

会员秒杀 ¥9.9 重磅福利

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

熬夜协会会长

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

2、机器学习中的预测与学习：从理论到实践

efc12345678的博客

09-09

本文深入探讨了机器学习中预测与学习的理论基础与实际应用，阐述了学习任务与预测任务的形式等价性，并通过多种预测游戏示例揭示其内在规律。文章详细介绍了监督学习、概念与分类学习、行为学习及金融预测的应用场景与挑战，强调了合理学习标准的重要性。同时结合英特尔奔腾芯片的历史事件，反思技术发展中的可靠性问题，呼吁在追求算法进步的同时注重严谨性与伦理责任。最后展望了机器学习未来的发展方向。

架构师的成长历程：实践出真知

weixin_34088583的博客

12-27

说到架构师，大部分程序员与小编一样都会有一个同样的问题：架构师到底与普通程序员有什么区别？他们平时都在做什么？想什么？也许在大部分的普通程序员的眼里，架构师已经成为了他们唯一的一个目标。也正因为架构师是一门建立在科学，工程基础之上的艺术，一个充满魅力，极其有趣的工作；给人带来了一种不被束缚，不按别人的思路走，自由描绘无限风景的期盼。架构师是没有终点的，它是一种技术的体现，只有坚持不懈的专研和努...

参与评论您还未登录，请先登录后发表或查看评论

大模型+强化学习_总结篇

aolan123的博客

05-05

2065

该算法的训练数据来自人类的标注，提供问题和两个选项，让人类选择更倾向于 A 或 B，或者两者都同样喜欢，或者无法做出判断，从而构建有监督的数据。进而有研究利用强化学习模型探索环境，对大模型调参，以优模型在现实环境中的决策力。在实验中上述模型也有一些弱点，如：经过强化学习精调的模型损失了之前的部分语言能力，对新对象的泛化能力较强，但对新能力的泛化能力较差。接下来考虑一种扩展使用大模型的场景，在游戏，机器人或者其它 Agent 领域中，环境对于大模型来说是未知的，可以采取行动的选项是固定而非由模型自定义的。

大模型+强化学习的基本综述

qq_45689158的博客

06-04

994

在实验中上述模型也有一些弱点，如：经过强化学习精调的模型损失了之前的部分语言能力，对新对象的泛化能力较强，但对新能力的泛化能力较差。该方法通过记录模型在环境中的探索过程，并在模型失败时，利用大模型的思考内容推理出问题所在，并将其记录下来。，在游戏，机器人或者其它 Agent 领域中，环境对于大模型来说是未知的，可以采取行动的选项是固定而非由模型自定义的。进一步的研究发现，上述方法可能隐含着 A>B、B>C，可推出 A>C 的逻辑，而实际上在石头剪刀布这类游戏中，A>C 可能并不成立。

深入理解强化学习核心算法：从动态规划到深度强化学习

weixin_41544125的博客

07-26

971

强化学习既是一门严谨的科学，也是一门精妙的艺术。它要求我们既要理解深刻的数学原理，又要掌握灵活的工程技巧。从动态规划的理想完美，到蒙特卡洛的现实探索，再到时序差分法的实用智慧，每一种方法都有其独特的价值和适用场景。随着深度强化学习的兴起，我们正站在一个新的起点上。未来的强化学习将更加注重样本效率、泛化能力和安全性，这需要我们继续在理论创新和工程实践之间寻找平衡。记住：最好的算法不是最复杂的算法，而是最适合问题的算法。理解这些核心算法的本质，才能在强化学习的海洋中自由航行。

Python机器学习：从入门到精通

YunWisdom

07-18

1163

当您翻开此书，您正踏入一场数据与智慧的修行。机器学习，并非冰冷的符码，而是机器模拟人类洞察世界的法门。本书将带您，以Python为舟，泛游于算法之海。我们不只传授“术”，更探求其后的“道”——从数据的生灭流转中观照规律，于模型的迭代演进里体悟得失。愿您合上书卷时，收获的不仅是驾驭数据的技能，更有一双洞悉复杂、化繁为简的“智慧之眼”。现在，让我们一同启程。

强化学习笔记系列二

full_adder的博客

12-08

315

强化学习入门-2⊳\rhd⊳ 优化问题⊳\rhd⊳ Prediction 与Control⊳\rhd⊳ 动态规划(DP)策略迭代价值迭代⊳\rhd⊳ 蒙特卡洛策略(MC)first-visitevery-visit⊳\rhd⊳ 时序差分TD(0)Q-Learening 2020.12.8 ⊳\rhd⊳ 优化问题上回书说到，我们需要解决以下优化问题： Vπ(s)=∑aπ(a∣s)(R(s,a)+γ∑s′(P(s′∣a,s)Vπ(s′)))V_{ \pi }(s)=\sum_a \pi(a|s)(

强化学习与 PyTorch【1.5】

qq_43416206的博客

04-06

1000

通过类似于递归求解的方式，逐层估算，如果每一层的估算都是准确的，就能迭代向上传递，把上面各层的各个状态的值估算准确。节点位置越靠下，邻近时间终点的位置越近，计算的代价就越小（节点位置越靠上，就表示距离开始的时间越长，在计算估值的时候要参考的时间就更长一些）。也就是说，如果有一个动作“力压群雄”，比其他的动作都要好，那么，上一层的 𝑠𝑠 的估值，就可以考虑只做这一个动作，并以这个前提进行迭代更新。𝜃𝜃 的最大值是 𝜋𝜋， 𝑥𝑥 的最大值是 𝑑𝑑2，这相当于实验中的全部事件的分布

强化学习（一）：强化学习浅谈

muruan08的博客

08-26

1154

最近接触强化学习，发现非常有意思，强化学习多是一种动态规划的思路，使用生活化语言描述，就叫做：实践出真知。相较于有监督和无监督的学习，强化学习更多地是在决策产生结果的反馈基础上进行不断的优化。（在决策结果反馈前，有监督和无监督学习已经固定了决策方案）。 强化学习的使用场景（摘自：深度学习500问-强化学习）：（1）Manufacturing 例如一家日本公司 Fanuc，工厂机器人在拿起一个物...

大一计算机学习心得：基础提升与实践应用

作者特别提到“不能只靠看书”，必须通过反复练习才能真正掌握这些软件的操作逻辑，体现了“实践出真知”的学习理念。此外，文中多次提及“学以致用”“动手操作”“亲身实践”等关键词，反映出当代计算机教育...

智启新程：人工智能赋能高中数学教学的探索与实践

燕鹏

01-04

7977

一方面，个性化教学探索成为热点，借助大数据、机器学习技术深度挖掘学生学习行为、兴趣偏好、知识掌握轨迹等数据，构建精准学生模型，据此为学生量身定制学习路径、推送适配学习资源，确保每个学生都能获得最适宜的知识滋养，如科大讯飞开发的智慧教育产品，已在多所学校试点应用，成效初显。同时，智能辅导系统 24 小时在线，随时为学生答疑，学生遇三角函数难题，拍照上传，系统秒回精准解答，配合关联知识点拓展，助力学生即时攻克难题，知识巩固无延迟，让教学流程一气呵成，全方位提升教学效率。一方面，技术持续迭代升级。

计算机专业实习总结：理论与实践结合提升综合能力

从实习体会部分可以看出，学生对“实践出真知”这一理念有了深刻领悟。在学校中所学的知识往往是抽象的、片段化的，而只有在真实的工作环境中，才能真正理解知识的应用场景与价值所在。例如，书本上讲解的“BIOS设置...

模仿小红书的小网页.html

11-25

模仿小红书的小网页.html

Docker部署GitLab指南[代码]

11-25

本文详细介绍了使用Docker-compose部署GitLab的完整步骤。首先从DockerHub拉取最新版GitLab镜像，然后创建必要的目录结构并编辑docker-compose.yml配置文件，其中包含了端口映射、卷挂载和环境变量等关键配置项。接着通过docker compose命令快速启动GitLab服务，并提供了访问GitLab仓库的方法。最后还说明了如何获取初始root用户密码进行登录。整个过程经过作者亲测有效，为需要搭建GitLab服务的用户提供了实用参考。

ByVision_Cutting_Laser_V6-1-0_操作说明.pdf

11-25

ByVision_Cutting_Laser_V6-1-0_操作说明.pdf

51单片机c源码-1个共阳数码管显示变化数字

最新发布

11-25

51单片机c源码-1个共阳数码管显示变化数字

【高速以太网物理层】1.6TbE PCS通道形成与对齐标记插入机制：面向IEEE 802.3dj标准的多通道数据分布及FEC降级监测方案设计

11-25

内容概要：本文档提出了1.6TbE PCS（物理编码子层）中PCS通道形成与对齐标记（AM）插入的基线方案，作为IEEE P802.3dj任务组标准制定的一部分。文档详细描述了1.6TbE系统中如何将RS-FEC符号按轮询方式分配到16个PCS通道中，每个通道速率为100Gbps，并定义了AM标记在各通道中的分布结构与插入机制。通过对齐标记的映射规则、填充方式、状态字段传输以及伪代码实现，确保发送端与接收端的数据对齐、解交错与正确恢复。此外，还涵盖了FEC误码劣化信号生成和HI_SER监控机制，并讨论了PMA层在不同接口配置下的符号复用要求。该提案与先前采纳的基线共同构成完整的1.6TbE PCS规范。; 适合人群：从事高速以太网物理层设计、通信协议开发或标准制定的工程师和技术专家，具备数字通信与FEC编码基础知识的研发人员；使用场景及目标：①为1.6TbE以太网PCS层的设计提供标准化参考；②指导硬件实现中的AM插入/删除、通道形成、误码监测等功能模块开发；③支持多厂商设备互操作性的统一规范制定；阅读建议：此文档技术性强，涉及大量底层符号映射与伪代码逻辑，建议结合IEEE 802.3现有标准（如CL119、CL172）对照阅读，并关注后续对时钟内容与基线漂移的分析补充。

基于SSM的小码创客教育教学资源库的设计与实现

11-25

随着信息技术在管理上越来越深入而广泛的应用，作为学校以及一些培训机构，都在用信息化战术来部署线上学习以及线上考试，可以与线下的考试有机的结合在一起，实现基于SSM的小码创客教育教学资源库的设计与实现在技术上已成熟。本文介绍了基于SSM的小码创客教育教学资源库的设计与实现的开发全过程。通过分析企业对于基于SSM的小码创客教育教学资源库的设计与实现的需求，创建了一个计算机管理基于SSM的小码创客教育教学资源库的设计与实现的方案。文章介绍了基于SSM的小码创客教育教学资源库的设计与实现的系统分析部分，包括可行性分析等，系统设计部分主要介绍了系统功能设计和数据库设计。本基于SSM的小码创客教育教学资源库的设计与实现有管理员，校长，教师，学员四个角色。管理员可以管理校长，教师，学员等基本信息，校长角色除了校长管理之外，其他管理员可以操作的校长角色都可以操作。教师可以发布论坛，课件，视频，作业，学员可以查看和下载所有发布的信息，还可以上传作业。因而具有一定的实用性。本站是一个B/S模式系统，采用Java的SSM框架作为开发技术，MYSQL数据库设计开发，充分保证系统的稳定性。系统具有界面清晰、操作简单，功能齐全的特点，使得基于SSM的小码创客教育教学资源库的设计与实现管理工作系统化、规范化。

CSS颜色代码大全[项目代码]

11-25

本文提供了CSS颜色代码的详细对照表，包括各种颜色的英文名称及其对应的十六进制代码。内容涵盖了从基本颜色如黑色、白色、红色、绿色、蓝色等，到更复杂的颜色如桃红、紫红、褐橘、米白、金黄、黄绿、蓝绿等多种颜色。此外，还列出了颜色的英文词汇和对应的代码，方便开发者在设计和开发过程中快速查找和使用。这些颜色代码适用于网页设计、UI开发等多个领域，是前端开发者的实用参考资料。